Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avanços em Modelos de Linguagem Hebraicos: DictaLM 2.0

Apresentando o DictaLM 2.0 e o DictaLM 2.0-Instruct pra melhorar o processamento da língua hebraica.

― 7 min ler


Avanço no Modelo deAvanço no Modelo deLinguagem HebraicaNLP em hebraico.Lançando o DictaLM 2.0 para desafios de
Índice

Treinar grandes modelos de linguagem (LLMs) para idiomas com menos dados disponíveis, como o hebraico, traz desafios específicos. Este artigo fala sobre o desenvolvimento do DictaLM 2.0 e do DictaLM 2.0-Instruct, dois modelos de linguagem avançados feitos para funcionar melhor com o hebraico. Esses modelos foram criados a partir do modelo Mistral e treinados com uma grande quantidade de dados, cerca de 200 bilhões de tokens, em hebraico e inglês.

Desafios no Treinamento de LLMs para Hebraico

Idiomas como o hebraico podem ser complicados para LLMs devido à falta de dados e estruturas complexas. O hebraico tem características gramaticais ricas, mas não tem conjuntos de dados substanciais suficientes. Isso dificulta o treinamento de modelos eficazes. Além disso, o processo de dividir o hebraico em partes gerenciáveis, chamado de Tokenização, muitas vezes não é adequado para um idioma com menos recursos. Isso resulta em um desempenho ruim ao usar modelos padrão não feitos para o hebraico.

Apresentando o DictaLM 2.0 e o DictaLM 2.0-Instruct

Para enfrentar esses problemas, criamos o DictaLM 2.0 e o DictaLM 2.0-Instruct, feitos especificamente para o hebraico. Eles foram construídos sobre o modelo Mistral e treinados em uma mistura equilibrada de dados em hebraico e inglês. Adaptar esses modelos envolveu usar métodos específicos diferentes de treinar do zero. Isso incluiu adicionar tokens focados no hebraico ao tokenizador do modelo e ajustar o sistema para garantir que ele aprenda de maneira eficaz.

Para o DictaLM 2.0-Instruct, refinamos ainda mais o modelo usando um conjunto de dados especial com o objetivo de ajudá-lo a seguir instruções específicas melhor. Esse ajuste foi crucial para melhorar o desempenho do modelo em tarefas.

Novos Métodos de Avaliação para LLMs em Hebraico

Para avaliar corretamente esses novos modelos, criamos uma suíte de benchmark especificamente para avaliar modelos de linguagem hebraica. Essa suíte inclui várias tarefas, como responder perguntas, analisar sentimentos, tradução e resumo. Através dessa avaliação, percebemos que o DictaLM 2.0 e o DictaLM 2.0-Instruct se saíram excepcionalmente bem, estabelecendo um novo padrão para o processamento de linguagem em hebraico.

A Importância da Avaliação

A avaliação é fundamental no desenvolvimento de modelos. Ela ajuda a verificar como um modelo funciona em várias situações. O principal objetivo é garantir que o modelo seja confiável e eficaz. Como não havia muitas ferramentas de avaliação relevantes para modelos hebraicos no começo, desenvolvemos nossos próprios métodos de medição e conjuntos de dados.

Avaliação Automática

Nosso método de avaliação automática usa uma abordagem de aprendizado com poucos exemplos, em que o modelo recebe poucos exemplos e é solicitado a responder. Isso facilita a medição do desempenho em diferentes tarefas. Criamos várias tarefas de avaliação para testar várias habilidades:

  1. Perguntas e Respostas em Hebraico: Isso verifica como o modelo pode compreender o hebraico e fornecer respostas precisas com base no contexto.

  2. Análise de Sentimentos: Aqui, o modelo deve identificar se os textos expressam sentimentos positivos, negativos ou neutros.

  3. Desafio do Winograd Schema: Isso testa a capacidade do modelo de resolver pronomes e ambiguidades em frases.

  4. Tradução: Isso avalia como o modelo traduz entre hebraico e inglês mantendo o significado.

Essas tarefas nos permitem avaliar o desempenho geral do DictaLM 2.0 e do DictaLM 2.0-Instruct em comparação com outros modelos de ponta.

Avaliação Humana

A avaliação humana é outra forma de medir o desempenho do modelo. Neste método, pessoas comparam as traduções de nossos modelos com as produzidas por ferramentas como o Google Translate, fornecendo insights valiosos. Esse feedback pode mostrar como os modelos se saem em cenários do mundo real.

Fizemos testes em que avaliadores humanos analisaram as traduções de ambos os modelos e escolheram a melhor. Os resultados mostraram uma forte preferência pelas traduções do nosso modelo, indicando sua eficácia em produzir trabalhos de alta qualidade.

Avaliação de Resumo

Para medir como os modelos resumem informações, usamos uma coleção de documentos de notícias em hebraico emparelhados com resumos criados por humanos. Cada modelo foi testado em sua capacidade de resumir esses documentos. Para essa avaliação, usamos um sistema de pontuação baseado na relevância, coerência, consistência e fluência dos resumos.

As pontuações destacaram como o DictaLM 2.0 e o DictaLM 2.0-Instruct se comparam com modelos conhecidos de grandes empresas. Embora ainda não estejam no mesmo nível de modelos proprietários, nossos modelos mostraram desempenho sólido e servem como boas alternativas de código aberto.

Aprendendo com Modelos Anteriores

O desenvolvimento do DictaLM 2.0 e do DictaLM 2.0-Instruct se beneficiou das lições aprendidas ao adaptar outros modelos a diferentes idiomas. Por exemplo, alguns projetos ampliaram os tokenizers de seus modelos para incluir tokens especificamente para um novo idioma, melhorando muito o desempenho. Nossa abordagem combinou várias estratégias para garantir que adotássemos os melhores métodos.

Coleta de Dados para Treinamento

A coleta de dados foi uma parte significativa na construção desses modelos. Coletamos textos em hebraico de uma ampla gama de fontes, incluindo internet, redes sociais, notícias e vários livros em hebraico. O conjunto de dados foi então limpo e filtrado para garantir alta qualidade.

Um processo de limpeza rigoroso ajudou a remover informações irrelevantes e dados de baixa qualidade. Isso incluiu substituir texto estrangeiro, remover caracteres indesejados e eliminar duplicatas.

Processo de Treinamento

O treinamento dos nossos modelos envolveu várias etapas. Inicialmente, usamos um modelo de última geração como ponto de partida. Essa abordagem economiza tempo e recursos. Em seguida, ajustamos o tokenizador para lidar melhor com o hebraico, garantindo que o modelo pudesse se adaptar efetivamente.

Assim que o tokenizador foi configurado, começamos um pré-treinamento contínuo em um grande conjunto de dados. Essa fase permitiu que o modelo aprendessem a partir de muitos dados não supervisionados. O treinamento ocorreu ao longo de um longo período para refinar cuidadosamente as habilidades do modelo.

Ajustes Finais e Melhorias

Após criar o DictaLM 2.0, passamos a ajustá-lo através de um processo de tuning. Isso envolveu treinar o modelo em um conjunto de dados contendo instruções e respostas correspondentes. Essa etapa foi essencial para tornar o modelo mais responsivo e capaz de seguir pedidos específicos.

Para finalizar o modelo, aplicamos a Otimização por Preferência Direta (DPO), aprimorando sua capacidade de gerar respostas contextualmente relevantes com base no feedback do usuário. Ao integrar entradas reais de usuários, garantimos que o modelo possa se adaptar e melhorar continuamente.

Contribuições para a Área de PNL

Com a introdução do DictaLM 2.0 e do DictaLM 2.0-Instruct, estamos fazendo contribuições significativas para a área de processamento de linguagem natural em hebraico. Nossos métodos e avaliações estabelecem novos padrões para LLMs hebraicos, abordando os desafios enfrentados por idiomas com poucos recursos.

Também criamos um ranking público para LLMs hebraicos, permitindo que pesquisadores comparem e avaliem seus modelos facilmente. Isso incentiva a colaboração e o desenvolvimento dentro da comunidade, levando, em última análise, a melhor tecnologia para o processamento da língua hebraica.

Conclusão

O desenvolvimento do DictaLM 2.0 e do DictaLM 2.0-Instruct reflete um avanço significativo na área de processamento de linguagem natural em hebraico. Ao enfrentar os desafios específicos do hebraico e outras línguas com poucos recursos, conseguimos criar modelos que oferecem alto desempenho e usabilidade.

Os novos métodos de avaliação e recursos fornecidos contribuem para a pesquisa e inovação contínuas nessa área. Nosso trabalho apoia um movimento mais amplo em direção a melhores tecnologias de linguagem, promovendo diversidade e inclusão no campo.

Fonte original

Título: Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities

Resumo: Training large language models (LLMs) in low-resource languages such as Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a substantial corpus of approximately 200 billion tokens in both Hebrew and English. Adapting a pre-trained model to a new language involves specialized techniques that differ significantly from training a model from scratch or further training existing models on well-resourced languages such as English. We outline these novel training methodologies, which facilitate effective learning and adaptation to the linguistic properties of Hebrew. Additionally, we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to enhance its performance on task-specific instructions. To rigorously evaluate our models, we introduce a new benchmark suite for Hebrew LLM evaluation, covering a diverse set of tasks including Question Answering, Sentiment Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work not only addresses the intricacies of training LLMs in low-resource languages but also proposes a framework that can be leveraged for adapting other LLMs to various non-English languages, contributing to the broader field of multilingual NLP.

Autores: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel

Última atualização: 2024-07-09 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.07080

Fonte PDF: https://arxiv.org/pdf/2407.07080

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes