Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Aprendizagem de máquinas

Novo conjunto de dados melhora modelos de linguagem para conversas de múltiplos turnos

O dataset M2Lingual melhora as habilidades de seguir instruções em várias línguas.

― 7 min ler


Impulsionando Modelos deImpulsionando Modelos deLinguagem com M2Lingualdesempenho dos LLMs em várias línguas.O dataset M2Lingual melhora o
Índice

Modelos de linguagem grandes (LLMs) viraram ferramentas populares pra várias tarefas que envolvem linguagem, como responder perguntas, resumir textos e entender diferentes idiomas. Esses modelos se saem muito melhor quando são treinados com uma variedade de instruções, especialmente em diferentes idiomas. Mas a maioria dos conjuntos de dados de treinamento foca principalmente em idiomas que têm muitos recursos, tipo inglês, enquanto menos atenção é dada a idiomas com menos recursos.

Esse artigo fala sobre um novo conjunto de dados que tem como objetivo melhorar a compreensão e o seguimento de instruções pelos LLMs em várias línguas. O conjunto de dados é projetado pra lidar com conversas de múltiplas turnos, ou seja, ele consegue suportar trocas em que o usuário e o modelo se comunicam de volta e pra frente. Ele também abrange uma ampla gama de idiomas e tarefas, tornando tudo mais versátil.

Contexto

O ajuste fino de instruções (IFT) é um processo usado pra ensinar os LLMs a seguirem as instruções dadas pelos usuários. Isso é crucial pra fazer esses modelos serem úteis em aplicações do dia a dia. Embora tenha havido esforços pra criar conjuntos de dados de IFT eficazes, a maioria deles foca em idiomas com muitos recursos. Isso deixa muitos idiomas com poucos recursos mal representados no treinamento, o que limita a capacidade dos modelos de se saírem bem nesses idiomas.

Os conjuntos de dados multilíngues existentes se encaixam em três categorias principais: gerados por humanos, gerados por humanos e IA, e traduzidos por máquina. Conjuntos de dados gerados por humanos podem ser bem diversos, mas também são demorados e caros de criar. Conjuntos gerados por humanos e IA são menos exigentes em termos de recursos, mas podem ter problemas como preocupações de privacidade e dados de baixa qualidade. Os conjuntos traduzidos por máquina economizam tempo, mas muitas vezes não capturam as características únicas de cada língua.

Muitos conjuntos de dados focam em conversas de domínio aberto, o que significa que talvez não sejam muito adequados pra tarefas baseadas em instruções. Isso leva a um treinamento menos eficaz pra modelos que precisam seguir instruções específicas em várias línguas.

O Novo Conjunto de Dados

Pra resolver essas limitações, um novo conjunto de dados foi criado que é totalmente sintético, ou seja, foi gerado inteiramente por algoritmos em vez de esforço humano. Esse conjunto de dados se chama M2Lingual e é projetado pra suportar instruções de múltiplas turnos em muitas línguas.

O processo de criação desse conjunto envolveu dois passos principais. O primeiro foi reunir um conjunto diversificado de exemplos de conjuntos de dados existentes que tinham pares de instrução-resposta de alta qualidade. O segundo passo foi aplicar um conjunto especial de regras (taxonomia) pra transformar esses exemplos em instruções mais complexas e desafiadoras. Isso resultou em um conjunto de dados que contém 182.000 pares de instrução-resposta em 70 idiomas diferentes.

Seleção de Sementes

O conjunto de dados começa com exemplos de sementes tirados de duas fontes principais. Uma fonte é um conjunto de dados chamado Aya, que contém pares de instrução-resposta gerais criados por falantes nativos. A segunda fonte é outra parte do Aya, que inclui exemplos de várias tarefas de linguagem. Essas sementes ajudam a fornecer uma boa base pra construir conjuntos de instruções mais complexas.

Os exemplos de sementes são selecionados cuidadosamente pra garantir que representem uma ampla variedade de tópicos e tarefas. Ao selecionar exemplos de ambas as fontes, o conjunto de dados se beneficia das forças de cada uma, resultando em um conjunto de treinamento mais abrangente.

Criando Pares de Instrução-Resposta

Uma vez que as sementes são selecionadas, elas passam por um processo de transformação pra criar novos pares de instrução-resposta. Isso envolve aplicar um conjunto de regras projetadas pra aumentar a complexidade e a riqueza das instruções. Esse passo é crucial porque permite a geração de novas instruções que são não só mais desafiadoras, mas também capturam os aspectos únicos de diferentes línguas.

O processo de transformação incorpora diferentes tipos de instruções que ajudam a criar uma interação mais detalhada e envolvente. Com isso, o conjunto de dados consegue produzir instruções que são mais adequadas pra lidar com conversas complexas.

Conversas de Múltiplos Turnos

Depois de gerar os novos pares de instrução-resposta, o próximo passo é criar conversas de múltiplos turnos. Isso é importante porque as conversas na vida real muitas vezes envolvem trocas de volta e pra frente, e os modelos precisam ser capazes de lidar com essas interações de forma eficaz.

O aspecto de múltiplos turnos é introduzido por meio de um conjunto de variações de diálogo que permitem que a IA responda de uma forma que pareça natural e envolvente. Isso inclui vários tipos de perguntas e respostas de acompanhamento, garantindo que as conversas fluam suavemente e cubram várias interações potenciais.

Avaliação

Uma vez que o conjunto de dados é criado, é importante avaliar o quão bem ele se sai em tarefas do mundo real. O novo conjunto de dados é testado usando várias referências multilíngues, avaliando sua capacidade de lidar com tarefas como responder perguntas, resumir e classificar. O objetivo é comparar o desempenho de modelos treinados com esse conjunto em relação àqueles treinados com outros conjuntos de dados existentes.

Os resultados iniciais mostram que os modelos treinados com M2Lingual superam significativamente aqueles treinados com conjuntos tradicionais, especialmente em tarefas que envolvem idiomas com poucos recursos. Isso demonstra a eficácia do conjunto em melhorar a capacidade dos LLMs de seguir instruções em diferentes idiomas.

Impacto nos Idiomas com Poucos Recursos

Um dos principais objetivos do novo conjunto de dados é melhorar o desempenho dos modelos de linguagem em idiomas com poucos recursos. Esses idiomas muitas vezes não têm os dados extensivos de treinamento disponíveis para idiomas com muitos recursos, levando a um desempenho pior dos modelos.

O conjunto de dados M2Lingual inclui uma representação balanceada de pares de instrução-resposta para idiomas com poucos recursos, garantindo que esses idiomas recebam a atenção que merecem. Isso ajuda a tornar os LLMs mais acessíveis e utilizáveis para falantes desses idiomas, promovendo a inclusão na tecnologia de linguagem.

Conclusão

A introdução do conjunto de dados M2Lingual marca um passo significativo pra melhorar as habilidades dos modelos de linguagem em seguir instruções em várias línguas. Ao focar em conversas de múltiplos turnos e abordar as limitações dos conjuntos de dados existentes, esse novo recurso melhora o desempenho geral dos LLMs, especialmente em idiomas menos representados.

Conforme a tecnologia de linguagem continua a evoluir, a criação de conjuntos de dados como o M2Lingual é essencial pra garantir que todos os idiomas, independentemente da disponibilidade de recursos, se beneficiem dos avanços em inteligência artificial. Esse trabalho abre novas oportunidades pra mais pessoas se envolverem com sistemas impulsionados por IA, enriquecendo, no fim das contas, a interação entre humanos e máquinas.

Fonte original

Título: M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models

Resumo: Instruction finetuning (IFT) is critical for aligning Large Language Models (LLMs) to follow instructions. While many effective IFT datasets have been introduced recently, they predominantly focus on high-resource languages like English. To better align LLMs across a broad spectrum of languages and tasks, we propose a fully synthetic, novel taxonomy (Evol) guided Multilingual, Multi-turn instruction finetuning dataset, called M2Lingual. It is constructed by first selecting a diverse set of seed examples and then utilizing the proposed Evol taxonomy to convert these seeds into complex and challenging multi-turn instructions. We demonstrate the effectiveness of M2Lingual by training LLMs of varying sizes and showcasing the enhanced performance across a diverse set of languages. We contribute the 2 step Evol taxonomy with the guided generation code: https://github.com/ServiceNow/M2Lingual, as well as the first fully synthetic, general and task-oriented, multi-turn, multilingual dataset built with Evol - M2Lingual: https://huggingface.co/datasets/ServiceNow-AI/ M2Lingual - containing 182K total IFT pairs, covering 70 languages and 17+ NLP tasks.

Autores: Rishabh Maheshwary, Vikas Yadav, Hoang Nguyen, Khyati Mahajan, Sathwik Tejaswi Madhusudhan

Última atualização: 2024-06-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.16783

Fonte PDF: https://arxiv.org/pdf/2406.16783

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes