Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Apprentissage automatique

Nouveau jeu de données améliore les modèles de langue pour les conversations multi-échanges

Le dataset M2Lingual améliore les capacités de suivi des instructions dans plusieurs langues.

― 7 min lire


Améliorer les modèles deAméliorer les modèles delangue avec M2LingualLLM dans plein de langues différentes.Le dataset M2Lingual booste la perf des
Table des matières

Les grands modèles de langage (LLMs) sont devenus des outils super populaires pour plein de tâches liées au langage, comme répondre à des questions, résumer des textes, et comprendre différentes langues. Ces modèles fonctionnent beaucoup mieux quand ils sont entraînés avec plein d'instructions variées, surtout dans différentes langues. Mais, la plupart des jeux de données d'entraînement se concentrent surtout sur les langues avec beaucoup de ressources, comme l'anglais, alors qu'on prête moins attention aux langues avec moins de ressources.

Cet article parle d'un nouveau jeu de données qui vise à améliorer la compréhension et le suivi des instructions par les LLMs dans plusieurs langues. Le jeu de données est spécialement conçu pour gérer des Conversations à plusieurs tours, ce qui veut dire qu'il peut soutenir des échanges entre un utilisateur et le modèle. Il couvre aussi une large gamme de langues et de tâches, ce qui le rend plus polyvalent.

Contexte

Le fine-tuning par instruction (IFT) est un processus utilisé pour apprendre aux LLMs comment suivre les instructions données par les utilisateurs. C'est super important pour que ces modèles soient utiles dans des applications réelles. Bien qu'il y ait eu des efforts pour créer des jeux de données IFT efficaces, la plupart se concentrent sur les langues à ressources élevées. Ça laisse plein de langues à ressources limitées mal représentées dans l'entraînement, ce qui limite les capacités des modèles à bien fonctionner dans ces langues.

Les jeux de données multilingues existants se divisent en trois catégories principales : générés par des humains, générés par l'IA avec des humains, et traduits par machine. Les jeux de données générés par des humains peuvent être très variés mais sont aussi longs et coûteux à créer. Les jeux de données générés par l'IA sont moins gourmands en ressources, mais ils peuvent avoir des problèmes comme des préoccupations de confidentialité et des données de mauvaise qualité. Les jeux de données traduits par machine gagnent du temps mais capturent souvent pas les caractéristiques uniques de chaque langue.

Beaucoup de jeux de données se concentrent sur des conversations en domaine ouvert, ce qui veut dire qu'ils ne sont pas forcément bien adaptés aux tâches basées sur des instructions. Ça conduit à un entraînement moins efficace pour les modèles qui doivent suivre des instructions spécifiques dans différentes langues.

Le Nouveau Jeu de Données

Pour pallier ces limitations, un nouveau jeu de données a été créé qui est entièrement synthétique, ce qui veut dire qu'il a été généré entièrement par des algorithmes et non pas par des humains. Ce jeu de données s'appelle M2Lingual et est conçu pour supporter des instructions à plusieurs tours dans plein de langues.

Le processus de création de ce jeu de données impliquait deux étapes clés. La première étape consistait à rassembler un ensemble diversifié d'exemples provenant de jeux de données existants qui avaient des Paires instruction-réponse de haute qualité. La seconde étape était d'appliquer un ensemble de règles spécial (taxonomie) pour transformer ces exemples en instructions plus complexes et plus difficiles. Ça a donné un jeu de données contenant 182 000 paires instruction-réponse dans 70 langues différentes.

Sélection de Semences

Le jeu de données commence avec des exemples de semences pris de deux sources principales. Une source est un jeu de données appelé Aya, qui contient des paires instruction-réponse générales créées par des locuteurs natifs. La seconde source est une autre partie d'Aya, qui inclut des exemples de diverses tâches linguistiques. Ces semences aident à fournir une bonne base pour construire des ensembles d'instructions plus complexes.

Les exemples de semences sont choisis avec soin pour s'assurer qu'ils représentent une large variété de sujets et de tâches. En sélectionnant des exemples des deux sources, le jeu de données bénéficie des forces de chacune, menant à un ensemble d'entraînement plus complet.

Création de Paires Instruction-Réponse

Une fois les semences choisies, elles subissent un processus de transformation pour créer de nouvelles paires instruction-réponse. Cela implique d'appliquer un ensemble de règles conçues pour améliorer la complexité et la richesse des instructions. Cette étape est cruciale car elle permet de générer de nouvelles instructions qui sont non seulement plus difficiles mais capturent aussi les aspects uniques de différentes langues.

Le processus de transformation intègre différents types d'instructions qui aident à créer une interaction plus détaillée et engageante. En faisant ça, le jeu de données est capable de produire des instructions qui sont plus adaptées à la gestion de conversations complexes.

Conversations à Plusieurs Tours

Après avoir généré les nouvelles paires instruction-réponse, l'étape suivante est de créer des conversations à plusieurs tours. C'est important car les conversations dans la vraie vie impliquent souvent des échanges, et les modèles doivent être capables de gérer ces interactions efficacement.

L'aspect multi-tours est introduit à travers un ensemble de variations de dialogue qui permettent à l'IA de répondre de manière naturelle et engageante. Ça inclut plusieurs types de questions de suivi et de réponses, s'assurant que les conversations s'enchaînent bien et couvrent diverses interactions potentielles.

Évaluation

Une fois le jeu de données créé, il est important d'évaluer comment il performe dans des tâches réelles. Le nouveau jeu de données est testé en utilisant divers benchmarks multilingues, évaluant sa capacité à gérer des tâches comme la réponse à des questions, le résumé, et la classification. L'objectif est de comparer les performances des modèles entraînés avec ce jeu de données à ceux entraînés avec d'autres jeux de données existants.

Les premiers résultats montrent que les modèles entraînés avec M2Lingual surpassent de manière significative ceux entraînés avec des jeux de données traditionnels, surtout dans les tâches impliquant des langues à ressources limitées. Ça montre l'efficacité du jeu de données pour améliorer la capacité des LLMs à suivre des instructions dans différentes langues.

Impact sur les Langues à Ressources Limitées

Un des principaux objectifs de ce nouveau jeu de données est d'améliorer la performance des modèles de langage sur les langues à ressources limitées. Ces langues manquent souvent des données d'entraînement extensives disponibles pour les langues à ressources élevées, ce qui conduit à une moins bonne performance des modèles.

Le jeu de données M2Lingual inclut une représentation équilibrée des paires instruction-réponse pour les langues à ressources limitées, s'assurant que ces langues reçoivent l'attention qu'elles méritent. Ça aide à rendre les LLMs plus accessibles et utilisables pour les locuteurs de ces langues, promouvant l'inclusivité dans la technologie linguistique.

Conclusion

L'introduction du jeu de données M2Lingual marque un grand pas en avant dans l'amélioration des capacités des modèles de langage à suivre des instructions dans plusieurs langues. En se concentrant sur des conversations à plusieurs tours et en abordant les lacunes des jeux de données existants, cette nouvelle ressource améliore la performance globale des LLMs, surtout dans les langues moins représentées.

Alors que la technologie linguistique continue d'évoluer, la création de jeux de données comme M2Lingual est essentielle pour s'assurer que toutes les langues, peu importe leurs ressources, bénéficient des avancées dans l'intelligence artificielle. Ce travail ouvre de nouvelles opportunités pour que plus de gens interagissent avec des systèmes alimentés par l'IA, enrichissant finalement l'interaction entre les humains et les machines.

Source originale

Titre: M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models

Résumé: Instruction finetuning (IFT) is critical for aligning Large Language Models (LLMs) to follow instructions. While many effective IFT datasets have been introduced recently, they predominantly focus on high-resource languages like English. To better align LLMs across a broad spectrum of languages and tasks, we propose a fully synthetic, novel taxonomy (Evol) guided Multilingual, Multi-turn instruction finetuning dataset, called M2Lingual. It is constructed by first selecting a diverse set of seed examples and then utilizing the proposed Evol taxonomy to convert these seeds into complex and challenging multi-turn instructions. We demonstrate the effectiveness of M2Lingual by training LLMs of varying sizes and showcasing the enhanced performance across a diverse set of languages. We contribute the 2 step Evol taxonomy with the guided generation code: https://github.com/ServiceNow/M2Lingual, as well as the first fully synthetic, general and task-oriented, multi-turn, multilingual dataset built with Evol - M2Lingual: https://huggingface.co/datasets/ServiceNow-AI/ M2Lingual - containing 182K total IFT pairs, covering 70 languages and 17+ NLP tasks.

Auteurs: Rishabh Maheshwary, Vikas Yadav, Hoang Nguyen, Khyati Mahajan, Sathwik Tejaswi Madhusudhan

Dernière mise à jour: 2024-06-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.16783

Source PDF: https://arxiv.org/pdf/2406.16783

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires