Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Avancées dans les capacités de traduction des modèles de langage

Des chercheurs améliorent les compétences de traduction pour plus de 100 langues, en se concentrant sur les langues à faibles ressources.

― 9 min lire


Améliorer les LLM pour laAméliorer les LLM pour latraduction de langueles langues à faible ressources.significativement la traduction pourDe nouvelles méthodes boostent
Table des matières

Les grands modèles de langage (LLMs) sont des systèmes informatiques conçus pour comprendre et générer du langage humain. Ils deviennent très bons pour traduire des textes entre différentes langues, surtout pour des langues largement parlées comme l'anglais, l'espagnol et le chinois. Cependant, quand il s'agit de langues moins courantes, les LLMs galèrent parce qu'il n'y a pas assez de données pour ces langues pendant leur entraînement. Cet article examine comment les chercheurs travaillent pour améliorer les LLMs afin qu'ils puissent mieux traduire plus de 100 langues, en particulier celles qui sont moins représentées.

Le défi des langues à faibles ressources

Beaucoup de LLMs fonctionnent bien parce qu'ils ont accès à plein de données dans des langues à fortes ressources. Malheureusement, les langues à faibles ressources n'ont pas la même quantité de matériel d'entraînement. Ce manque d'infos mène à une mauvaise performance de traduction. Pour mieux comprendre ce problème, on peut le voir comme ça : si une personne apprend à parler uniquement à partir de livres en anglais, elle aurait sûrement des difficultés à traduire une langue qu'elle n'a jamais vraiment étudiée, comme le swahili ou le basque.

Pour s'attaquer à ce problème, des chercheurs ont dédié 35 000 heures de puissance GPU pour faire un entraînement plus poussé sur les LLMs. Ils se sont concentrés sur l'amélioration des compétences en traduction pour plus de 100 langues. Cela a impliqué l'utilisation de la série de modèles LLaMA, qui sert de base à leurs efforts.

Stratégies d'entraînement

Les chercheurs ont examiné différentes méthodes pour améliorer l'entraînement. Ils ont utilisé des techniques d'expansion du Vocabulaire et d'augmentation des données. L'expansion du vocabulaire signifie ajouter de nouveaux mots au modèle, tandis que l'augmentation des données consiste à utiliser des données existantes pour créer plus d'exemples d'entraînement.

Une des découvertes importantes a été que, en gérant soigneusement le vocabulaire, les modèles pouvaient mieux traduire sans perdre leur capacité à comprendre d'autres tâches. Les chercheurs ont réussi à améliorer la qualité de la traduction de plus de 10 points sur un benchmark spécifique par rapport aux modèles open-source existants.

Résultats des expériences

L'équipe a mené de nombreuses expériences pour évaluer les traductions dans les deux sens. Ils ont comparé les résultats pour plusieurs langues en utilisant le test Flores-101, qui est une évaluation standard pour vérifier la qualité de la traduction. Les résultats ont montré que, bien que de nombreux LLMs modestes aient bien fonctionné pour les traductions centrées sur l'anglais, ils ont souvent mal performé pour l'arabe et d'autres langues moins représentées.

Il était clair, à partir de ces expériences, que les LLMs formés sur des données principalement centrées sur l'anglais sont désavantagés lorsqu'il s'agit de traduire des langues avec peu de données d'entraînement.

Collecte de données pour l'entraînement

Pour construire un LLM solide capable de traiter la traduction pour plusieurs langues, il est crucial de rassembler suffisamment de données d'entraînement. Les données d'entraînement réunies comprenaient des ensembles de données Monolingues (textes dans une langue) et parallèles (textes dans deux langues). Les données parallèles aident le modèle à comprendre comment les phrases et les phrases se traduisent entre les langues.

Pour les langues avec très peu de données, les chercheurs ont créé ce qu'on appelle un ensemble de données pseudo-parallèle. Ils ont utilisé des dictionnaires multilingues pour générer des traductions, ce qui a permis au modèle d'apprendre même lorsque les données étaient rares.

Gestion du vocabulaire

Une des difficultés rencontrées lorsqu'il s'agit d'élargir le soutien linguistique est de déterminer le meilleur vocabulaire à utiliser. Pendant le processus d'entraînement, les chercheurs ont évalué comment l'ajout de jetons spécifiques à une langue affecterait la performance du modèle. Ils ont découvert que simplement ajouter de nouveaux jetons pouvait nuire aux capacités de traduction du LLM.

La stratégie la plus efficace s'est avérée être de se rapprocher le plus possible du vocabulaire original utilisé dans le LLM. Cette approche non seulement préservait les connaissances existantes du modèle, mais facilitait aussi l'ajout de soutien pour de nouvelles langues.

Stratégies d'augmentation des données

Pour remédier au manque de données d'entraînement pour les langues à faibles ressources, les chercheurs ont utilisé plusieurs stratégies d'augmentation des données. Ils ont examiné diverses méthodes pour créer plus de données d'entraînement en utilisant des dictionnaires et différentes sources. Les meilleurs résultats ont été obtenus en utilisant des données parallèles basées sur des dictionnaires multilingues.

Les chercheurs ont constaté qu'il était le plus efficace d'utiliser des données parallèles lors de l'augmentation des données d'entraînement. Cela signifiait qu'ils pouvaient combiner des phrases de différentes langues pour créer plus d'exemples pour que le modèle puisse apprendre.

Processus d'entraînement

L'entraînement du LLM a impliqué un pré-entraînement continu sur les données recueillies. Cela signifiait qu'à mesure que plus de données devenaient disponibles, le modèle pouvait continuer à apprendre sans perdre les compétences qu'il avait déjà acquises. L'entraînement a duré environ 60 jours et a utilisé des GPU puissants pour traiter les données efficacement.

Pendant l'entraînement, les chercheurs ont prêté une attention particulière à la façon d'utiliser à la fois les données parallèles et monolingues. Plus précisément, ils se sont concentrés sur les traductions ayant moins de données disponibles. En mettant constamment à jour le modèle avec de nouvelles données, les chercheurs ont veillé à ce que le LLM devienne de plus en plus capable dans les tâches de traduction multilingue.

Évaluation des performances

Après l'entraînement, les chercheurs ont évalué le LLM en utilisant divers benchmarks pour vérifier les améliorations en qualité de traduction. Ils ont comparé leur modèle à plusieurs modèles existants, analysant comment il performait sur les langues à fortes et à faibles ressources.

Ils ont découvert que le nouveau modèle surpassait considérablement les modèles de référence, en particulier dans les tâches de traduction à faibles ressources. Ces améliorations étaient cohérentes à travers différents benchmarks, indiquant que l'approche d'entraînement continu était efficace.

Améliorations des capacités de traduction

Les résultats ont montré que le nouveau LLM non seulement améliorait les performances de traduction, mais maintenait aussi sa capacité globale à comprendre et à répondre à d'autres tâches. Cela signifie que le modèle peut servir de base solide pour de futures applications multilingues au-delà de la simple traduction.

En testant la qualité de la traduction à travers divers benchmarks, des améliorations significatives ont été notées, surtout pour les traductions qui étaient traditionnellement difficiles à traiter pour les modèles. Le LLM a même montré de bonnes performances sur des langues qui avaient été négligées lors des efforts d'entraînement précédents.

Lutte contre l'oubli catastrophique

Un problème courant lors de l'entraînement de modèles sur de nouvelles données est qu'ils peuvent oublier ce qu'ils ont appris lors des Entraînements précédents. Cela s'appelle l'oubli catastrophique. Cependant, dans ce cas, les chercheurs ont constaté que le processus de pré-entraînement continu n'a pas compromis les capacités générales du modèle d'origine.

En gérant soigneusement comment de nouvelles données étaient introduites dans le modèle, ils ont veillé à ce que les connaissances existantes restent intactes tout en améliorant la capacité du modèle à gérer plusieurs langues.

Comparaison avec d'autres modèles

Les chercheurs ont comparé leur nouveau modèle à d'autres modèles spécialisés conçus spécifiquement pour des tâches de traduction. Ils ont découvert que leur modèle performait mieux dans les scénarios de traduction à faibles ressources mais avait encore des marges de progression pour rivaliser avec les traductions des langues à fortes ressources.

Leurs découvertes indiquent que le nouveau modèle a atteint un niveau de qualité similaire aux systèmes de traduction spécialisés, ce qui est une avancée importante pour les LLMs conçus pour des tâches générales.

Améliorations futures

En regardant vers l'avenir, les chercheurs ont repéré des domaines où le pré-entraînement continu pourrait être encore optimisé. Ils ont suggéré que le raffinement du cadre utilisé pour étendre les capacités linguistiques du modèle pourrait aider à réduire l'écart de performance entre les LLMs généraux et les systèmes de traduction spécialisés.

Bien que les résultats actuels soient prometteurs, les chercheurs reconnaissent qu'il reste encore du travail à faire pour s'assurer que les LLMs puissent efficacement traiter les traductions dans encore plus de langues, en particulier celles qui sont actuellement sous-représentées.

Conclusion

En résumé, les chercheurs ont fait des avancées significatives pour améliorer les capacités de traduction des LLMs pour plus de 100 langues, en se concentrant particulièrement sur les langues à faibles ressources. En utilisant des stratégies d'entraînement efficaces, en gérant le vocabulaire de manière judicieuse et en augmentant soigneusement les données, ils ont créé un modèle qui excelle dans la traduction tout en conservant son efficacité globale à comprendre le langage humain.

Le travail en cours dans ce domaine ouvrira sans aucun doute la voie à des modèles linguistiques encore plus avancés à l'avenir, facilitant la communication entre les gens à travers différentes langues et cultures. L'espoir est que ces avancées aideront à réduire les barrières linguistiques existantes, permettant une meilleure compréhension et coopération à l'échelle mondiale.

Source originale

Titre: LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages

Résumé: Large Language Models (LLMs) demonstrate remarkable translation capabilities in high-resource language tasks, yet their performance in low-resource languages is hindered by insufficient multilingual data during pre-training. To address this, we conduct extensive multilingual continual pre-training on the LLaMA series models, enabling translation support across more than 100 languages. Through a comprehensive analysis of training strategies, such as vocabulary expansion and data augmentation, we develop LLaMAX. Remarkably, without sacrificing its generalization ability, LLaMAX achieves significantly higher translation performance compared to existing open-source LLMs (by more than 10 spBLEU points) and performs on-par with specialized translation model (M2M-100-12B) on the Flores-101 benchmark. Extensive experiments indicate that LLaMAX can serve as a robust multilingual foundation model. The code \footnote{\url{https://github.com/CONE-MT/LLaMAX/.}} and the models \footnote{\url{https://huggingface.co/LLaMAX/.}} are publicly available.

Auteurs: Yinquan Lu, Wenhao Zhu, Lei Li, Yu Qiao, Fei Yuan

Dernière mise à jour: 2024-10-11 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.05975

Source PDF: https://arxiv.org/pdf/2407.05975

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires