Avancées dans la traduction automatique avec des modèles de langues parallèles
Cette étude explore de nouveaux modèles pour améliorer la traduction linguistique en utilisant des données appariées.
― 11 min lire
Table des matières
- Contexte de la Traduction automatique neuronale
- Contributions
- Ensemble de Données Centré sur le Catalan
- Prétraitement des Données
- Tokenisation et Stratégie d'Invite
- Paramètres d'Entraînement
- Évaluation de la Qualité de la Traduction
- Vue d'Ensemble des Résultats
- Performance dans les Traductions Supervisées et en Zéro-Shot
- Importance de la Taille du Vocabulaire
- Comprendre le Comportement du Modèle
- Mécanismes d'Attention
- Redondance dans les Têtes d'Attention
- Espaces de Représentation Linguistique
- Visualisation de la Représentation Linguistique
- Conclusion et Travaux Futurs
- Limitations
- Informations Supplémentaires
- Source originale
- Liens de référence
Les grands modèles de langage (LLMs) sont devenus très bons dans de nombreuses tâches qui impliquent le traitement du langage humain. L'une de ces tâches est la traduction automatique, qui consiste à traduire du texte d'une langue à une autre. Dans le passé, l'entraînement de ces modèles reposait souvent sur des méthodes impliquant plusieurs étapes, comme l'ajustement des instructions ou l'entraînement répété du modèle. Cependant, il n'y a pas eu beaucoup de recherches sur la performance des LLMs lorsqu'ils sont formés uniquement sur des données qui associent des textes dans différentes langues.
Dans cette étude, on présente un nouveau type de modèle appelé le Modèle de Langue Parallèle. Cette collection comprend trois versions différentes de LLMs, chacune contenant 2 milliards de paramètres et utilisant des tailles de vocabulaire différentes : 32k, 128k et 256k. Ces modèles sont formés spécifiquement sur des exemples reliant la langue catalane à huit autres langues. Nos modèles montrent une performance similaire à celle des systèmes précédents qui utilisaient une structure différente (encodeur-décodeur) pour traduire entre 16 paires de langues connues et 56 paires de langues que le modèle n'a pas vues auparavant. À travers ces modèles, on examine de près comment les LLMs peuvent traduire, comment différentes parties des invites affectent leur performance, et comment ils représentent différentes langues.
Traduction automatique neuronale
Contexte de laLa traduction automatique neuronale (NMT) utilise généralement deux composants : un encodeur et un décodeur. L'encodeur lit le texte source et le décodeur produit le texte cible, en s'appuyant sur les informations reçues de l'encodeur. Récemment, des chercheurs se sont penchés sur des modèles qui n'utilisent que la partie décodeur. Dans ces modèles, le texte source sert d'invite, ce qui simplifie le processus puisque l'on n'a plus besoin d'un encodeur séparé.
L'intérêt croissant pour les LLMs a conduit à plus d'études axées sur l'application de ces modèles aux tâches de traduction. Des techniques comme l'ajustement des invites et le réglage des instructions ont été utilisées pour adapter les LLMs à la traduction, et bien que ces techniques aient donné de bons résultats, cela soulève des questions sur la performance de ces modèles s'ils étaient formés uniquement sur des données appariées.
Notre recherche vise à répondre à certaines de ces questions en formant des LLMs sur des données parallèles pour évaluer leur performance en traduction automatique. On veut spécifiquement savoir : comment les LLMs formés uniquement sur des données appariées se débrouillent dans des tâches de traduction ? À quel point utilisent-ils efficacement l'information des invites pour créer des traductions précises ?
Contributions
On propose deux principales contributions dans ce travail. D'abord, on présente le Modèle de Langue Parallèle, composé de trois LLMs multilingues différents formés de zéro en utilisant du texte apparié centré sur le catalan. Chaque version a une taille de vocabulaire différente : 32k, 128k et 256k. Ces modèles performent bien tant dans les tâches de traduction supervisées que dans les scénarios de zéro-shot, ce qui veut dire qu'ils peuvent traduire sans avoir vu ces paires de langues spécifiques lors de l'entraînement.
Ensuite, on analyse comment ces modèles font des traductions en examinant comment ils utilisent l'information du contexte. Nos expériences révèlent des motifs d'attention uniques à travers différentes couches du modèle et comment les variations dans les invites affectent la performance. On identifie aussi que lorsque l'étiquette de langue source est manquante, la performance varie considérablement entre les langues. Comme résultat annexe, on propose une méthode pour supprimer certaines têtes d'attention dans le modèle sans affecter significativement sa performance. On étudie aussi comment le modèle représente les langues à travers ses couches d'attention.
Ensemble de Données Centré sur le Catalan
Pour enquêter sur les capacités de traduction dans des modèles uniquement décodeurs, on utilise un ensemble de données axé sur le catalan. Cet ensemble comprend des paires de phrases en catalan et huit autres langues : espagnol, français, italien, portugais, galicien, allemand, anglais et basque. Pour chaque langue, on a des directions de traduction vers et depuis le catalan. Notre ensemble de données se compose de 783,6 millions de phrases, ce qui représente plus de 30 milliards de mots.
Prétraitement des Données
On commence par filtrer les données avec un outil appelé LaBSE. Cette étape garantit qu'on enlève les traductions incorrectes. Ensuite, on procède à la suppression des entrées dupliquées et à la normalisation de la ponctuation à l'aide d'un autre outil appelé Bifixer. Plus de détails sur l'ensemble de données sont fournis dans une annexe.
Tokenisation et Stratégie d'Invite
Des recherches précédentes ont montré que le fait d'avoir des mots dans le vocabulaire qui se chevauchent peut avoir un impact significatif sur la performance de la traduction. Dans notre cas, on entraîne trois tokenizers avec différentes tailles de vocabulaire (32k, 128k et 256k) en utilisant BPE, qui est une méthode de tokenisation. Notre objectif est d'évaluer comment la taille du vocabulaire influence la qualité de la traduction, surtout dans des scénarios où le modèle n'a pas été directement entraîné sur une paire de langues particulière.
Pour nos tokenizers, on choisit d'équilibrer la représentation des différentes langues dans nos données d'entraînement, en s'assurant d'avoir des exemples adéquats de chaque langue. On entraîne un modèle pour chacune des trois tailles de tokenizer, en utilisant la même architecture qu'un modèle précédemment établi appelé Gemma 2B.
Paramètres d'Entraînement
Tous les modèles sont entraînés avec une fenêtre de contexte de 2048 tokens, en utilisant une méthode d'optimisation spécifique connue sous le nom d'optimiseur Adam, et on se concentre sur le processus d'apprentissage prévisible connu sous le nom de modélisation du langage causal. Il est important de noter que l'objectif principal de cette recherche est d'évaluer à quel point les LLMs peuvent traduire efficacement, plutôt que d'atteindre la performance la plus élevée possible.
Évaluation de la Qualité de la Traduction
Pour évaluer la qualité de la traduction, on utilise plusieurs métriques, y compris les scores BLEU et COMET-22. On utilise aussi une méthode appelée TowerEval pour calculer les métriques d'évaluation. Pour générer des traductions, on utilise une méthode de recherche connue sous le nom de recherche en faisceau, limitant la longueur des traductions à 512 tokens.
Nos modèles sont comparés à la fois à des modèles bilingues et multilingues, y compris un modèle transformer encodeur-décodeur avec un large éventail de langues supportées et des modèles bilingues spécialisés entraînés sur des paires de langues spécifiques.
Vue d'Ensemble des Résultats
Performance dans les Traductions Supervisées et en Zéro-Shot
Les résultats montrent que les trois modèles de tokenizer (32k, 128k et 256k) performent de manière comparable dans les tâches de traduction supervisées, obtenant des scores similaires sur les métriques d'évaluation à travers divers ensembles de données. Dans les scénarios de traduction en zéro-shot, bien que les modèles performent légèrement moins bien par rapport aux directions supervisées, ils affichent tout de même un niveau respectable de capacité de traduction. Le modèle avec la plus grande taille de vocabulaire (256k) obtient des scores notables dans les tâches en zéro-shot, ce qui indique qu'il peut traduire efficacement, même sans avoir été directement entraîné sur des paires spécifiques.
Importance de la Taille du Vocabulaire
On a trouvé qu'avoir une taille de vocabulaire plus grande conduit généralement à une meilleure qualité de traduction en zéro-shot. Notre analyse indique une relation positive entre le chevauchement des mots de vocabulaire dans les langues source et cible et la performance globale de la traduction. Cette observation suggère que le chevauchement de vocabulaire joue un rôle crucial, surtout lorsque les tailles de vocabulaire sont plus petites.
Comprendre le Comportement du Modèle
Pour comprendre comment les LLMs réalisent des traductions, on examine quelles parties de l'invite sont significatives pour l'attention du modèle. Cela nous permet de déterminer quelles têtes d'attention sont les plus importantes pour différentes sections de l'invite. On analyse comment les représentations de langue du modèle évoluent à travers ses couches en regardant les embeddings de tokens contextuels.
Mécanismes d'Attention
On calcule la couverture de l'attention pour des tokens spécifiques à travers différentes couches. La couverture moyenne indique combien d'attention chaque partie de l'invite reçoit pendant le processus de traduction. Nos résultats suggèrent que l'étiquette de langue source reçoit le moins d'attention par rapport aux autres parties de l'invite, ce qui entraîne des impacts variés sur la performance de la traduction lorsque cette étiquette est absente.
Redondance dans les Têtes d'Attention
On explore la redondance dans les têtes d'attention, qui peuvent être élaguées sans diminuer la performance du modèle. En masquant les têtes d'attention qui ne contribuent pas de manière significative à la qualité de la traduction, on peut maintenir l'efficacité de la traduction tout en simplifiant le modèle.
Espaces de Représentation Linguistique
On enquête sur la manière dont le modèle apprend à représenter différentes langues à travers ses couches. Au début, les distances entre les représentations linguistiques sont relativement élevées, mais à mesure qu'on progresse dans le modèle, ces distances diminuent, ce qui indique que le modèle améliore sa compréhension des relations linguistiques.
Visualisation de la Représentation Linguistique
Pour visualiser comment les représentations des tokens évoluent, on utilise des techniques comme UMAP pour projeter les embeddings de tokens dans des dimensions inférieures. Nos visualisations révèlent que, bien que les embeddings restent neutres en termes de langue à travers les couches, ils commencent à se regrouper par langue source dans la dernière couche.
Conclusion et Travaux Futurs
Cette étude montre avec succès qu'un LLM peut être formé pour des tâches de traduction en utilisant uniquement des données parallèles. Les résultats sont comparables à ceux des systèmes de traduction existants, indiquant l'efficacité de notre approche. De plus grandes tailles de vocabulaire semblent améliorer la qualité de la traduction, suggérant que de futures recherches devraient se concentrer sur des vocabulaires encore plus grands ou spécifiques à certaines langues.
On a aussi identifié des domaines clés pour de futures explorations, y compris l'analyse de la pertinence de certaines têtes d'attention et l'optimisation des tailles de vocabulaire. Nos résultats fournissent une base pour de futures recherches dans la traduction automatique utilisant des LLMs formés exclusivement sur des données appariées, en avançant vers une meilleure compréhension de leurs capacités et limitations.
Limitations
Bien que notre recherche offre des perspectives précieuses, il est essentiel de considérer certaines limitations. L'ensemble de données utilisé est principalement centré sur des langues occidentales avec des écritures latines, ce qui peut affecter la généralisation de nos résultats à d'autres familles linguistiques. De plus, l'influence de l'augmentation de la taille du modèle et de la disponibilité des données sur la performance de la traduction reste à explorer dans de futures études.
Informations Supplémentaires
Dans nos expériences, on a également examiné comment différents modèles et leurs paramètres ont influencé les capacités de traduction. On a documenté l'efficacité de différentes stratégies de tokenisation et leur performance résultante dans les tâches de traduction. La capacité de nos modèles à gérer une large gamme de langues et de scénarios de traduction suggère un potentiel pour des applications pratiques dans des besoins de traduction du monde réel.
Dans l'ensemble, cette recherche constitue un pas en avant dans la compréhension de la manière dont les LLMs peuvent être appliqués aux tâches de traduction en utilisant des données parallèles, ouvrant la voie à des développements dans ce domaine en pleine expansion.
Titre: Investigating the translation capabilities of Large Language Models trained on parallel data only
Résumé: In recent years, Large Language Models (LLMs) have demonstrated exceptional proficiency across a broad spectrum of Natural Language Processing (NLP) tasks, including Machine Translation. However, previous methods predominantly relied on iterative processes such as instruction fine-tuning or continual pre-training, leaving unexplored the challenges of training LLMs solely on parallel data. In this work, we introduce PLUME (Parallel Language Model), a collection of three 2B LLMs featuring varying vocabulary sizes (32k, 128k, and 256k) trained exclusively on Catalan-centric parallel examples. These models perform comparably to previous encoder-decoder architectures on 16 supervised translation directions and 56 zero-shot ones. Utilizing this set of models, we conduct a thorough investigation into the translation capabilities of LLMs, probing their performance, the impact of the different elements of the prompt, and their cross-lingual representation space.
Auteurs: Javier García Gilabert, Carlos Escolano, Aleix Sant Savall, Francesca De Luca Fornaciari, Audrey Mash, Xixian Liao, Maite Melero
Dernière mise à jour: 2024-06-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.09140
Source PDF: https://arxiv.org/pdf/2406.09140
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://huggingface.co/projecte-aina/Plume32k
- https://huggingface.co/projecte-aina/Plume128k
- https://huggingface.co/projecte-aina/Plume256k
- https://github.com/projecte-aina/Plume
- https://anonymous.4open.science/r/Plume_fork-69D1
- https://github.com/pemistahl/lingua-py
- https://huggingface.co/google/gemma-2b
- https://huggingface.co/projecte-aina