Améliorer la traduction linguistique avec un nouvel entraînement de modèle
Une nouvelle méthode améliore la précision de la traduction japonais-anglais en utilisant des techniques d'entraînement avancées.
― 5 min lire
Table des matières
- Aperçu de l'étude
- Approche d'entraînement
- Évaluation de la méthode
- Efficacité dans la traduction du langage parlé
- Résultats de divers formats de données
- Comparaison avec des modèles traditionnels
- Quantité de données requise pour l'entraînement
- Défis et travaux futurs
- Considérations éthiques
- Conclusion
- Source originale
- Liens de référence
Dans cette étude, une nouvelle méthode est introduite pour améliorer la façon dont les grands Modèles de langage (LLMs) traduisent les langues. Cette approche implique deux étapes principales : d'abord, entraîner le modèle avec plein d'exemples de traductions, puis le peaufiner avec un plus petit ensemble de traductions de haute qualité.
Aperçu de l'étude
L'accent est mis sur comment rendre la traduction meilleure, surtout entre le japonais et l'anglais. Pour ça, les chercheurs ont utilisé un grand modèle avec 3,8 milliards de paramètres et l'ont testé sur différents formats de Données de traduction. Ils ont observé comment l'ordre des phrases dans les données d'Entraînement affectait la Précision de la traduction, découvrant que le fait de passer de la phrase source à la phrase cible était important.
Approche d'entraînement
La méthode d'entraînement proposée se compose de deux phases :
Pré-entraînement continu : Le modèle est d'abord entraîné sur une grande quantité de données parallèles, ce qui signifie qu'il voit ensemble les phrases source et traduites. Cette phase initiale permet au modèle d'apprendre les relations entre les deux langues.
Peaufiner sous supervision : Après l'entraînement initial, le modèle est ensuite affiné en utilisant un plus petit ensemble de données de haute qualité soigneusement sélectionnées. Ces données de haute qualité proviennent généralement de traducteurs professionnels et sont plus précises.
Évaluation de la méthode
Pour voir à quel point cette méthode fonctionne, les chercheurs l'ont testée sur 13 tâches de traduction différentes dans les deux sens : du japonais à l'anglais et vice versa. Les résultats ont montré une amélioration notable de la précision de la traduction quand le modèle était pré-entraîné en continu avec le bon format de données parallèles.
Importance de l'ordre des phrases
Une découverte intéressante était que l'alternance des phrases-montrant les phrases source et cible dans un ordre mélangé-aidait le modèle à mieux apprendre. Les chercheurs ont noté que la traduction s'améliorait quand les phrases source et cible étaient bien alignées dans les données que le modèle voyait pendant l'entraînement.
Efficacité dans la traduction du langage parlé
Un autre aspect clé de l'étude était de savoir comment le modèle pouvait bien traduire le langage parlé. Les résultats ont montré que le modèle performait mieux dans la traduction de texte parlé par rapport aux modèles traditionnels encodeur-décodeur. C'était significatif car cela montre l'adaptabilité et la robustesse du modèle de traduction basé sur LLM.
Résultats de divers formats de données
En plus de l'étude principale, différents formats de données d'entraînement ont été testés. Le modèle entraîné avec des phrases source et cible entrelacées, ce qui signifie que les phrases étaient mélangées, a montré les meilleures performances. Ajouter des tags aux phrases source a aussi aidé à améliorer la précision. Ça montre que le formatage des données d'entraînement de manière spécifique peut mener à de meilleurs résultats.
Comparaison avec des modèles traditionnels
Les chercheurs ont comparé leur modèle de traduction basé sur LLM avec des modèles traditionnels, en examinant particulièrement comment chacun performait sur les traductions de langage parlé. Les modèles traditionnels, connus pour leur structure encodeur-décodeur, avaient plus de mal avec les variations du langage parlé, tandis que le modèle basé sur LLM montrait plus de flexibilité et de précision.
Quantité de données requise pour l'entraînement
L'étude a aussi exploré combien de données sont nécessaires pour un entraînement efficace. Les résultats ont montré que les LLM peuvent atteindre de bonnes performances de traduction avec moins d'exemples par rapport aux modèles traditionnels. Par exemple, au moins 3 millions de paires de phrases ont été suggérées comme nécessaires pour des résultats de traduction significatifs, mais moins pourrait suffire pour transmettre un sens de base.
Défis et travaux futurs
Malgré les résultats prometteurs, les chercheurs ont noté quelques défis. Par exemple, bien que cette étude se soit concentrée sur les traductions japonais-anglais, ils ont reconnu que les résultats pourraient varier pour d'autres paires de langues et modèles. Une exploration future est nécessaire pour voir comment d'autres LLM ou langues réagissent à des méthodes d'entraînement similaires.
Considérations éthiques
L'étude a également abordé des questions éthiques liées à la précision des traductions et au potentiel d'un abus des outils de traduction très précis. Les chercheurs ont souligné que bien que leur méthode vise à améliorer la traduction, il est essentiel de considérer comment cette technologie est utilisée en pratique, surtout en ce qui concerne des contenus linguistiques sensibles.
Conclusion
En résumé, l'étude présente une nouvelle approche en deux phases pour améliorer la précision des traductions dans les grands modèles de langage. En pré-entraînant continuellement sur des données parallèles bien formatées et en peaufinant avec des traductions de haute qualité, des améliorations significatives peuvent être réalisées. Les résultats indiquent que cette méthode est particulièrement efficace pour traduire le langage parlé, et le modèle montre robustesse et flexibilité par rapport aux approches traditionnelles. Des travaux futurs sont nécessaires pour explorer davantage le potentiel de cette méthode dans différentes langues et scénarios, ainsi que pour aborder les implications éthiques des technologies de traduction avancées.
Titre: Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data
Résumé: In this paper, we propose a two-phase training approach where pre-trained large language models are continually pre-trained on parallel data and then supervised fine-tuned with a small amount of high-quality parallel data. To investigate the effectiveness of our proposed approach, we conducted continual pre-training with a 3.8B-parameter model and parallel data across eight different formats. We evaluate these methods on thirteen test sets for Japanese-to-English and English-to-Japanese translation. The results demonstrate that when utilizing parallel data in continual pre-training, it is essential to alternate between source and target sentences. Additionally, we demonstrated that the translation accuracy improves only for translation directions where the order of source and target sentences aligns between continual pre-training data and inference. In addition, we demonstrate that the LLM-based translation model is more robust in translating spoken language and achieves higher accuracy with less training data compared to supervised encoder-decoder models. We also show that the highest accuracy is achieved when the data for continual pre-training consists of interleaved source and target sentences and when tags are added to the source sentences.
Auteurs: Minato Kondo, Takehito Utsuro, Masaaki Nagata
Dernière mise à jour: 2024-07-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.03145
Source PDF: https://arxiv.org/pdf/2407.03145
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://huggingface.co/rinna/bilingual-gpt-neox-4b
- https://github.com/huggingface/transformers
- https://huggingface.co/setu4993/LEALLA-large
- https://huggingface.co/google/mt5-large
- https://github.com/google/sentencepiece
- https://github.com/microsoft/DeepSpeed
- https://github.com/mjpost/sacrebleu
- https://github.com/Unbabel/COMET
- https://huggingface.co/webbigdata/ALMA-7B-Ja-V2