Faire avancer la traduction automatique avec les préférences humaines
Améliorer la qualité de la traduction en s'alignant sur les besoins humains.
Kaden Uhlig, Joern Wuebker, Raphael Reinauer, John DeNero
― 7 min lire
Table des matières
- Pourquoi traduire des machines
- Le défi des données de traduction
- Trouver de meilleures façons de former les traducteurs
- L'impact de l'Optimisation de la Qualité Directe
- Évaluer le succès des méthodes de traduction
- L'importance des caractéristiques linguistiques spécifiques
- Comprendre les problèmes de qualité
- Pensées finales sur l'avenir de la traduction automatique
- Source originale
- Liens de référence
Dans le monde de la technologie linguistique, traduire un texte d'une langue à une autre peut être compliqué. Différents types de traductions peuvent être valides, mais faire en sorte qu'elles plaisent aux gens peut être encore plus difficile. C'est là qu'on voit l'importance d'aligner les modèles de Traduction automatique avec ce que les humains veulent vraiment. En se concentrant sur les Préférences humaines, on peut créer de meilleures traductions qui plaisent davantage aux utilisateurs.
Pourquoi traduire des machines
La traduction de langues est un défi ouvert. Il existe plein de traductions possibles pour une seule phrase. Une bonne traduction ne repose pas seulement sur une grammaire et un vocabulaire corrects ; elle doit aussi correspondre au contexte, au ton et au style du texte original. Donc, la tâche n'est pas juste de produire une traduction qui a du sens ; il s'agit de créer des traductions qui plaisent aux gens.
Quand on entraîne des modèles de traduction, on utilise souvent des données collectées sur Internet. Cependant, ces données peuvent parfois ne pas correspondre à ce que les gens veulent réellement. Même s'il y a beaucoup de données en ligne, elles ne reflètent pas toujours les conditions idéales pour la traduction, ce qui entraîne un décalage entre les données d'entraînement et ce que les utilisateurs attendent.
Le défi des données de traduction
La traduction automatique neuronale (TAN) est une méthode populaire pour traduire les langues. Elle repose sur une grande quantité de données d'entraînement supervisées qui associent des textes sources à leurs traductions. On pourrait penser qu’avec des données aussi vastes, la traduction automatique serait sans faille. Mais ce n'est pas le cas. Les données d'entraînement contiennent souvent des bizarreries qui peuvent entraîner une mauvaise Qualité de traduction.
Par exemple, il est courant que les données d'entraînement incluent des traductions qui ne correspondent pas complètement au sens du texte original. Ces décalages peuvent venir de différentes sources, comme des traductions moins précises, du contenu écrit indépendamment dans les deux langues, ou même des traductions faites par d'autres machines. Ces problèmes peuvent rendre le modèle moins efficace pour produire des traductions qui plaisent aux gens.
Les traducteurs humains varient aussi en compétence, ce qui signifie que toutes les traductions ne se valent pas. Certaines peuvent être préférées à d'autres, et une bonne traduction ne signifie pas forcément que c'est la meilleure, ce qui complique encore plus le processus.
Trouver de meilleures façons de former les traducteurs
Face à ces défis, une façon de rendre les machines de traduction plus efficaces est de les former avec de meilleures méthodes axées sur les préférences humaines. Une nouvelle approche appelée Optimisation de la Qualité Directe (OQD) utilise un modèle d'estimation de la qualité qui a été formé avec les préférences humaines. Ce modèle sert de référence pour affiner les résultats de la TAN.
En comparant différentes traductions d'un même texte et en choisissant les meilleures, l'OQD peut aider le modèle d'apprentissage automatique à améliorer ses traductions. Les résultats de l'utilisation de l'OQD montrent une augmentation notable de la qualité des traductions, indiquant que c'est une stratégie bénéfique pour former les modèles de traduction.
L'impact de l'Optimisation de la Qualité Directe
Quand l'OQD a été appliquée, la qualité de traduction s'est considérablement améliorée. Des métriques comme BLEU et COMET ont montré de meilleurs résultats dans plusieurs langues, ce qui suggère que le modèle est devenu plus en phase avec les préférences humaines. Ce progrès n'était pas juste limité aux langues utilisées pendant l'entraînement ; même des langues sans rapport ont montré des améliorations.
Par exemple, même si l'entraînement se concentrait sur des langues comme le chinois, l'allemand, l'hindi, le russe et l'espagnol, les traductions dans d'autres langues ont aussi bénéficié de cette méthode. Cela suggère que l'OQD a amélioré l'ensemble des capacités du modèle, conduisant à de meilleures traductions même pour des langues qu'il n'avait jamais vues auparavant.
Évaluer le succès des méthodes de traduction
Pour évaluer l'efficacité de l'OQD, plusieurs tests ont été menés avec différentes méthodes d'évaluation. Cela incluait l'utilisation de jeux de données couvrant diverses langues pour assurer une analyse complète de la qualité de traduction. Les résultats ont montré de manière cohérente des améliorations, confirmant que l'OQD fonctionnait comme prévu.
Le processus d'évaluation n'était pas seulement limité aux métriques automatisées. Des traducteurs humains ont aussi passé en revue les traductions produites avant et après l'application de l'OQD. Leurs retours ont corroboré les résultats des tests automatisés, montrant que non seulement la machine produisait de meilleures traductions, mais que celles-ci correspondaient aussi mieux à ce que les gens préfèrent généralement.
L'importance des caractéristiques linguistiques spécifiques
Fait intéressant, des améliorations ont aussi été notées dans des caractéristiques linguistiques spécifiques qui n'avaient pas fait partie du processus d'entraînement de l'OQD. Par exemple, en traduisant en letton, le modèle a montré une meilleure capacité à translittérer correctement des noms et à gérer des nuances grammaticales. Cela prouve que non seulement la machine s'est améliorée dans l'ensemble, mais qu'elle a aussi appris à être plus cohérente et précise dans des tâches de traduction spécifiques.
Les améliorations vues dans des langues non incluses dans cette phase d'entraînement suggèrent que le modèle pourrait posséder des connaissances latentes acquises durant la phase d'entraînement supervisée. En appliquant l'OQD, le modèle a peut-être appris à mieux exploiter ces connaissances existantes, entraînant une meilleure performance.
Comprendre les problèmes de qualité
Malgré les avancées apportées par l'OQD, certains défis persistent dans le domaine de la traduction automatique. Par exemple, les données d'entraînement contiennent souvent des artefacts, connus sous le nom de traductionnese, qui peuvent affecter la qualité des traductions. Ce sont des schémas qui émergent des traductions automatiques qui ne reflètent pas l'usage naturel de la langue. En abordant ces problèmes et en se concentrant sur des traductions préférées par les humains de meilleure qualité, des modèles comme l'OQD peuvent aider à minimiser les impacts négatifs de la traductionnese.
Un autre défi est les différences inhérentes dans la façon dont les langues communiquent des idées particulières. Certains éléments culturels ou contextuels peuvent mal se traduire d'une langue à une autre, conduisant à des malentendus potentiels. L'approche OQD vise à combler ces lacunes, facilitant ainsi aux machines de traduction la production de résultats qui semblent naturels et pertinents pour les utilisateurs humains.
Pensées finales sur l'avenir de la traduction automatique
Alors que la demande pour des traductions linguistiques de haute qualité continue de croître dans notre monde globalisé, améliorer l'efficacité des modèles de traduction devient crucial. Des méthodes comme l'OQD représentent des avancées prometteuses pour rendre les traductions non seulement précises mais aussi alignées avec les besoins et préférences humaines.
En se concentrant sur l'amélioration de l'alignement des modèles de traduction avec les préférences humaines, on peut continuer à rehausser la qualité des traductions, les rendant plus utiles pour les utilisateurs du monde entier. Au fur et à mesure que la recherche progresse dans ce domaine, il est probable que l'on verra encore plus de techniques et d'outils affinés développés pour aborder les complexités de la traduction linguistique. En gros, l'engagement à aligner les traductions automatiques avec les préférences humaines marque un pas significatif vers une meilleure communication à travers les langues et les cultures.
Titre: Cross-lingual Human-Preference Alignment for Neural Machine Translation with Direct Quality Optimization
Résumé: Reinforcement Learning from Human Feedback (RLHF) and derivative techniques like Direct Preference Optimization (DPO) are task-alignment algorithms used to repurpose general, foundational models for specific tasks. We show that applying task-alignment to neural machine translation (NMT) addresses an existing task--data mismatch in NMT, leading to improvements across all languages of a multilingual model, even when task-alignment is only applied to a subset of those languages. We do so by introducing Direct Quality Optimization (DQO), a variant of DPO leveraging a pre-trained translation quality estimation model as a proxy for human preferences, and verify the improvements with both automatic metrics and human evaluation.
Auteurs: Kaden Uhlig, Joern Wuebker, Raphael Reinauer, John DeNero
Dernière mise à jour: 2024-09-26 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.17673
Source PDF: https://arxiv.org/pdf/2409.17673
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/megatronnmt_en_any_500m
- https://github.com/google-research/google-research/tree/a676d87/anthea
- https://github.com/google-research/google-research/tree/a676d87/marot/README.md
- https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory
- https://www.elrc-share.eu
- https://elrc-share.eu/repository/browse/english-french-parallel-corpus-from-cordis-project-news/e4597da00ae511e9b7d400155d026706c248250ecee54d19bef388d2a42e6d93/
- https://elrc-share.eu/repository/browse/german-english-parallel-corpus-from-cordis-project-results-in-brief/e70e0b920ae511e9b7d400155d026706b079d7cd7f984a98ab96380f6215f358/
- https://elrc-share.eu/repository/browse/bilingual-corpus-made-out-of-pdf-documents-from-the-european-medicines-agency-emea-httpswwwemaeuropaeu-february-2020-en-de/d6ce198a862611ea913100155d0267064011b731322946a6b897cf495fb6f023/
- https://www.ema.europa.eu/
- https://op.europa.eu/en/home
- https://elrc-share.eu/repository/browse/covid-19-eur-lex-dataset-ilingual-en-mt/cf57fe82c5af11ea913100155d026706b5596d3f449a456f983bbb4e23de81a4/
- https://elrc-share.eu/repository/browse/information-portal-of-the-czech-president-and-czech-castle/2c11868e088b11e6b68800155d020502c402eaf049834da0bbb019049e42098c/
- https://elrc-share.eu/repository/browse/covid-19-eu-presscorner-v1-dataset-bilingual-en-de/67c1519c969311ea913100155d0267063c11069dcb104114901b3160c9f7618c/
- https://europat.net/
- https://joint-research-centre.ec.europa.eu/language-technology-resources/jrc-acquis_en
- https://dumps.wikimedia.org/other/contenttranslation/