Améliorer la traduction automatique avec la fusion QE
La fusion QE améliore la qualité de la traduction en combinant plusieurs résultats candidats.
― 7 min lire
Table des matières
- Qu'est-ce que la QE-fusion ?
- Comment fonctionne la QE-fusion ?
- Comparaison de la QE-fusion avec d'autres techniques
- Les avantages d'utiliser de grands modèles de langage
- Résultats expérimentaux : Mesurer les performances
- Le rôle des métriques d'estimation de qualité
- L'importance de la diversité des candidats
- Résultats à travers diverses paires de langues
- Efficacité et évolutivité de la QE-fusion
- La QE-fusion en action
- Aller au-delà de la traduction automatique
- Implications pour le travail futur
- Pensées finales
- Conclusion
- Source originale
- Liens de référence
Les systèmes de traduction automatique fonctionnent en estimant la probabilité qu'une traduction soit correcte pour une phrase source donnée. Cependant, ces estimations ne correspondent pas toujours aux préférences des traducteurs humains. Pour améliorer les résultats de traduction, une méthode appelée QE-fusion a été développée. Cette nouvelle méthode utilise des métriques d'Estimation de qualité (QE), qui sont plus en phase avec les jugements humains, pour créer de meilleures traductions en combinant différents Candidats des modèles de traduction.
Qu'est-ce que la QE-fusion ?
La QE-fusion fonctionne en prenant un ensemble de candidats de traduction générés par un modèle de traduction automatique. Elle identifie les parties de ces candidats qui diffèrent et les combine en fonction de leurs scores de qualité issus des métriques QE comme CometKiwi. De cette manière, la QE-fusion peut produire des traductions souvent plus précises et naturelles que celles générées par des méthodes traditionnelles comme la recherche en faisceau ou d'autres techniques de réévaluation.
Comment fonctionne la QE-fusion ?
Le processus commence par la génération de plusieurs candidats de traduction à partir d'un modèle. Chaque candidat contient différentes phrases ou structures. Ensuite, la QE-fusion identifie les sections où ces candidats diffèrent, appelées intervalles divergents. Elle sélectionne alors le meilleur intervalle de chaque groupe, selon les scores de qualité, et les fusionne pour former une nouvelle traduction améliorée. Cette approche aide à rendre le résultat final plus cohérent et en accord avec les attentes humaines.
Comparaison de la QE-fusion avec d'autres techniques
La QE-fusion a été testée par rapport à des méthodes traditionnelles comme la recherche en faisceau et d'autres méthodes de réévaluation, telles que le décodage par risque bayésien minimum et la réévaluation QE. Les résultats montrent que la QE-fusion mène systématiquement à des traductions de meilleure qualité, mesurées par des métriques comme COMET et BLEURT, à travers différentes paires de langues.
Les avantages d'utiliser de grands modèles de langage
La QE-fusion brille particulièrement lorsqu'elle est appliquée à de grands modèles de langage (LLMs), qui peuvent produire une large gamme de sorties différentes. Les sorties variées générées par les LLMs permettent à la QE-fusion de les combiner efficacement, entraînant des améliorations significatives de la qualité de la traduction. Dans diverses expériences, la QE-fusion a montré sa capacité à créer des traductions qui ne sont pas seulement des mélanges de candidats existants mais qui peuvent aussi introduire de nouvelles formulations ou concepts qui n'étaient peut-être présents dans aucun des candidats individuels.
Résultats expérimentaux : Mesurer les performances
Dans des tests effectués sur plusieurs paires de langues, la QE-fusion a montré des avantages clairs par rapport à ses concurrents. Elle était particulièrement efficace lorsqu'elle était utilisée avec de grands modèles comme PolyLM, XGLM, Llama2, et d'autres. Ces modèles, lorsqu'ils sont combinés avec la QE-fusion, produisaient des sorties de meilleure qualité que les méthodes de décodage traditionnelles, surtout dans les cas où la diversité des candidats jouait un rôle crucial.
Le rôle des métriques d'estimation de qualité
Les métriques d'estimation de qualité sont essentielles au succès de la QE-fusion. Elles évaluent la qualité probable d'une traduction sans avoir besoin d'une traduction de référence. C'est particulièrement utile dans des situations réelles où une référence parfaite peut ne pas être disponible. En utilisant ces métriques, la QE-fusion peut sélectionner plus précisément les meilleurs intervalles parmi les candidats disponibles et créer une traduction globale meilleure.
L'importance de la diversité des candidats
Une des principales forces de la QE-fusion est sa dépendance à la diversité des traductions candidates. Plus il y a de candidats différents disponibles, plus il y a de potentiel pour combiner des parties uniques et créer une traduction supérieure. Cela souligne l'importance de générer une large gamme de candidats pour obtenir les meilleurs résultats.
Résultats à travers diverses paires de langues
Dans diverses expériences, la QE-fusion a systématiquement surpassé d'autres méthodes à travers différentes paires de langues, y compris les traductions de l'anglais vers l'allemand, le russe, le chinois et le néerlandais. Les améliorations étaient particulièrement notables pour les LLMs, qui étaient capables de produire des traductions variées que la QE-fusion pouvait ensuite affiner efficacement.
Efficacité et évolutivité de la QE-fusion
Un autre avantage de la QE-fusion est son efficacité. La méthode s'adapte bien au nombre de candidats. Cela signifie qu'à mesure que plus de candidats sont générés, la QE-fusion peut continuer à fournir des traductions de haute qualité sans une augmentation brusque des coûts computationnels. Cette évolutivité linéaire en fait un choix pratique pour de nombreuses applications.
La QE-fusion en action
Pour illustrer comment fonctionne la QE-fusion, imaginons un scénario où un modèle de traduction automatique génère trois candidats différents pour une seule phrase. Chaque candidat pourrait utiliser un mot ou une phrase différente, menant à des significations légèrement différentes. La QE-fusion analyserait ces différences et, en fonction de leurs scores de qualité, fusionnerait les meilleures parties de chaque candidat en une seule traduction cohérente.
Aller au-delà de la traduction automatique
L'approche de la QE-fusion n'est pas limitée à la traduction automatique. Ses principes peuvent être appliqués à d'autres tâches de génération de langue où la qualité des sorties peut être évaluée. Cette polyvalence ouvre des possibilités d'amélioration pour diverses applications de génération de texte, faisant de la QE-fusion un outil précieux dans le domaine du traitement du langage naturel.
Implications pour le travail futur
En regardant vers l'avenir, la QE-fusion suggère plusieurs pistes de recherche passionnantes. Les travaux futurs pourraient explorer son application à travers plus de langues, affiner les métriques utilisées pour l'estimation de qualité, et enquêter sur d'autres améliorations des techniques de génération de candidats. De plus, l'intégration de mécanismes de retour d'information pourrait aider à peaufiner encore davantage le processus d'estimation de qualité.
Pensées finales
En résumé, la QE-fusion offre une avancée prometteuse dans le domaine de la traduction automatique. En combinant efficacement des hypothèses diverses en utilisant des métriques d'estimation de qualité, elle a démontré des améliorations significatives de la qualité des traductions à travers plusieurs paires de langues. Sa capacité à générer des traductions novatrices, couplée à son efficacité et son évolutivité, positionne la QE-fusion comme une solution innovante pour améliorer les systèmes de traduction automatique et potentiellement d'autres applications de génération de langue.
Conclusion
Le développement de la QE-fusion souligne l'importance de rapprocher les systèmes de traduction automatique des préférences humaines et d'améliorer la qualité globale des textes traduits. À mesure que la recherche dans ce domaine continue d'évoluer, le potentiel pour de futurs avancements en traduction automatique et en génération de langue reste vaste et excitant.
Titre: Don't Rank, Combine! Combining Machine Translation Hypotheses Using Quality Estimation
Résumé: Neural machine translation systems estimate probabilities of target sentences given source sentences, yet these estimates may not align with human preferences. This work introduces QE-fusion, a method that synthesizes translations using a quality estimation metric (QE), which correlates better with human judgments. QE-fusion leverages a pool of candidates sampled from a model, combining spans from different candidates using a QE metric such as CometKiwi. We compare QE-fusion against beam search and recent reranking techniques, such as Minimum Bayes Risk decoding or QE-reranking. Our method consistently improves translation quality in terms of COMET and BLEURT scores when applied to large language models (LLMs) used for translation (PolyLM, XGLM, Llama2, Mistral, ALMA, and Tower) and to multilingual translation models (NLLB), over five language pairs. Notably, QE-fusion exhibits larger improvements for LLMs due to their ability to generate diverse outputs. We demonstrate that our approach generates novel translations in over half of the cases and consistently outperforms other methods across varying numbers of candidates (5-200). Furthermore, we empirically establish that QE-fusion scales linearly with the number of candidates in the pool.
Auteurs: Giorgos Vernikos, Andrei Popescu-Belis
Dernière mise à jour: 2024-06-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2401.06688
Source PDF: https://arxiv.org/pdf/2401.06688
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.