Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Améliorer l'estimation de la qualité en traduction automatique

Une nouvelle méthode combine l'adaptation de domaine et l'augmentation de données pour une meilleure estimation de la qualité des traductions.

― 9 min lire


Améliorer l'évaluation deAméliorer l'évaluation dela qualité de latraductionqualité des traductions.précision dans l'estimation de laDe nouvelles méthodes améliorent la
Table des matières

L'estimation de la qualité (EQ) est super importante dans le domaine de la Traduction automatique (TA). Ça aide les pros de la traduction à juger rapidement la qualité des textes traduits. Ça peut faire gagner du temps en montrant combien de retouches pourraient être nécessaires. Mais le succès de l'EQ dépend d'avoir de bonnes données d'entraînement. Le souci, c'est que les données étiquetées de haute qualité sont souvent rares. Étiqueter des données demande beaucoup de ressources et d'efforts, ce qui rend difficile de rassembler suffisamment. En plus, les modèles d'EQ doivent bien fonctionner dans différents sujets ou domaines, ce qui complique encore la tâche.

Dans cet article, on parle d'une nouvelle approche qui combine deux techniques : l'Adaptation de domaine (AD) et l'Augmentation de données (ADG). On se concentre sur l'amélioration de la qualité des modèles d'EQ tout en s'attaquant aux deux principaux défis : le manque de données de qualité et le besoin que les modèles soient performants dans divers domaines.

L'Importance de l'Estimation de la Qualité

Prédire la qualité de la sortie de la TA est crucial dans les processus de traduction. Ça donne aux traducteurs une idée de l'utilité d'une traduction et de combien de corrections elle pourrait avoir besoin. L'estimation de la qualité vise à réduire l'implication humaine dans cette évaluation. Elle estime la qualité de la traduction sans avoir besoin de textes de référence pour comparer.

L'EQ peut se faire à différents niveaux : mot, phrase ou document. On se concentre sur l'Estimation de qualité au niveau des phrases, qui prédit un score de qualité pour des phrases traduites individuelles. Ça se détermine généralement en se basant sur la phrase originale et sa version traduite. Le score de qualité peut être exprimé de différentes manières, comme avec des métriques spécifiques comme TER, HTER ou BLEU. Un système d'EQ au niveau des phrases nécessite généralement des données appariées montrant la phrase originale, sa traduction et une étiquette de qualité.

Cependant, la plupart des étiquettes de qualité proviennent des processus de traduction et de révision, qui sont longs et coûteux. Ça limite la quantité de données d'EQ disponibles.

Des efforts comme la tâche partagée WMT EQ ont créé des plateformes pour comparer différents systèmes d'EQ et partager les données disponibles. Pourtant, ces ressources restent limitées pour de nombreux couples de langues et dans différents sujets, posant des défis pour les modèles d'EQ, surtout ceux qui s'appuient sur de grands modèles de langage pré-entraînés (LLMs). L'ajustement fin de ces modèles avec peu de données peut mener à des résultats instables. De plus, les modèles entraînés sur un type de données ont souvent du mal face à d'autres types, ce qui entraîne une baisse de performance.

Répondre aux Défis

Pour mieux adapter les modèles d'EQ à différents domaines et améliorer les performances malgré des données limitées, notre méthode combine l'adaptation de domaine et l'augmentation de données. Le processus commence par l'entraînement d'un modèle d'EQ large qui est ensuite ajusté avec des données spécifiques. Ça aide à garder des connaissances générales tout en améliorant les performances du modèle dans des domaines particuliers.

On a mené des expériences en utilisant des données réelles et synthétiques dans des contextes bilingues, cross-linguales et zéro-shot. On s'est concentré sur plusieurs couples de langues, dont l'anglais vers l'allemand, le chinois, l'italien, le tchèque et le japonais, ainsi que le roumain et le russe vers l'anglais. Les résultats ont montré des améliorations nettes pour tous les couples de langues testés.

Aperçu de la Méthodologie

Étapes de l'Adaptation de Domaine pour l'EQ

Notre approche se compose d'étapes structurées visant à entraîner des modèles d'EQ basés sur LLM avec des données spécifiques limitées. D'abord, on utilise une combinaison de données en domaine (ID) et hors domaine (OOD) pour l'entraînement.

  1. Étape 1 : On commence par entraîner un modèle d'EQ en utilisant seulement des données OOD jusqu'à ce qu'il se stabilise. Ça aide à construire un modèle de base qui peut gérer divers systèmes de traduction.

  2. Étape 2 : Ensuite, on ajuste le modèle en utilisant un mélange de données OOD et ID. Ici, on utilise différents types de données ID pour améliorer la capacité du modèle à estimer la qualité dans le domaine spécifique tout en s'assurant qu'il conserve des connaissances générales.

  3. Étape 3 : Enfin, on procède à un entraînement supplémentaire sur un ensemble de données ID spécifique, affinant le modèle pour fournir des estimations de qualité plus précises pour ce domaine.

Techniques d'Augmentation de Données

On a exploré des moyens d'améliorer l'utilisation de ressources ID limitées, y compris la génération de données ID synthétiques.

  1. Approche 1 : On a combiné toutes les données ID disponibles pour les différentes langues afin de créer un ensemble de données plus grand pour l'entraînement. La capacité multilingue du modèle XLM-R permet de l'adapter à divers couples de langues.

  2. Approche 2 : Quand les données authentiques viennent à manquer, on génère des données ID supplémentaires en utilisant des modèles de traduction automatique. Ce processus inclut la traduction d'un échantillon de données d'entraînement et la création d'étiquettes de qualité basées sur les résultats.

Indicateurs de Domaine Supplémentaires

Pour gérer efficacement divers domaines, on a inclus des étiquettes supplémentaires au début ou à la fin des phrases. Ça aide le modèle à reconnaître le domaine de la phrase traitée.

On a observé deux modes :

  • Avec Étiquette : On a attaché soit <OOD> soit <ID> à la fin des phrases selon la source des données.
  • Sans Étiquette : Le processus d'entraînement est resté le même sans l'utilisation d'étiquettes.

Expériences et Groupes de Données

On a catégorisé nos données en trois groupes pour tester et entraîner nos modèles d'EQ.

Groupe 1

Ce groupe a aidé à construire des modèles d'EQ ID et OOD. Il incluait des données ID recueillies lors de la tâche partagée WMT 2021, qui offrait des données de post-édition pour divers couples de langues.

Groupe 2

Ce groupe s'est concentré sur la création de systèmes de traduction automatique dans le cadre de l'Approche 2. Ça a impliqué de collecter des données parallèles à partir d'une base de données et d'entraîner des modèles pour générer des données ID synthétiques.

Groupe 3

Ce groupe a testé les capacités zéro-shot des modèles d'EQ entraînés. On a utilisé des ensembles de tests spécifiques pour évaluer la performance sans aucune exposition préalable à ces langues lors de l'entraînement.

Cadre d'Estimation de la Qualité

On a construit un nouveau cadre d'EQ pour utiliser efficacement des modèles multilingues. Le cadre est structuré de manière similaire aux modèles existants mais adapté à nos besoins, notamment en ce qui concerne la tokenisation et l'étiquetage.

Entraînement et Évaluation

On a détaillé notre approche pour entraîner et évaluer des modèles d'EQ, en décrivant les processus impliqués à chaque étape et les métriques utilisées pour l'évaluation. On a utilisé un mécanisme d'arrêt pour s'assurer que les modèles ne surentraînaient pas et maintenaient leurs performances sans compromettre les améliorations pertinentes.

Approche de Traduction Automatique

Générer des données ID synthétiques est une partie cruciale de notre stratégie. Contrairement aux méthodes précédentes qui s'appuyaient sur des modèles de traduction généraux, on a entraîné des modèles de TA spécifiques sur des sous-ensembles de données originales pour améliorer la qualité des traductions produites. Ça garantit que les données d'entraînement s'alignent étroitement avec le vocabulaire et le style des données réelles utilisées pour la traduction.

Comparaison de Base et Résultats

Pour mesurer nos améliorations, on a établi une base en ajustant finement le modèle XLM-R avec des données ID. On a mené diverses comparaisons pour examiner comment notre approche se positionne par rapport aux méthodes existantes.

Nos découvertes ont révélé des améliorations significatives de performance dans la plupart des couples de langues. On a aussi analysé l'efficacité de l'utilisation des étiquettes dans le processus d'adaptation de domaine. Les résultats ont montré que bien que l'utilisation d'étiquettes améliore souvent les performances, l'impact variait selon les langues.

Capacités Zéro-shot

Pour évaluer comment nos modèles se comportaient dans des contextes zéro-shot, on a comparé les sorties avec celles des modèles de base. Les résultats ont indiqué que notre méthode surpassait généralement les modèles conventionnels dans ces scénarios, montrant le potentiel pour des applications plus larges.

Inférence Cross-linguale

Une réalisation notable de notre méthodologie est sa capacité améliorée pour l'inférence cross-linguale. Nos modèles non seulement ont bien performé dans leurs tâches spécifiques, mais ont aussi montré des capacités améliorées pour estimer la qualité à travers différents couples de langues.

Conclusion

On a mis en avant des problèmes clés liés à l'estimation de la qualité dans la traduction automatique, en se concentrant spécifiquement sur les défis de la rareté des données et la performance cross-domaine. En combinant des techniques d'adaptation de domaine avec de l'augmentation de données, on a proposé une solution structurée qui améliore considérablement l'efficacité des modèles d'EQ.

Nos expériences ont montré des améliorations substantielles dans les couples de langues testés, validant les avantages des approches DA et DAG. De plus, nos résultats ont montré que l'utilisation d'étiquettes de domaine pouvait encore affiner la performance du modèle.

En regardant vers l'avenir, explorer davantage les langues à faibles ressources et l'utilisation d'autres types de données OOD pourrait donner des insights précieux. On recommande aussi d'évaluer d'autres modèles de langage de grande taille pour élargir le champ de cette recherche. L'objectif global reste d'améliorer l'estimation de la qualité dans la traduction automatique et de la rendre plus adaptable à divers domaines et contextes.

Source originale

Titre: Tailoring Domain Adaptation for Machine Translation Quality Estimation

Résumé: While quality estimation (QE) can play an important role in the translation process, its effectiveness relies on the availability and quality of training data. For QE in particular, high-quality labeled data is often lacking due to the high cost and effort associated with labeling such data. Aside from the data scarcity challenge, QE models should also be generalizable, i.e., they should be able to handle data from different domains, both generic and specific. To alleviate these two main issues -- data scarcity and domain mismatch -- this paper combines domain adaptation and data augmentation within a robust QE system. Our method first trains a generic QE model and then fine-tunes it on a specific domain while retaining generic knowledge. Our results show a significant improvement for all the language pairs investigated, better cross-lingual inference, and a superior performance in zero-shot learning scenarios as compared to state-of-the-art baselines.

Auteurs: Javad Pourmostafa Roshan Sharami, Dimitar Shterionov, Frédéric Blain, Eva Vanmassenhove, Mirella De Sisto, Chris Emmery, Pieter Spronck

Dernière mise à jour: 2023-05-09 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.08891

Source PDF: https://arxiv.org/pdf/2304.08891

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires