Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Évaluation de la qualité dans les modèles de traduction linguistique

Une étude sur la qualité des données de traduction de langue extraites du web.

― 8 min lire


Qualité dans les donnéesQualité dans les donnéesde traductionlinguistiquepour l'exactitude des traductions.Examiner des corpus extraits du web
Table des matières

La qualité compte quand il s'agit de construire des modèles de traduction, surtout pour les langues qui n'ont pas beaucoup de ressources pour les chercheurs. Dans cet article, on va explorer la qualité des corpus parallèles extraits du web, qui sont des collections de textes dans deux langues utilisées pour entraîner des modèles de traduction. On va voir comment ces corpus peuvent varier en qualité et ce que ça signifie pour la traduction de langues comme le cinghalais et le tamoul.

L'Importance de la Qualité dans les Modèles de Traduction

Les systèmes de traduction automatique, appelés modèles de Traduction automatique neuronale (NMT), dépendent énormément des données sur lesquelles ils sont formés. Des données de haute qualité mènent à de meilleures traductions, tandis que des données de mauvaise qualité peuvent nuire au résultat de la traduction. Pour les langues peu utilisées en technologie, appelées Langues à faibles ressources, trouver de bonnes données d'entraînement peut être un vrai défi.

Corpus Parallèles Extraits du Web

Les corpus parallèles extraits du web sont créés en collectant des textes sur internet disponibles en plusieurs langues. Ces corpus peuvent être pratiques car ils contiennent souvent un gros volume de données dans beaucoup de langues. Cependant, la qualité des données peut être inégale. Certaines phrases peuvent être des traductions précises, tandis que d'autres peuvent contenir des erreurs ou être complètement fausses.

Évaluation des Corpus Extraits du Web

Pour comprendre la qualité de ces corpus extraits du web, on a mené une étude en se concentrant sur trois paires de langues : anglais-cinghalais, anglais-tamoul, et cinghalais-tamoul. On a classé différentes sections des données selon la similarité des phrases dans les deux langues. On a ensuite évalué ces sections pour voir à quel point les traductions étaient bonnes ou mauvaises.

Nos résultats ont révélé qu’il y avait des différences significatives en termes de qualité entre les différentes parties des corpus. En particulier, on a remarqué que les phrases les mieux classées étaient souvent beaucoup meilleures que celles en bas de classement. Dans certains cas, quand on a entraîné des modèles de traduction en utilisant seulement les meilleures sections des données, la performance était proche de celle des modèles formés sur des données créées par des traducteurs humains.

Défis Rencontrés par les Langues à Faibles Ressources

Un des principaux problèmes pour les langues à faibles ressources est qu'il y a souvent pas assez de données de traduction de haute qualité disponibles. Même en utilisant des modèles avancés qui ont été entraînés sur de grandes quantités de données, ça peut ne pas suffire à compenser ce manque de bons exemples. Ça met des langues comme le cinghalais et le tamoul dans une situation désavantageuse.

Bien qu'il existe des corpus extraits du web disponibles publiquement qui promettent plus de données pour ces langues, comme CCMatrix, CCAlign, WikiMatrix, NLLB, et ParaCrawl, notre évaluation a montré que beaucoup de ces corpus avaient de sérieux problèmes de qualité. Par exemple, quand on a examiné un échantillon de phrases d'un de ces corpus, on a trouvé beaucoup de traductions qui étaient soit incorrectes, soit de mauvaise qualité.

Le Processus d'Évaluation

Dans notre recherche, plutôt que de sélectionner aléatoirement de petits échantillons pour évaluer la qualité, on a classé les phrases selon leur qualité et les a divisées en trois groupes : les 25 000 meilleures phrases, les 25 000 pires phrases, et un échantillon aléatoire de 25 000 phrases. Ça nous a permis d'avoir une meilleure vision de la qualité de l'ensemble du corpus.

Pour évaluer la qualité des phrases, on a amélioré un système de classification des erreurs existant qui nous a aidés à catégoriser différents types d'erreurs de traduction. Ensuite, on a demandé à des Évaluateurs humains d'examiner un échantillon aléatoire de phrases de chaque groupe pour juger de leur qualité.

Principales Découvertes

De notre évaluation, on a trouvé plusieurs résultats importants :

  1. Variation de la Qualité : Il y avait de grandes différences de qualité entre les sections hautes et basses des corpus extraits du web. Par exemple, dans un corpus, presque 35% des meilleures phrases étaient considérées comme de haute qualité, alors que seulement environ 0,4% des pires phrases atteignaient ce niveau de qualité.

  2. Impact de l'Échantillonnage Aléatoire : Quand seuls des échantillons aléatoires étaient évalués, les problèmes de qualité paraissaient beaucoup plus graves qu'ils ne l'étaient en réalité. Cela souligne la nécessité d'approches plus systématiques pour évaluer les données de traduction.

  3. Différences entre les Paires de Langues : On a observé que la qualité des traductions variait considérablement selon la paire de langues. Certaines paires avaient des pourcentages de traductions de qualité beaucoup plus élevés que d'autres.

Le Rôle des Évaluateurs Humains

Pour obtenir des résultats fiables, on a engagé des évaluateurs humains pour noter les traductions. Ils ont utilisé une échelle pour évaluer la qualité et la cohérence des paires de phrases. Leurs évaluations ont montré que la qualité des corpus extraits du web n'est pas uniforme et que l'échantillonnage aléatoire ne reflète pas la véritable qualité des données.

L'Effet du Nettoyage des Données

Après avoir évalué la qualité initiale des corpus, on a décidé de nettoyer les 25 000 meilleures phrases d'un corpus (NLLB) en utilisant des traducteurs humains. L'objectif était d'améliorer encore la qualité des données. Les traducteurs ont examiné les phrases, corrigé les erreurs et réécrit les traductions problématiques.

Le résultat de cet effort était un corpus nettoyé qui avait beaucoup plus de traductions de haute qualité par rapport à l'original. Cependant, même après nettoyage, il y avait encore certaines phrases qui n'atteignaient pas les standards de traduction parfaits. Ça met en lumière les défis continus pour s'assurer d'avoir des données de haute qualité pour entraîner des modèles de traduction.

Performance des Modèles de Traduction

Pour voir comment la qualité des données d'entraînement impactait la performance du modèle, on a entraîné des modèles de traduction en utilisant différentes portions de données. On a trouvé que les modèles entraînés avec les 25 000 meilleures phrases surpassaient systématiquement ceux entraînés avec des portions de qualité inférieure.

Même quand on a entraîné des modèles sur l'ensemble du dataset, utiliser la section supérieure menait toujours à de meilleurs résultats. Dans certains cas, les modèles entraînés sur les meilleures portions ont même mieux performé que ceux entraînés sur des corpus élaborés par des humains.

Nettoyage vs Traduction Fraîche

On voulait aussi voir à quel point il était efficace de nettoyer des données par rapport à traduire de nouvelles phrases depuis le début. Pour tester ça, on a demandé à des traducteurs de traduire un ensemble de 100 phrases fraîchement et on a enregistré le temps et la qualité de leur travail.

Le nettoyage du corpus original s'est avéré légèrement plus efficace en termes de temps comparé à la traduction depuis le début. Cependant, la qualité des données nettoyées n'a pas dépassé celle des phrases nouvellement traduites, ce qui indique que, même si le nettoyage est utile, ça peut ne pas toujours être la meilleure solution.

Conclusion

Nos découvertes mettent en avant les complexités liées à l'utilisation des corpus extraits du web pour développer des modèles de traduction, surtout pour les langues à faibles ressources. La qualité de ces corpus peut varier énormément, impactant l'efficacité des systèmes de traduction qui s'y appuient.

Reconnaître que toutes les sections d'un corpus extrait du web ne sont pas de qualité égale est crucial pour les chercheurs travaillant sur la traduction automatique. Utiliser des échantillons aléatoires peut mener à des conclusions trompeuses sur la qualité des données. Au lieu de ça, se concentrer sur les portions de la plus haute qualité peut donner de meilleurs résultats dans l'entraînement des modèles de traduction.

En effectuant des évaluations approfondies et des efforts de nettoyage, on espère encourager les futurs chercheurs à prendre des mesures similaires lorsqu'ils travaillent avec des données pour des langues à faibles ressources. Cela garantira de meilleurs résultats de traduction et contribuera positivement au développement de la technologie linguistique.

Plus d'auteurs

Articles similaires