Évaluation de la qualité dans les modèles de traduction linguistique
Une étude sur la qualité des données de traduction de langue extraites du web.
― 8 min lire
Table des matières
- L'Importance de la Qualité dans les Modèles de Traduction
- Corpus Parallèles Extraits du Web
- Évaluation des Corpus Extraits du Web
- Défis Rencontrés par les Langues à Faibles Ressources
- Le Processus d'Évaluation
- Principales Découvertes
- Le Rôle des Évaluateurs Humains
- L'Effet du Nettoyage des Données
- Performance des Modèles de Traduction
- Nettoyage vs Traduction Fraîche
- Conclusion
- Source originale
- Liens de référence
La qualité compte quand il s'agit de construire des modèles de traduction, surtout pour les langues qui n'ont pas beaucoup de ressources pour les chercheurs. Dans cet article, on va explorer la qualité des corpus parallèles extraits du web, qui sont des collections de textes dans deux langues utilisées pour entraîner des modèles de traduction. On va voir comment ces corpus peuvent varier en qualité et ce que ça signifie pour la traduction de langues comme le cinghalais et le tamoul.
L'Importance de la Qualité dans les Modèles de Traduction
Les systèmes de traduction automatique, appelés modèles de Traduction automatique neuronale (NMT), dépendent énormément des données sur lesquelles ils sont formés. Des données de haute qualité mènent à de meilleures traductions, tandis que des données de mauvaise qualité peuvent nuire au résultat de la traduction. Pour les langues peu utilisées en technologie, appelées Langues à faibles ressources, trouver de bonnes données d'entraînement peut être un vrai défi.
Corpus Parallèles Extraits du Web
Les corpus parallèles extraits du web sont créés en collectant des textes sur internet disponibles en plusieurs langues. Ces corpus peuvent être pratiques car ils contiennent souvent un gros volume de données dans beaucoup de langues. Cependant, la qualité des données peut être inégale. Certaines phrases peuvent être des traductions précises, tandis que d'autres peuvent contenir des erreurs ou être complètement fausses.
Évaluation des Corpus Extraits du Web
Pour comprendre la qualité de ces corpus extraits du web, on a mené une étude en se concentrant sur trois paires de langues : anglais-cinghalais, anglais-tamoul, et cinghalais-tamoul. On a classé différentes sections des données selon la similarité des phrases dans les deux langues. On a ensuite évalué ces sections pour voir à quel point les traductions étaient bonnes ou mauvaises.
Nos résultats ont révélé qu’il y avait des différences significatives en termes de qualité entre les différentes parties des corpus. En particulier, on a remarqué que les phrases les mieux classées étaient souvent beaucoup meilleures que celles en bas de classement. Dans certains cas, quand on a entraîné des modèles de traduction en utilisant seulement les meilleures sections des données, la performance était proche de celle des modèles formés sur des données créées par des traducteurs humains.
Défis Rencontrés par les Langues à Faibles Ressources
Un des principaux problèmes pour les langues à faibles ressources est qu'il y a souvent pas assez de données de traduction de haute qualité disponibles. Même en utilisant des modèles avancés qui ont été entraînés sur de grandes quantités de données, ça peut ne pas suffire à compenser ce manque de bons exemples. Ça met des langues comme le cinghalais et le tamoul dans une situation désavantageuse.
Bien qu'il existe des corpus extraits du web disponibles publiquement qui promettent plus de données pour ces langues, comme CCMatrix, CCAlign, WikiMatrix, NLLB, et ParaCrawl, notre évaluation a montré que beaucoup de ces corpus avaient de sérieux problèmes de qualité. Par exemple, quand on a examiné un échantillon de phrases d'un de ces corpus, on a trouvé beaucoup de traductions qui étaient soit incorrectes, soit de mauvaise qualité.
Le Processus d'Évaluation
Dans notre recherche, plutôt que de sélectionner aléatoirement de petits échantillons pour évaluer la qualité, on a classé les phrases selon leur qualité et les a divisées en trois groupes : les 25 000 meilleures phrases, les 25 000 pires phrases, et un échantillon aléatoire de 25 000 phrases. Ça nous a permis d'avoir une meilleure vision de la qualité de l'ensemble du corpus.
Pour évaluer la qualité des phrases, on a amélioré un système de classification des erreurs existant qui nous a aidés à catégoriser différents types d'erreurs de traduction. Ensuite, on a demandé à des Évaluateurs humains d'examiner un échantillon aléatoire de phrases de chaque groupe pour juger de leur qualité.
Principales Découvertes
De notre évaluation, on a trouvé plusieurs résultats importants :
Variation de la Qualité : Il y avait de grandes différences de qualité entre les sections hautes et basses des corpus extraits du web. Par exemple, dans un corpus, presque 35% des meilleures phrases étaient considérées comme de haute qualité, alors que seulement environ 0,4% des pires phrases atteignaient ce niveau de qualité.
Impact de l'Échantillonnage Aléatoire : Quand seuls des échantillons aléatoires étaient évalués, les problèmes de qualité paraissaient beaucoup plus graves qu'ils ne l'étaient en réalité. Cela souligne la nécessité d'approches plus systématiques pour évaluer les données de traduction.
Différences entre les Paires de Langues : On a observé que la qualité des traductions variait considérablement selon la paire de langues. Certaines paires avaient des pourcentages de traductions de qualité beaucoup plus élevés que d'autres.
Le Rôle des Évaluateurs Humains
Pour obtenir des résultats fiables, on a engagé des évaluateurs humains pour noter les traductions. Ils ont utilisé une échelle pour évaluer la qualité et la cohérence des paires de phrases. Leurs évaluations ont montré que la qualité des corpus extraits du web n'est pas uniforme et que l'échantillonnage aléatoire ne reflète pas la véritable qualité des données.
L'Effet du Nettoyage des Données
Après avoir évalué la qualité initiale des corpus, on a décidé de nettoyer les 25 000 meilleures phrases d'un corpus (NLLB) en utilisant des traducteurs humains. L'objectif était d'améliorer encore la qualité des données. Les traducteurs ont examiné les phrases, corrigé les erreurs et réécrit les traductions problématiques.
Le résultat de cet effort était un corpus nettoyé qui avait beaucoup plus de traductions de haute qualité par rapport à l'original. Cependant, même après nettoyage, il y avait encore certaines phrases qui n'atteignaient pas les standards de traduction parfaits. Ça met en lumière les défis continus pour s'assurer d'avoir des données de haute qualité pour entraîner des modèles de traduction.
Performance des Modèles de Traduction
Pour voir comment la qualité des données d'entraînement impactait la performance du modèle, on a entraîné des modèles de traduction en utilisant différentes portions de données. On a trouvé que les modèles entraînés avec les 25 000 meilleures phrases surpassaient systématiquement ceux entraînés avec des portions de qualité inférieure.
Même quand on a entraîné des modèles sur l'ensemble du dataset, utiliser la section supérieure menait toujours à de meilleurs résultats. Dans certains cas, les modèles entraînés sur les meilleures portions ont même mieux performé que ceux entraînés sur des corpus élaborés par des humains.
Nettoyage vs Traduction Fraîche
On voulait aussi voir à quel point il était efficace de nettoyer des données par rapport à traduire de nouvelles phrases depuis le début. Pour tester ça, on a demandé à des traducteurs de traduire un ensemble de 100 phrases fraîchement et on a enregistré le temps et la qualité de leur travail.
Le nettoyage du corpus original s'est avéré légèrement plus efficace en termes de temps comparé à la traduction depuis le début. Cependant, la qualité des données nettoyées n'a pas dépassé celle des phrases nouvellement traduites, ce qui indique que, même si le nettoyage est utile, ça peut ne pas toujours être la meilleure solution.
Conclusion
Nos découvertes mettent en avant les complexités liées à l'utilisation des corpus extraits du web pour développer des modèles de traduction, surtout pour les langues à faibles ressources. La qualité de ces corpus peut varier énormément, impactant l'efficacité des systèmes de traduction qui s'y appuient.
Reconnaître que toutes les sections d'un corpus extrait du web ne sont pas de qualité égale est crucial pour les chercheurs travaillant sur la traduction automatique. Utiliser des échantillons aléatoires peut mener à des conclusions trompeuses sur la qualité des données. Au lieu de ça, se concentrer sur les portions de la plus haute qualité peut donner de meilleurs résultats dans l'entraînement des modèles de traduction.
En effectuant des évaluations approfondies et des efforts de nettoyage, on espère encourager les futurs chercheurs à prendre des mesures similaires lorsqu'ils travaillent avec des données pour des langues à faibles ressources. Cela garantira de meilleurs résultats de traduction et contribuera positivement au développement de la technologie linguistique.
Titre: Quality Does Matter: A Detailed Look at the Quality and Utility of Web-Mined Parallel Corpora
Résumé: We conducted a detailed analysis on the quality of web-mined corpora for two low-resource languages (making three language pairs, English-Sinhala, English-Tamil and Sinhala-Tamil). We ranked each corpus according to a similarity measure and carried out an intrinsic and extrinsic evaluation on different portions of this ranked corpus. We show that there are significant quality differences between different portions of web-mined corpora and that the quality varies across languages and datasets. We also show that, for some web-mined datasets, Neural Machine Translation (NMT) models trained with their highest-ranked 25k portion can be on par with human-curated datasets.
Auteurs: Surangika Ranathunga, Nisansa de Silva, Menan Velayuthan, Aloka Fernando, Charitha Rathnayake
Dernière mise à jour: 2024-06-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.07446
Source PDF: https://arxiv.org/pdf/2402.07446
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://tfhub.dev/google/LaBSE/2
- https://github.com/facebookresearch/LASER
- https://github.com/facebookresearch/LASER/tree/main
- https://github.com/nlpcuom/quality-matters
- https://www.aclweb.org/portal/content/acl-code-ethics
- https://commoncrawl.org/