Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Avancées dans la traduction automatique au niveau des documents

Une étude sur l'amélioration de la traduction automatique pour des documents entiers en utilisant des caractéristiques de discours.

― 10 min lire


Défis de la traduction deDéfis de la traduction dedocumentsde traduction automatique actuels.Examiner les lacunes dans les systèmes
Table des matières

Des études récentes ont montré que les systèmes de traduction automatique, notamment pour les langues populaires, s'améliorent et semblent parfois au même niveau que les humains pour traduire des phrases. Du coup, les pros de la traduction se penchent maintenant plus sérieusement sur la traduction de documents entiers au lieu de juste des phrases. Traduire des documents, c'est plus compliqué et ça demande de bien comprendre comment les parties du texte se relient entre elles, en se concentrant sur des trucs comme la Cohérence, la cohésion et la continuité.

Les méthodes actuelles pour évaluer les systèmes de traduction automatique, qui ne prennent en compte que des phrases, sont limitées quand il s'agit de comprendre le contexte. Cet article présente un nouveau jeu de données qui inclut des notes détaillées sur les caractéristiques du discours. Le jeu de données est basé sur une grande collection de textes traduits et propose des façons supplémentaires d'évaluer les traductions, en s'intéressant à des sujets comme les Entités nommées, la Terminologie, les coréférences et les citations.

Avec ce jeu de données, on va examiner comment les structures de discours dans la langue source et dans la traduction diffèrent et quels défis ces différences posent à la traduction automatique. On veut montrer comment les sorties de traduction automatique ne correspondent souvent pas aux traductions humaines, surtout en ce qui concerne les détails des structures de discours.

Description du jeu de données

Le jeu de données utilisé pour cette étude provient d'un grand ensemble de textes bilingues regroupant plein de romans de différents genres. Il contient des traductions du chinois et de l'anglais. Chaque paire de traduction comporte des annotations détaillées centrées sur différents aspects du discours.

Le jeu de données inclut des annotations pour :

  1. Entités Nommées : Ce sont des noms spécifiques de personnes, de lieux, d'organisations, etc.
  2. Terminologie : Des mots ou des phrases liés à des sujets ou des domaines particuliers.
  3. Coréférence : Ça montre comment différents mots ou phrases dans le texte font référence à la même chose.
  4. Citations : Des discours directs des personnages dans le texte avec l'identification du locuteur.

Au total, plus de 15 000 mentions sont incluses dans ce jeu de données annoté, qui fournit une base riche pour analyser la performance de la traduction automatique.

Le besoin d'évaluation au niveau des documents

Les systèmes de traduction automatique ont fait de grands progrès, surtout avec l'introduction des modèles de traduction automatique neuronale. Cependant, la plupart des données utilisées pour entraîner ces systèmes ne se basent que sur des alignements au niveau des phrases. Ça complique la tâche pour obtenir des traductions de qualité quand il s'agit de documents entiers, qui ont des structures plus complexes.

Lors de la traduction de documents, certaines caractéristiques clés doivent être prises en compte :

  • La traduction des entités nommées doit être cohérente à travers le texte.
  • Les relations de coréférence doivent rester intactes, ce qui signifie que les références à la même entité doivent être claires et correctement liées.
  • La structure des conversations doit aussi être préservée, en capturant clairement qui parle.

Si les traductions automatiques ne prennent pas ces aspects en compte, elles produisent souvent des textes qui paraissent artificiels et manquent de cohérence.

Caractéristiques clés du discours dans la traduction au niveau des documents

Trois caractéristiques principales sont essentielles quand on traite des traductions au niveau des documents :

  1. Cohérence des Entités Nommées : Ça signifie garder les mêmes noms et termes cohérents dans tout le texte. Si le nom d'un personnage est traduit différemment à divers moments, ça peut dérouter les lecteurs.

  2. Résolution des Coréférences : Ça concerne la compréhension de la façon dont différents termes dans le texte font référence à la même entité. Par exemple, si une personne est désignée par son nom dans une phrase et comme "il" dans une autre, la traduction doit maintenir cette connexion correctement.

  3. Structure de Conversation : Quand les personnages parlent, il est crucial de garder une trace de qui parle et de s'assurer que c'est clair tout au long de la traduction.

En analysant ces caractéristiques, on peut mieux comprendre comment les systèmes de traduction automatique diffèrent des traductions humaines et où des améliorations sont nécessaires.

Processus d'annotation

Les annotations du jeu de données ont été créées par des traducteurs professionnels qui ont soigneusement marqué les textes selon des directives spécifiques. Ils se sont concentrés sur l'identification précise des entités nommées, de la terminologie, des liens de coréférence et des citations.

Le processus a impliqué de revoir les textes plusieurs fois, pour s'assurer que tout était annoté correctement. L'objectif était de créer une ressource que les chercheurs et les développeurs pourraient utiliser pour étudier et améliorer les traductions automatiques.

Évaluation de la performance de la traduction automatique

La performance de divers systèmes de traduction automatique a été comparée aux traductions humaines en utilisant le jeu de données annoté. L'évaluation a examiné à quel point les systèmes géraient les entités nommées, la terminologie, les coréférences et l'ensemble de la cohérence.

Traduction des Entités Nommées

Le premier aspect examiné était la façon dont chaque système traduisait les entités nommées. Ça inclut les noms des personnages, les lieux et les organisations. Les systèmes ont été comparés pour voir à quel point ils étaient cohérents dans la traduction de ces entités. Souvent, les traductions automatiques avaient du mal à maintenir des noms cohérents dans tout un texte, ce qui a mis en évidence la nécessité d'un meilleur entraînement et de modèles.

Traduction de la Terminologie

Le prochain point d'attention était la terminologie, qui implique des termes spécifiques utilisés dans un certain contexte, comme le genre particulier d'une histoire. Les traductions automatiques échouent souvent à traduire correctement ces termes, ce qui entraîne de la confusion sur le sens du texte.

Résolution des Coréférences

Le processus de résolution des coréférences était un autre domaine vital d'évaluation. Il s'agit de voir comment bien la traduction conserve les relations entre différents termes qui font référence aux mêmes entités. Beaucoup de traductions automatiques avaient des problèmes pour résoudre les coréférences correctement, ce qui nuisait à la cohérence globale des textes traduits.

Qualité et cohérence globale

Enfin, la qualité globale des traductions, y compris leur cohérence, a été examinée. La cohérence se réfère à la façon dont les parties du document s'assemblent pour former un tout qui a du sens. Les résultats ont indiqué que les traductions humaines surpassaient systématiquement les traductions automatiques, mais il y avait des différences notables même parmi divers systèmes de traduction automatique.

Perspectives de l'analyse bilingue

En regardant les deux langues ensemble, des motifs ont émergé qui éclairent les défis auxquels les systèmes de traduction automatique sont confrontés. Voici quelques résultats notables :

  • Utilisation des Pronoms : Une différence significative est la façon dont les pronoms sont utilisés en chinois par rapport à l'anglais. Le chinois omet souvent les pronoms, comptant sur le contexte pour transmettre du sens. Ça rend la traduction en anglais, qui nécessite une utilisation claire des pronoms, difficile.

  • Distribution des Entités : Les types d'entités nommées trouvées dans les transcriptions étaient assez similaires dans les deux langues. Toutefois, la façon dont ces entités étaient référencées différait souvent, créant des obstacles supplémentaires pour les systèmes de traduction.

  • Chaines de Coréférence : L'analyse des coréférences a montré que l'anglais a tendance à avoir des chaînes de références plus longues que le chinois. Cette différence affecte la façon dont la traduction maintient la cohérence entre les phrases.

Défis pour la traduction automatique

Les disparités entre la façon dont le chinois et l'anglais gèrent le discours créent plusieurs défis clés pour la traduction automatique.

  1. Cohérence des Entités : Beaucoup d'entités nommées se répètent souvent dans les documents, ce qui peut entraîner des incohérences si elles ne sont pas suivies correctement.

  2. Reconnaissance des Entités : Certains noms fictifs sont complexes et peuvent mener à de mauvais résultats de traduction s'ils ne sont pas reconnus correctement par le modèle.

  3. Informations Anaphoriques : L'omission des pronoms en chinois signifie que le contexte est crucial pour garantir que les pronoms corrects sont utilisés dans les traductions en anglais.

  4. Informations Morphologiques : Certains aspects grammaticaux, comme le temps, peuvent se perdre dans la traduction, entraînant d'autres défis.

Ces défis soulignent la nécessité d'une approche plus nuancée dans la formation des systèmes de traduction automatique, en tenant particulièrement compte du discours et du contexte.

Recommandations pour le futur

D'après les résultats de cette analyse, plusieurs recommandations peuvent être faites pour améliorer les systèmes de traduction automatique :

  • Intégrer les caractéristiques du discours dans l'entraînement : Les traductions automatiques devraient être entraînées avec un accent sur les caractéristiques du discours pour mieux capturer comment différents éléments d'un texte se relient entre eux.

  • Améliorer les modèles de résolution des coréférences : Renforcer les modèles qui s'occupent des coréférences pourrait aider à améliorer la cohérence des traductions.

  • Se concentrer sur la reconnaissance des entités : Des efforts devraient être faits pour permettre aux systèmes de traduction automatique de reconnaître et de traduire de manière cohérente les entités nommées, surtout dans des récits complexes.

  • Exploiter les retours humains : Impliquer des traducteurs professionnels dans le processus d'évaluation peut fournir des informations précieuses qui mènent à un meilleur entraînement et à un perfectionnement des modèles de traduction.

Conclusion

La traduction automatique a fait beaucoup de progrès, mais il reste encore des défis significatifs à surmonter face aux complexités de la traduction de documents. Les caractéristiques du discours comme la cohérence des entités, la résolution des coréférences et la structure des conversations sont cruciales pour produire des traductions de qualité. Grâce à une annotation et une analyse détaillées, on peut mieux comprendre comment les traductions automatiques diffèrent des traductions humaines. Cette connaissance guidera les futures améliorations des systèmes de traduction automatique, ce qui aboutira à de meilleurs outils pour traduire des documents entre les langues.

Source originale

Titre: Discourse Centric Evaluation of Machine Translation with a Densely Annotated Parallel Corpus

Résumé: Several recent papers claim human parity at sentence-level Machine Translation (MT), especially in high-resource languages. Thus, in response, the MT community has, in part, shifted its focus to document-level translation. Translating documents requires a deeper understanding of the structure and meaning of text, which is often captured by various kinds of discourse phenomena such as consistency, coherence, and cohesion. However, this renders conventional sentence-level MT evaluation benchmarks inadequate for evaluating the performance of context-aware MT systems. This paper presents a new dataset with rich discourse annotations, built upon the large-scale parallel corpus BWB introduced in Jiang et al. (2022). The new BWB annotation introduces four extra evaluation aspects, i.e., entity, terminology, coreference, and quotation, covering 15,095 entity mentions in both languages. Using these annotations, we systematically investigate the similarities and differences between the discourse structures of source and target languages, and the challenges they pose to MT. We discover that MT outputs differ fundamentally from human translations in terms of their latent discourse structures. This gives us a new perspective on the challenges and opportunities in document-level MT. We make our resource publicly available to spur future research in document-level MT and the generalization to other language translation tasks.

Auteurs: Yuchen Eleanor Jiang, Tianyu Liu, Shuming Ma, Dongdong Zhang, Mrinmaya Sachan, Ryan Cotterell

Dernière mise à jour: 2023-05-18 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.11142

Source PDF: https://arxiv.org/pdf/2305.11142

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires