Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Présentation de ZeroMMT : Une nouvelle approche de la traduction

ZeroMMT utilise des données multimodales monolingues pour améliorer la traduction sans avoir besoin de jeux de données coûteux.

― 7 min lire


ZeroMMT : Réduction desZeroMMT : Réduction descoûts en traductionla traduction multimodale.Une méthode économique qui transforme
Table des matières

La traduction automatique change la manière dont on communique entre différentes langues. La traduction automatique multimodale (TAM) va encore plus loin en utilisant à la fois du texte et des images pour améliorer les traductions. Actuellement, la plupart des systèmes de TAM dépendent de grandes quantités de données supervisées, ce qui coûte cher à collecter. Ça limite la capacité de ces systèmes à travailler avec de nouvelles paires de langues qui manquent de cette donnée.

Dans cet article, on vous présente une nouvelle méthode appelée ZeroMMT. Cette méthode a juste besoin de données textuelles multimodales monolingues, permettant une formation sans les coûteuses données supervisées. Elle utilise des images avec du texte pour améliorer la précision des traductions, surtout quand il s'agit de phrases ambiguës.

Contexte sur la Traduction Automatique Multimodale

Les systèmes de TAM cherchent à utiliser des images ou des vidéos pour clarifier le sens du texte dans la traduction. Un ensemble de données commun pour entraîner ces systèmes est le dataset Multi30K, qui inclut des images, des légendes en anglais, et leurs traductions dans plusieurs langues. Les méthodes traditionnelles de TAM montrent de légères améliorations par rapport aux méthodes uniquement textuelles, souvent en s'appuyant sur des ensembles de données complets qui n’existent pas toujours pour toutes les paires de langues.

Les avancées récentes ont impliqué l'utilisation de données provenant de différentes sources, y compris des modèles de traduction pré-entraînés. Cependant, ces améliorations nécessitent encore de grandes quantités de données supervisées, limitant leur utilisation.

Défis des Systèmes Actuels

Le principal défi des systèmes de TAM actuels est leur dépendance aux données entièrement supervisées. La collecte de données pour traduire des images est coûteuse et prend du temps. Par exemple, un dataset a nécessité 23 000 € pour traduire seulement 30 000 légendes anglaises dans d'autres langues. Ça crée une barrière énorme pour étendre la TAM à de nouvelles langues.

Il y a eu quelques tentatives pour surmonter ce problème, comme le transfert sans entraînement préalable, mais ces approches ne réussissent pas à exploiter efficacement les images pour la Désambiguïsation. Ça aboutit souvent à de mauvaises traductions en cas de traductions ambiguës.

Approche Proposée : ZeroMMT

Notre approche, ZeroMMT, vise à adresser les limitations rencontrées par les systèmes de TAM traditionnels. Au lieu de dépendre de données entièrement supervisées, ZeroMMT a juste besoin de données textuelles multimodales monolingues. En utilisant des images avec des données multimodales en anglais, on peut entraîner un modèle de traduction qui fonctionne bien même sans un ensemble de données entièrement supervisé.

Les composants clés de notre méthode se concentrent sur deux objectifs :

  1. Modélisation Langagière Masquée Conditionnée Visuellement (VMLM) : Cela force le modèle à incorporer des données d'image dans le processus de traduction.
  2. Pénalité de Kullback-Leibler (KL) : Cela maintient les capacités de traduction du modèle. Ça aide à s'assurer que pendant que le modèle apprend à utiliser des images, il ne perd pas ses compétences en traduction.

Évaluation de ZeroMMT

Pour évaluer l’efficacité de ZeroMMT, on l’a testé sur des benchmarks standards, dont un nouveau dataset appelé CoMMuTE. CoMMuTE est conçu spécifiquement pour évaluer comment les modèles utilisent des images pour clarifier des phrases anglaises ambiguës.

Nos résultats sur CoMMuTE ont montré que ZeroMMT fonctionne presque aussi bien que les systèmes de TAM existants qui ont été entraînés sur des ensembles de données entièrement supervisés. De plus, on a élargi CoMMuTE pour inclure trois nouvelles langues : l'arabe, le russe et le chinois. Ça a montré que ZeroMMT peut bien généraliser même quand aucune donnée entièrement supervisée n'est disponible.

Résultats

La performance de ZeroMMT a révélé qu'il maintient un équilibre entre l'utilisation des images pour la désambiguïsation et l'assurance de la précision de la traduction. Par exemple, lors des évaluations, le modèle ZeroMMT a montré une légère baisse de performance en termes de scores BLEU et COMET, qui sont des métriques couramment utilisées pour mesurer la qualité de la traduction. Cependant, ces scores sont restés compétitifs, indiquant que ZeroMMT traduit efficacement tout en utilisant le contexte visuel.

Performance de Désambiguïsation

En regardant la performance de désambiguïsation, ZeroMMT a montré des résultats prometteurs. Il a pu exploiter les images efficacement, ce qui est crucial quand on traite des mots qui ont plusieurs significations. Par exemple, un mot anglais pourrait se référer à différents objets, et l'image accompagnante a joué un rôle essentiel pour déterminer la traduction correcte.

Notre méthode a permis au modèle de traduction d'ajuster sa sortie en fonction des informations visuelles disponibles, menant à de meilleures traductions en cas d'ambiguïté. Cette capacité se démarque particulièrement, surtout comparé aux systèmes de TAM traditionnels, qui peinent souvent à exploiter efficacement le contexte visuel.

Contrôle des Équilibres

Une des caractéristiques intéressantes de ZeroMMT est sa capacité à contrôler l'équilibre entre désambiguïsation et qualité de traduction. Cela se fait en utilisant une technique connue sous le nom de guidage sans classificateur (CFG). En ajustant cet équilibre, les utilisateurs peuvent prioriser soit des traductions plus claires, soit des traductions plus précises selon leurs besoins spécifiques.

Par exemple, si la désambiguïsation est plus critique pour une tâche particulière, le modèle peut être réglé pour mettre l'accent sur la clarté dans les traductions qui dépendent fortement du contexte visuel. À l'inverse, si la précision de la traduction est la priorité, le modèle peut se concentrer sur la préservation de la qualité de la traduction elle-même.

Travaux Connus

L'entraînement des systèmes de TAM se concentre généralement sur l'intégration de caractéristiques visuelles dans des modèles de traduction basés sur le texte existants. Cependant, beaucoup de ces systèmes ont besoin d'ensembles de données entièrement supervisés pour montrer des améliorations significatives. Certaines tentatives ont été faites pour former des modèles de TAM de manière plus autonome, mais elles échouent souvent à atteindre une performance idéale en matière de désambiguïsation.

Des recherches précédentes ont mis en avant la portée limitée des ensembles de données comme Multi30K, qui incluent peu de cas qui nécessitent réellement un contexte visuel. Ça montre qu'il y a un gros manque pour former des modèles capables de gérer efficacement des traductions ambiguës.

Conclusion

ZeroMMT propose une approche innovante pour la traduction automatique multimodale, permettant des avancées significatives sans dépendre de données supervisées coûteuses. En s'appuyant sur des données textuelles multimodales monolingues, notre méthode a montré le potentiel de fonctionner efficacement tout en maintenant la précision des traductions.

La capacité à contrôler le compromis entre désambiguïsation et fidélité de traduction offre aux utilisateurs de la flexibilité selon leurs besoins, qu'ils priorisent la clarté ou la précision. Cette méthode améliore non seulement l'utilisabilité des systèmes de TAM pour de nouvelles langues, mais ouvre aussi des possibilités pour de futures améliorations dans le domaine.

Globalement, ZeroMMT représente un pas important vers rendre la traduction automatique plus accessible et capable, surtout pour les langues et contextes où les méthodes traditionnelles ont des difficultés.

Source originale

Titre: Towards Zero-Shot Multimodal Machine Translation

Résumé: Current multimodal machine translation (MMT) systems rely on fully supervised data (i.e models are trained on sentences with their translations and accompanying images). However, this type of data is costly to collect, limiting the extension of MMT to other language pairs for which such data does not exist. In this work, we propose a method to bypass the need for fully supervised data to train MMT systems, using multimodal English data only. Our method, called ZeroMMT, consists in adapting a strong text-only machine translation (MT) model by training it on a mixture of two objectives: visually conditioned masked language modelling and the Kullback-Leibler divergence between the original and new MMT outputs. We evaluate on standard MMT benchmarks and the recently released CoMMuTE, a contrastive benchmark aiming to evaluate how well models use images to disambiguate English sentences. We obtain disambiguation performance close to state-of-the-art MMT models trained additionally on fully supervised examples. To prove that our method generalizes to languages with no fully supervised training data available, we extend the CoMMuTE evaluation dataset to three new languages: Arabic, Russian and Chinese. We further show that we can control the trade-off between disambiguation capabilities and translation fidelity at inference time using classifier-free guidance and without any additional data. Our code, data and trained models are publicly accessible.

Auteurs: Matthieu Futeral, Cordelia Schmid, Benoît Sagot, Rachel Bawden

Dernière mise à jour: 2024-07-18 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.13579

Source PDF: https://arxiv.org/pdf/2407.13579

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires