Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Évaluer la qualité de la traduction avec de grands modèles de langage

Cet article examine comment les modèles linguistiques évaluent efficacement la qualité de traduction.

― 7 min lire


Modèles de langue dansModèles de langue dansl'évaluation de latraductionmontrant un potentiel pour le futur.de la traduction de façon efficace,Des gros modèles ont évalué la qualité
Table des matières

Les modèles de langage, comme GPT, sont des outils avancés conçus pour comprendre et générer le langage humain. Ils peuvent être utilisés de différentes manières, y compris pour évaluer la qualité des traductions. Cet article parle de la façon dont ces modèles fonctionnent pour évaluer les traductions, des méthodes utilisées dans cette recherche, et ce que les résultats signifient pour l'évaluation de la qualité des traductions à l'avenir.

Qu'est-ce que les grands modèles de langage ?

Les grands modèles de langage sont des systèmes qui peuvent traiter du texte et générer des réponses qui ressemblent à de l'écriture humaine. Ils sont formés à partir de quantités énormes de données textuelles, ce qui les aide à apprendre les modèles du langage. En ce qui concerne les traductions, ces modèles peuvent prendre du texte dans une langue et produire du texte dans une autre langue, même sans être spécifiquement formés pour ça.

Le but de cette recherche

Le but principal de cette recherche était de voir si les grands modèles de langage pouvaient évaluer efficacement la qualité des traductions. L'évaluation pouvait se faire de deux manières : en utilisant une traduction de référence comme étalon ou en évaluant la qualité de la traduction sans référence. Les chercheurs voulaient déterminer à quel point ces modèles pouvaient bien noter les traductions.

Méthodologie

La recherche a utilisé une méthode appelée GEMBA, qui signifie Évaluation Basée sur la Métrique d'Estimation GPT. La méthode note les traductions sur une échelle de 0 à 100 en fonction de la façon dont elles correspondent au sens et à la structure d'une traduction de référence humaine. Un score de zéro signifie qu'il n'y a pas de contenu significatif préservé, tandis qu'un score de cent signifie une traduction parfaite en termes de sens et de grammaire.

Différents types de prompts

Les chercheurs ont utilisé différents types de prompts pour évaluer les traductions. Ils ont mis en place quatre styles de prompts distincts se concentrant sur des tâches de notation et de classification. Deux de ces prompts étaient pour des tâches de notation, où le modèle génère un score continu, et deux étaient pour classer les traductions en Évaluations étoilées ou classes de qualité.

Tests avec plusieurs modèles

La recherche a testé neuf versions des modèles GPT, comme GPT-3 et GPT-4, pour voir lesquels performaient le mieux sur les tâches d'évaluation de la qualité des traductions. L'étude a révélé que les modèles 3.5 ou plus grands produisaient de meilleurs résultats de notation que les modèles plus petits.

Résultats et constatations

Les résultats ont montré que la métrique GEMBA performait exceptionnellement bien par rapport aux métriques standard utilisées dans l'évaluation de la qualité des traductions. Elle a atteint le niveau de précision le plus élevé pour les évaluations basées sur des références et sans références à travers différents couples de langues, comme l'anglais vers l'allemand, l'anglais vers le russe, et le chinois vers l'anglais.

Cette performance indique que les grands modèles de langage peuvent potentiellement être des outils efficaces pour évaluer les traductions, même lorsque la formation ne s'est pas directement concentrée sur les tâches de traduction.

Estimation de la qualité

Un aspect important exploré dans cette recherche était l'estimation de la qualité. Cela fait référence à la notation des traductions sans utiliser de référence. La méthode GEMBA a obtenu les scores d'Estimation de qualité les plus élevés par rapport aux métriques existantes. Cela indique que le modèle pouvait toujours évaluer les traductions efficacement même sans référence de base.

Comparaison de différents modèles

La recherche a comparé la performance de divers modèles GPT. Alors que les modèles plus anciens comme GPT-2 et Ada avaient du mal à produire des résultats utiles, des modèles comme GPT-3.5, ChatGPT et GPT-4 ont montré de bonnes performances. Fait intéressant, bien que ChatGPT soit un modèle puissant, il donnait parfois des scores plus bas lorsque les réponses impliquaient des explications. Cela souligne l'importance de la conception des prompts lors de l'utilisation de ces modèles.

Évaluation des performances au niveau des segments

En plus de l'analyse au niveau du système, les chercheurs ont également évalué à quel point les modèles performaient sur des segments individuels de traduction. Alors que GEMBA produisait de bons résultats, la métrique avait légèrement moins de performance au niveau des segments par rapport à certaines autres métriques établies. Cette différence peut être due à la nature du système de notation, qui pourrait conduire à des égalités de scores plus souvent que d'autres méthodes.

Compréhension de la validité des réponses

Un autre aspect de la recherche regardait à quelle fréquence les modèles fournissaient des scores valides. La plupart des modèles délivraient des réponses valides, avec moins de 1 % donnant des réponses inattendues. Face à des prompts flous, les chercheurs pouvaient ajuster l'approche en ajoutant de l'aléatoire pour obtenir un meilleur score.

Applications de GEMBA

Les résultats de cette étude montrent que les grands modèles de langage, en particulier la métrique GEMBA, ont un potentiel pour les futures évaluations de qualité de traduction. Cependant, plus de recherches sont nécessaires pour améliorer la précision, notamment dans l'évaluation des traductions des langues sous-resources où la performance peut être plus faible. Explorer des techniques d’apprentissage par petits lots et affiner les modèles pourrait conduire à de meilleurs résultats.

Directions futures

Étant donné les résultats prometteurs de cette recherche, d'autres études sont prévues pour affiner la méthodologie. Cela inclut le développement de techniques qui permettraient d'évaluer à travers des documents au lieu de se limiter à des phrases individuelles, car des fenêtres de contexte plus larges pourraient aider à améliorer l'évaluation de la qualité. Bien que les résultats actuels soient impressionnants, ils sont basés sur un ensemble limité de langues. Plus de travail est nécessaire pour s'assurer que les modèles peuvent fournir des évaluations fiables pour un plus large éventail de couples de langues.

Dernières pensées

La recherche souligne que les grands modèles de langage ne sont pas seulement capables de générer des traductions mais peuvent aussi être précieux pour évaluer la qualité de ces traductions. La méthode GEMBA démontre le potentiel significatif de ces modèles de langage dans l'évaluation des traductions, ouvrant la voie à des services de traduction automatisés améliorés.

Alors que la technologie continue d'évoluer, il est essentiel de continuer à explorer de nouvelles méthodes et applications dans ce domaine, assurant que les futurs modèles de langue peuvent fournir des évaluations encore plus précises et fiables pour les traductions à travers diverses langues. Avec des progrès continus, le potentiel des modèles de langue dans la traduction et l'évaluation de la qualité est vaste et excitant.

Source originale

Titre: Large Language Models Are State-of-the-Art Evaluators of Translation Quality

Résumé: We describe GEMBA, a GPT-based metric for assessment of translation quality, which works both with a reference translation and without. In our evaluation, we focus on zero-shot prompting, comparing four prompt variants in two modes, based on the availability of the reference. We investigate nine versions of GPT models, including ChatGPT and GPT-4. We show that our method for translation quality assessment only works with GPT~3.5 and larger models. Comparing to results from WMT22's Metrics shared task, our method achieves state-of-the-art accuracy in both modes when compared to MQM-based human labels. Our results are valid on the system level for all three WMT22 Metrics shared task language pairs, namely English into German, English into Russian, and Chinese into English. This provides a first glimpse into the usefulness of pre-trained, generative large language models for quality assessment of translations. We publicly release all our code and prompt templates used for the experiments described in this work, as well as all corresponding scoring results, to allow for external validation and reproducibility.

Auteurs: Tom Kocmi, Christian Federmann

Dernière mise à jour: 2023-05-31 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2302.14520

Source PDF: https://arxiv.org/pdf/2302.14520

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires