Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Évaluer le FActScore dans différentes langues

Cette étude examine l'efficacité de FActScore dans plusieurs langues.

― 13 min lire


L'évaluation multilingueL'évaluation multilinguede FActScoreimportants.différentes langues révèle des défisÉvaluer l'efficacité de FActScore dans
Table des matières

FActScore est un outil conçu pour mesurer à quel point les longs textes créés par des Modèles de Langage de Grande Taille (LLMs) sont factuels en anglais. Cependant, il n'y a pas eu assez d'études sur l'efficacité de FActScore dans différentes langues. Cet article explore les limites de l'outil FActScore lorsqu'il est utilisé avec plusieurs langues. On a créé un nouveau jeu de données pour tester FActScore avec des textes générés par des LLMs multilingues performants. Nos résultats montrent que ces modèles réagissent différemment dans les tâches liées à la recherche de faits et à leur évaluation dans différentes langues, surtout celles qui ont des ressources inégales.

Contexte sur les LLMs

Les développements récents montrent que les LLMs ont de nombreuses compétences pour différentes tâches. Bien qu'ils s'améliorent, les LLMs peuvent toujours produire des informations incorrectes quand on leur demande des faits. Pour faire face à ce problème, les LLMs sont améliorés à grande échelle pour gérer un vaste savoir mondial et réduire les chances de se tromper. Une autre méthode, appelée Génération Augmentée par Récupération, aide à fournir des documents utiles provenant de sources fiables aux LLMs pour éviter les fausses informations.

FActScore a été créé pour offrir un moyen automatique et économique de vérifier la véracité des textes générés. Cela se fait en mélangeant l'évaluation des LLMs avec des sources de connaissances fiables comme Wikipedia. FActScore a été amélioré pour utiliser des bases de connaissances plus vastes, comme Internet, et de puissants modèles de récupération, comme Google Search. Ça mène à de meilleurs résultats dans une gamme de sujets plus large.

Étant donné que de plus en plus de gens utilisent maintenant des LLMs dans différentes langues, il est essentiel de vérifier la qualité des informations produites dans des langues autres que l'anglais. C'est crucial pour s'assurer que les utilisateurs du monde entier obtiennent du contenu sûr et utile.

Le Processus FActScore

FActScore suit un processus structuré, qui implique plusieurs parties : une Source de connaissance, un modèle de récupération, un LLM qui trouve des faits, et un autre LLM qui note ces faits. On veut évaluer à quel point chaque partie fonctionne bien toute seule pour voir où des améliorations sont nécessaires. Cependant, il n'y avait pas de jeu de données existant pour vérifier FActScore dans plusieurs langues, à part les données originales en anglais.

Pour combler cette lacune, on a créé un nouveau jeu de données axé sur la factualité dans trois langues non anglaises qui représentent des catégories de ressources élevées, moyennes et faibles. Ces données sont basées sur des textes générés par des LLMs multilingues puissants comme GPT-4 et Gemini-Pro-1.0. Notre recherche montre que tous les modèles utilisés montrent moins de précision dans l'évaluation de FActScore dans les langues à ressources réduites.

Plusieurs problèmes entraînent cette faible précision. D'abord, la partie Extraction de faits, qui est la tâche la plus simple du processus FActScore, fonctionne moins bien dans les langues à ressources faibles. Pour y remédier, on a affiné un LLM open-source pour cette tâche, obtenant de meilleurs résultats que GPT-3.5. Ensuite, la qualité de la source de connaissance est essentielle pour obtenir un FActScore correct. Les langues avec plus de ressources tendent à avoir des pages Wikipedia de meilleure qualité, ce qui aide à obtenir des scores précis. En revanche, utiliser Internet comme source de connaissance donne de meilleurs résultats pour les langues moyennes et faibles.

Contributions

Notre travail apporte plusieurs contributions importantes :

  • On a développé un nouveau jeu de données pour évaluer FActScore dans trois langues.
  • On a souligné l'importance de choisir les bonnes sources de connaissance pour l'évaluation de FActScore dans un contexte multilingue.
  • On a appris que l'amélioration de la qualité de la source de connaissance, que ce soit en utilisant Internet ou même en utilisant la connaissance interne d'un autre LLM, améliore considérablement la précision de FActScore pour toutes les langues.

Travaux Connexes

Alors que les LLMs ont avancé, diverses méthodes ont été proposées pour vérifier à quel point ils sont factuels. Beaucoup de ces approches impliquent d'utiliser des questions avec des réponses courtes, mais elles ne reflètent pas l'utilisation du monde réel. Au lieu de cela, évaluer des textes générés ouverts donne une vision claire de leur précision factuelle.

Certaines études précédentes ont examiné FActScore spécifiquement pour des biographies écrites par des LLMs en vérifiant les faits candidats individuels dans le texte. D'autres études ont élargi les sujets couverts et utilisé l'API de Google pour rassembler des références, permettant ainsi d'accéder à une plus large gamme de domaines. Notre enquête s'appuie sur ces travaux antérieurs, en se concentrant sur l'efficacité de FActScore à travers différents niveaux de ressources.

D'autres méthodes évaluent la connaissance interne des modèles pour la précision factuelle. Bien que cela soit facile à faire, cela soulève des questions sur la fiabilité factuelle de telles évaluations. Lors de la vérification de la factualité multilingue, des approches comme X-FACTR et MLAMA ont exploré la connaissance relationnelle à travers des tâches à trous, tandis que X-Fact a publié une référence multilingue pour la précision factuelle dans de nombreuses langues. Notre travail vise à évaluer la factualité de la génération de texte ouvert.

Tâches et Ressources

Dans notre recherche, nous avons évalué FActScore dans des contextes multilingues en utilisant deux ensembles de ressources : une annotation traduite de travaux antérieurs et une nouvelle annotation native créée. Le processus FActScore se compose de deux étapes principales :

  1. Extraction de Faits Atomiques : Cette étape décompose de longues biographies générées par un LLM en déclarations factuelles plus petites.
  2. Évaluation de la Factualité : Cette étape attribue une étiquette binaire (soit soutenue, soit non soutenue) à chaque fait candidat basé sur une source de connaissance.

Le FActScore final indique à quel point les biographies générées sont précises.

Annotation Traduit

Le travail original de FActScore a publié une collection de biographies générées par différents LLMs, complètes avec leur FActScore et des annotations détaillées. On a utilisé Google Translate pour convertir chaque fait atomique de l'anglais vers plusieurs langues cibles. On a choisi un mélange de langues à ressources élevées (comme le français, l'espagnol, le chinois, le russe et le vietnamien), de langues à ressources moyennes (comme l'arabe et l'hindi), et de langues à ressources faibles (comme le bengali).

Annotation Native

Bien que les annotations traduites aient offert des aperçus, elles ont aussi introduit des erreurs dues à des problèmes de traduction, notamment dans les langues à ressources faibles. Donc, on a créé de nouvelles données FActScore dans des langues non anglaises pour mieux comprendre FActScore et les défis impliqués. On s'est penché sur une langue de chaque catégorie de ressources : espagnol, arabe et bengali. On a assemblé une variété de biographies couvrant différentes zones géographiques et niveaux de popularité.

Pour générer des biographies, on a testé des LLMs multilingues puissants, comme GPT-4 et Gemini Pro. On a travaillé avec des annotateurs natifs pour chaque langue selon des directives spécifiques pour évaluer l'exactitude du texte généré.

Extraction de Faits Atomiques

FActScore décompose de longs textes en composants plus petits, chacun représentant un seul morceau d'information. L'approche originale utilisait des exemples pour inciter InstructGPT pour cette tâche. On a exploré la performance de différents modèles et identifié les lacunes dans les modèles existants.

En raison de la meilleure qualité des textes générés en anglais, des études précédentes se sont principalement concentrées sur la nécessité de fusionner ou de diviser des faits candidats. Cependant, dans un contexte multilingue, les textes générés peuvent contenir diverses erreurs, comme des faits nécessitant d'être fusionnés, divisés, manquants, dupliqués, ou ayant des erreurs linguistiques.

On a évalué des modèles comme GPT-3.5, GPT-4, et Gemma pour leur performance dans cette tâche. On a affiné Gemma sur un grand jeu de données de paires (phrase, faits atomiques extraits). Les résultats montrent que GPT-4 a surpassé les autres modèles dans toutes les langues. Pendant ce temps, Gemma affiné a mieux performé que GPT-3.5 dans les langues à ressources moyennes et faibles.

Évaluation de la Factualité

On a évalué l'utilisation des LLMs comme évaluateurs de faits dans des contextes multilingues. Pour cette évaluation, on a utilisé GPT-4 pour extraire des faits des biographies créées par deux modèles : GPT-4 et GemP. On a testé quatre LLMs en tant qu'évaluateurs de faits : GPT-3.5, GPT-4, Mistral et GemP. On a utilisé notre jeu de données annotées par des humains comme référence pour l'évaluation.

Les résultats ont révélé que GemP sous-estimait souvent le FActScore, tandis que GPT-4 avait tendance à surestimer. En revanche, GPT-3.5 fournissait des résultats relativement précis pour le bengali mais surévaluait pour l'espagnol et l'arabe. Mistral performait mieux pour l'espagnol et l'arabe mais sous-estimait le FActScore pour le bengali. Ces résultats impliquent qu'aucun des modèles ne pouvait fournir de manière cohérente un FActScore fiable à travers les langues.

Source de Connaissance

Puisque FActScore dépend de la source de connaissance, la qualité et la quantité d'informations disponibles affectent les scores. On a étudié comment FActScore réagissait à différentes sources de connaissance, en se concentrant sur 32 biographies de différentes catégories de popularité et de pertinence géographique.

Les résultats ont montré que la Wikipedia espagnole était plus précise pour les figures locales, tandis que la Wikipedia anglaise était meilleure pour les internationales. Pour l'arabe, la Wikipedia arabe performait bien pour les figures locales populaires, mais la Wikipedia anglaise était supérieure pour les entités internationales. Cependant, la Wikipedia bengali a moins bien performé par rapport à la Wikipedia anglaise, indiquant un manque de couverture pour les entités locales et internationales.

Performance de Récupération

La longueur de contexte limitée dans les LLMs signifie que les pages de Wikipedia doivent être divisées en sections plus courtes. Un modèle de récupération est utilisé pour trouver des passages pertinents, qui servent de connaissance de référence. On a utilisé une version multilingue de SentenceBERT pour cela.

On a évalué la performance de récupération sur des langues de différents niveaux de ressources. Les résultats ont révélé que la performance de récupération diminuait considérablement dans les langues à ressources faibles.

L'Impact de la Traduction

Une méthode simple pour utiliser FActScore dans plusieurs langues est de traduire d'abord les textes et les sources de connaissance non anglaises en anglais, puis d'évaluer le FActScore sur ces textes traduits. Étant donné les améliorations significatives de la traduction automatique au cours de la dernière décennie, on a traduit l'Annotation Native en anglais et comparé la correspondance des prédictions avec les textes originaux.

Utiliser des textes traduits en anglais a amélioré la précision des scores pour les LLMs, en particulier pour des modèles plus faibles comme Mistral et GPT-3.5 dans les langues à ressources faibles. Cependant, GPT-4 et GemP ont montré une performance plus stable, reflétant leur capacité à traiter des textes en anglais et dans d'autres langues.

Analyse des Erreurs

Dans nos résultats, des différences significatives dans la précision des scores demeurent parmi même les LLMs les plus avancés par rapport aux locuteurs natifs. On a réalisé une analyse des erreurs pour identifier les principales raisons de désaccord entre les LLMs et les humains.

Parmi les erreurs commises par GPT-4, beaucoup étaient contextuellement infidèles. Ce problème était plus répandu dans les langues à ressources faibles. De plus, de nombreux exemples contextuellement infidèles étaient factuellement corrects selon d'autres sources de connaissance. Cela suggère que GPT-4 dépend fortement de sa connaissance interne.

D'un autre côté, GemP avait moins d'erreurs contextuellement infidèles mais commettait plus d'erreurs dues à des problèmes de récupération ou des données tabulaires. Cela indique que GemP dépend davantage du contexte et moins de la connaissance interne.

Mitigation des Erreurs

On a exploré trois méthodes pour atténuer les problèmes avec les langues à ressources faibles :

  1. Augmenter les Passages Récupérés : Cette méthode consistait à augmenter le nombre de passages de 8 à 20 pour fournir plus d'informations à l'évaluateur. Les résultats indiquaient une augmentation générale de la performance dans toutes les langues, en particulier pour le bengali.

  2. Utiliser Internet comme Source de Connaissance : En permettant l'accès au web pour évaluer des faits, on a obtenu de meilleurs résultats. Par exemple, la précision pour le bengali s'est considérablement améliorée, montrant qu'une base de connaissance plus large mène à un meilleur scoring.

  3. Utiliser des LLMs comme Sources de Connaissance : On a aussi testé l'utilisation de GPT-4 pour augmenter les sources de connaissance à faible couverture en générant des informations pertinentes. Cette approche a produit des améliorations substantielles dans le scoring de factualité, indiquant que la connaissance interne de GPT-4 est fiable et utile.

Conclusion

Cette étude examine le processus FActScore pour évaluer des textes longs générés dans plusieurs langues. On a généré de nouveaux candidats factuels et créé un nouveau jeu de données pour évaluer FActScore. Nos résultats montrent que les LLMs open-source modernes ont du mal avec la tâche d'extraction de faits atomiques. De plus, la tâche d'évaluation de la factualité est très sensible à la couverture de la source de connaissance. Bien que fiable, Wikipedia manque de couverture suffisante dans les langues à ressources faibles, ce qui conduit à des résultats FActScore biaisés.

Nos stratégies d'atténuation, comme l'augmentation de l'accès à la source de connaissance et l'utilisation de données générées par des LLMs non vérifiées, sont efficaces pour améliorer la précision de FActScore dans toutes les langues. Cependant, des défis subsistent pour traiter plus de langues et de plus grands jeux de données en raison de contraintes de financement et des coûts élevés associés à cette tâche.

À mesure que les LLMs continuent d'évoluer, les résultats de cette étude fournissent des aperçus précieux sur l'évaluation de la factualité multilingue, ouvrant la voie à de futures avancées.

Source originale

Titre: An Analysis of Multilingual FActScore

Résumé: FActScore has gained popularity as a metric to estimate the factuality of long-form texts generated by Large Language Models (LLMs) in English. However, there has not been any work in studying the behavior of FActScore in other languages. This paper studies the limitations of each component in the four-component pipeline of FActScore in the multilingual setting. We introduce a new dataset for FActScore on texts generated by strong multilingual LLMs. Our evaluation shows that LLMs exhibit distinct behaviors in both fact extraction and fact scoring tasks. No LLM produces consistent and reliable FActScore across languages with varying levels of resources. We also find that the knowledge source plays an important role in the quality of the estimated FActScore. Using Wikipedia as the knowledge source may hinder the true FActScore of long-form text due to its limited coverage in medium- and low-resource languages. We also incorporate three mitigations to our knowledge source that ultimately improve FActScore estimation across all languages.

Auteurs: Kim Trong Vu, Michael Krumdick, Varshini Reddy, Franck Dernoncourt, Viet Dac Lai

Dernière mise à jour: 2024-06-20 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.19415

Source PDF: https://arxiv.org/pdf/2406.19415

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires