Une nouvelle façon d'évaluer le texte généré
Présentation d'un système qui explique clairement l'évaluation des textes générés par des machines.
― 7 min lire
Table des matières
Ces dernières années, on a vu des progrès significatifs dans l'évaluation des Textes générés automatiquement par des machines. De nouvelles méthodes, surtout celles utilisant des Modèles avancés, montrent un bon accord avec la façon dont les humains jugent la qualité des textes. Cependant, ces nouveaux scores d'évaluation manquent souvent de clarté. C’est pas toujours évident de comprendre pourquoi un certain score a été donné ou ce qui n’allait pas dans un texte. Pour résoudre ce problème, on a créé un nouveau système qui aide à expliquer l'évaluation des textes générés automatiquement.
Le besoin d'une meilleure évaluation
Les méthodes traditionnelles d'évaluation des textes, comme compter les mots qui correspondent ou utiliser des méthodes statistiques, ont leurs limites. Elles se concentrent généralement sur des problèmes de surface plutôt que sur le sens profond du texte. Ça veut dire qu'elles peuvent passer à côté d'aspects importants que les humains prennent en compte pour juger la qualité d'écriture. En plus, ces métriques traditionnelles peuvent parfois mener à de fausses conclusions dans la recherche.
Pour s'améliorer, la recherche a commencé à combiner des composants appris avec des méthodes d'évaluation traditionnelles. Cela signifie utiliser des techniques d'apprentissage automatique pour créer des métriques qui peuvent mieux évaluer la qualité des textes. Malgré cela, beaucoup de ces nouvelles méthodes donnent toujours juste un score, ce qui n'offre pas assez d'infos pour une analyse approfondie des Erreurs.
Présentation d'une métrique d'évaluation explicable
Pour améliorer l'évaluation des textes générés automatiquement, on a développé un nouveau système qui ne donne pas seulement un score, mais fournit aussi une analyse détaillée des erreurs. Ce système vise à identifier où les erreurs se produisent, le type d'erreurs, leur gravité et pourquoi elles sont considérées comme des erreurs, le tout sans avoir besoin de données notées manuellement par des humains.
Notre approche commence avec un modèle de langue sophistiqué, qui acquiert des connaissances sur l'évaluation des textes grâce à son vaste entraînement. On crée ensuite un ensemble de données contenant des phrases avec leurs erreurs et des explications pour ces erreurs. Notre nouveau modèle peut alors apprendre de cet ensemble de données.
Avantages du nouveau système
Le nouveau système d'évaluation a plusieurs avantages clés :
Explications structurées : Contrairement à certains modèles existants qui génèrent des justifications vagues, notre système fournit des explications structurées qui facilitent l'identification des erreurs.
Retour d'information semblable à celui des humains : En utilisant des instructions de personnes pour guider le modèle, on crée un système qui génère des explications plus précises et compréhensibles.
Efficacité : Notre modèle fonctionne bien même s'il a moins de paramètres que certains modèles plus gros, prouvant qu'un modèle plus petit et bien entraîné peut être très efficace.
Reproductibilité : Notre système et ses résultats peuvent être facilement reproduits, ce qui est important pour la transparence dans la recherche.
Pas besoin de données annotées par des humains : Fait important, notre modèle ne nécessite pas de données qui ont été notées manuellement par des personnes, ce qui permet une application plus large sans besoin d'une intervention humaine spécifique.
Processus étape par étape
Génération de données : On commence par utiliser un modèle de langue à grande échelle pour créer divers échantillons de texte. Ça inclut la génération de phrases avec des erreurs et des explications à côté.
Entraînement du modèle : On ajuste notre modèle en utilisant les données générées. Le modèle apprend à identifier les types d'erreurs, leurs emplacements dans le texte, leur gravité, et à produire des explications pour ces erreurs.
Retour d'information et classement : On évalue la performance de notre modèle en comparant ses sorties aux jugements humains. On utilise des méthodes spécifiques pour classer la qualité des explications fournies par notre modèle.
Évaluation des performances : Notre modèle est testé sur diverses tâches linguistiques pour voir comment il se débrouille dans des scénarios réalistes. On mesure à quel point ses scores s'alignent avec les Évaluations humaines à travers différents styles d'écriture et langues.
Perspectives des expériences
Dans nos expériences, on a découvert que notre nouveau système d'évaluation fonctionne mieux que les méthodes existantes dans plusieurs domaines. On l'a testé sur divers textes générés et on a constaté qu'il fournissait systématiquement des évaluations plus précises par rapport aux méthodes traditionnelles.
Nos résultats suggèrent aussi que, même si notre modèle est très efficace en anglais, sa performance dans d'autres langues nécessite encore des recherches. On est conscient que différentes langues peuvent poser des défis uniques pour le processus d'évaluation.
Résolution des défis
On reconnaît que notre système n'est pas parfait. Certaines questions doivent encore être améliorées, en particulier quand il s'agit de traiter des textes dans des langues autres que l'anglais. On enquête actuellement sur des méthodes pour améliorer la capacité de notre modèle à évaluer du texte multilingue.
Directions futures
Il y a plusieurs pistes qu'on prévoit de suivre dans le futur. L'une d'elles est de peaufiner notre approche en examinant comment notre modèle peut être adapté pour les langues à faibles ressources. On vise aussi à améliorer notre compréhension de la façon dont le modèle fonctionne dans des scénarios textuels plus complexes.
De plus, on reconnaît l'importance de vérifier l'exactitude de notre système grâce à des évaluations humaines approfondies. L'amélioration continue de nos méthodes d'évaluation est cruciale pour s'assurer qu'elles restent pertinentes et fiables.
Conclusion
Pour résumer, on a développé un nouveau système pour évaluer le texte généré automatiquement qui va au-delà de simplement fournir un score de qualité. Il donne aux utilisateurs une compréhension claire des erreurs qui existent, de leurs types et des explications pour ces erreurs. Cette amélioration de la clarté facilite l'apprentissage des erreurs dans le texte généré.
Nos expériences montrent que cette nouvelle méthode a un fort potentiel et peut fonctionner efficacement dans différents contextes. Bien qu'il y ait des défis à relever, en particulier dans les environnements multilingues, les bases ont été posées pour un avenir où l'évaluation des textes automatisés devient plus fiable et interprétable.
En avançant, notre objectif est de peaufiner ces méthodes et d'élargir leur applicabilité, en veillant à ce qu'elles puissent traiter une variété de langues et de formats de texte. Nos résultats marquent un pas en avant vers une évaluation de la génération de texte plus complète et compréhensible, bénéficiant aux chercheurs et praticiens du domaine.
Titre: INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback
Résumé: Automatically evaluating the quality of language generation is critical. Although recent learned metrics show high correlation with human judgement, these metrics can not explain their verdict or associate the scores with defects in generated text. To address this limitation, we present InstructScore, an explainable evaluation metric for text generation. By harnessing both explicit human instruction and the implicit knowledge of GPT-4, we fine-tune a text evaluation metric based on LLaMA, producing both a score for generated text and a human readable diagnostic report. We evaluate InstructScore on a variety of generation tasks, including translation, captioning, data-to-text and commonsense generation. Experiments show that our 7B model surpasses all other unsupervised metrics, including those based on 175B GPT-3 and GPT-4. Surprisingly, our InstructScore, even without direct supervision from human-rated data, achieves performance levels on par with state-of-the-art metrics like COMET22, which were fine-tuned on human ratings.
Auteurs: Wenda Xu, Danqing Wang, Liangming Pan, Zhenqiao Song, Markus Freitag, William Yang Wang, Lei Li
Dernière mise à jour: 2023-10-26 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.14282
Source PDF: https://arxiv.org/pdf/2305.14282
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.