Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Apprentissage automatique

Une nouvelle façon d'évaluer les systèmes de réponse aux questions

La métrique SQuArE améliore l'évaluation des systèmes de Q&R grâce à plusieurs références de réponse.

― 7 min lire


Révolutionner lesRévolutionner lesmétriques d'évaluation dela QAréférences de réponse.systèmes de QA avec plusieursLe métrique SQuArE améliore les
Table des matières

Les systèmes de Question-Réponse (QR) sont conçus pour donner des réponses précises aux questions des utilisateurs. Ces systèmes dépendent beaucoup de la façon dont ils évaluent la précision de leurs réponses. Traditionnellement, le meilleur moyen de vérifier si une réponse est correcte a été d'utiliser des Évaluations humaines, où des gens passent en revue et notent les réponses. Mais ce processus peut être lent et coûteux.

Ces dernières années, de nouvelles méthodes utilisant des modèles d'apprentissage automatique ont été développées pour automatiser l'évaluation des systèmes QR. Ces méthodes ont souvent du mal parce qu'elles dépendent généralement d'une seule bonne réponse comme point de référence. Cette limitation peut causer des problèmes, car de nombreuses questions peuvent avoir plus d'une réponse acceptable.

Le Besoin d'Améliorer les Métriques d'Évaluation

Les méthodes courantes pour évaluer les systèmes QR utilisent souvent des métriques de correspondance de tokens, comme le Exact Match (EM) ou les scores F1. Bien que ces métriques soient efficaces pour certaines tâches, elles sont moins performantes pour des questions complexes basées sur des phrases. Elles ne captent pas toujours le sens derrière les mots, ce qui est essentiel pour comprendre le contexte de la question et de la réponse.

Les modèles précédents, comme AVA et BEM, ont utilisé une seule réponse de référence correcte pour évaluer d'autres réponses. Cette approche ne prend pas en compte que certaines questions ont plusieurs bonnes réponses ou que l'information pertinente à la réponse peut être répartie entre diverses Références. Donc, il est important de trouver un moyen d’inclure plusieurs réponses, tant correctes qu'incorrectes, lors de l'évaluation des réponses du système.

Présentation d'une Nouvelle Métrique d'Évaluation : SQuArE

Pour répondre à ces défis, une nouvelle métrique appelée SQuArE a été proposée. SQuArE signifie Évaluation des Réponses aux Questions au Niveau de la Phrase. L'idée, c'est d'utiliser plusieurs réponses de référence-à la fois correctes et incorrectes-pour évaluer à quel point une réponse donnée est précise par rapport à une question.

Cette métrique a été testée sur différents types de systèmes QR, y compris ceux qui extraient des réponses d'un texte (comme les systèmes de sélection de réponses) et ceux qui génèrent des réponses basées sur des informations (comme le QR génératif). Les résultats montrent que SQuArE peut surpasser les anciennes méthodes et mieux s'aligner avec le jugement humain pour évaluer la justesse des réponses.

L'Importance des Réponses de Référence Multiples

Un problème majeur avec l'approche d'une seule réponse est que beaucoup de questions peuvent avoir différentes bonnes réponses. Par exemple, si quelqu'un demande, "Qu'est-ce qu'un groupe ?", "Un groupe est un ensemble de musiciens" et "Un groupe est une bande de matériel" sont toutes deux des réponses valables. Compter uniquement sur une réponse peut mener à des évaluations trompeuses.

De plus, parfois, des informations pertinentes sont éparpillées dans différentes réponses. Si un utilisateur demande à propos d'une figure publique, comme un président, la meilleure réponse pourrait ne pas venir d'une seule réponse mais en rassemblant des informations à partir de plusieurs références.

En outre, certaines questions sont ambiguës ou subjectives. Une question comme "Quand est la prochaine coupe du monde ?" peut avoir plusieurs réponses correctes selon différents sports. Utiliser une seule référence pourrait mal représenter la capacité du système à répondre avec précision.

Le Rôle des Réponses Incorrectes

C'est intéressant de noter que même les réponses incorrectes peuvent aider à améliorer l'évaluation. En utilisant des références incorrectes avec des bonnes, le système d'évaluation peut prendre des décisions plus éclairées. Par exemple, si une question concerne des films sortis par un acteur spécifique, même une mauvaise réponse peut fournir un contexte qui aide à différencier entre les réponses acceptables et inacceptables.

En incluant à la fois des références positives et négatives, SQuArE vise à donner une image plus complète de la performance d'un système QR.

Tester SQuArE sur Différents Ensembles de Données

La nouvelle métrique a été évaluée sur plusieurs ensembles de données pour mesurer son efficacité. Ces ensembles incluent de grandes collections de questions et de réponses candidates, permettant un test rigoureux du système.

Certains des ensembles de données utilisés sont :

  1. WQA (Web Question Answers) - Un grand ensemble de données public avec un large éventail de questions liées à plusieurs réponses candidates.
  2. WikiQA - Un plus petit ensemble de données tiré des questions de recherche Bing, se concentrant sur les réponses de Wikipedia.
  3. TREC-QA - Un ensemble de données contenant des questions basées sur des faits, ce qui aide à tester l'exactitude du système.
  4. GenQA-MTURK - Un ensemble de données construit à partir de réponses générées par plusieurs modèles pour mesurer leur efficacité à créer des réponses naturelles.

Performance et Résultats de SQuArE

Quand SQuArE a été testé par rapport aux méthodes d'évaluation existantes, il a systématiquement obtenu des scores plus élevés sur diverses métriques, comme l'exactitude et la corrélation avec les évaluations humaines. Cela montre qu'utiliser plusieurs références conduit à de meilleurs résultats d'évaluation.

Dans les cas où SQuArE utilisait à la fois des références positives et négatives, il a pu corriger plus d'erreurs que lorsqu'il s'appuyait uniquement sur des références positives. Cela souligne l'importance de tirer parti d'un éventail plus large de réponses de référence pour affiner le processus d'évaluation.

De plus, dans des contextes zéro-shot-où le modèle doit évaluer de nouvelles questions qu'il n'a jamais vues auparavant-SQuArE a toujours montré une forte performance. C'est crucial, car cela indique la capacité du modèle à généraliser au-delà de ses données d'entraînement.

Comparer SQuArE avec D'autres Métriques

Comparé à d'autres métriques d'évaluation automatique, comme BLEURT et BERTScore, SQuArE a démontré une fiabilité supérieure dans la prédiction des annotations humaines. La capacité d'incorporer à la fois des références correctes et incorrectes a donné un avantage significatif en performance, surtout dans des tâches où les méthodes traditionnelles ont eu du mal.

Cette performance est cruciale pour toute application réelle des systèmes QR, où les enjeux de fournir des informations précises peuvent être très élevés.

Conclusion

L'avancement des métriques d'évaluation QR, en particulier avec l'introduction de SQuArE, représente un pas important dans la façon dont nous évaluons les réponses générées par les machines. En intégrant la complexité du langage et la variabilité des réponses humaines, SQuArE offre une approche plus nuancée et efficace pour évaluer la performance des systèmes QR.

Alors que le domaine continue de croître, le développement de méthodes d'évaluation robustes sera essentiel pour améliorer l'exactitude et la fiabilité de ces systèmes, menant finalement à de meilleures expériences utilisateur.

Source originale

Titre: SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References

Résumé: Evaluation of QA systems is very challenging and expensive, with the most reliable approach being human annotations of correctness of answers for questions. Recent works (AVA, BEM) have shown that transformer LM encoder based similarity metrics transfer well for QA evaluation, but they are limited by the usage of a single correct reference answer. We propose a new evaluation metric: SQuArE (Sentence-level QUestion AnsweRing Evaluation), using multiple reference answers (combining multiple correct and incorrect references) for sentence-form QA. We evaluate SQuArE on both sentence-level extractive (Answer Selection) and generative (GenQA) QA systems, across multiple academic and industrial datasets, and show that it outperforms previous baselines and obtains the highest correlation with human annotations.

Auteurs: Matteo Gabburo, Siddhant Garg, Rik Koncel Kedziorski, Alessandro Moschitti

Dernière mise à jour: 2023-09-21 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.12250

Source PDF: https://arxiv.org/pdf/2309.12250

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires