Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Présentation de FanOutQA : Un nouveau dataset pour répondre à des questions complexes

FanOutQA aide à évaluer les modèles de langage sur des questions multi-étapes difficiles en utilisant des données structurées.

― 7 min lire


Dataset FanOutQA pour lesDataset FanOutQA pour lesmodèles de languecomplexes à plusieurs étapes.Évaluer des modèles sur des questions
Table des matières

Quand les gens posent des Questions dans la vie de tous les jours, ils ont souvent besoin de Réponses qui impliquent plusieurs étapes et des infos de différentes sources. Ces types de questions s'appellent des "questions à déploiement". Elles demandent des détails sur plusieurs sujets, et pour y répondre correctement, il faut rassembler des infos provenant de nombreux articles ou documents.

Pour aider à évaluer à quel point les grands modèles de langage (LLMs) peuvent répondre à ces questions complexes, on a créé un nouveau jeu de données appelé FanOutQA. Ce jeu de données se concentre sur les questions à déploiement et inclut des paires de questions et réponses, ainsi que des explications détaillées sur comment chaque question peut être décomposée en parties plus simples. On a utilisé des infos de la Wikipédia anglaise comme source de connaissances pour ce jeu de données.

Le Besoin de Questions à Déploiement

Les questions à déploiement sont courantes dans diverses situations. Par exemple, si quelqu'un planifie des vacances, il voudra connaître plusieurs attractions touristiques dans une ville. Ou, s'il fait des recherches pour un papier, il pourrait avoir besoin de rassembler des infos provenant de plusieurs études. Répondre à ce genre de questions est compliqué parce que ça nécessite de vérifier plusieurs sources pour obtenir des réponses.

Les jeux de données existants qui testent les compétences en réponse à des questions se concentrent généralement sur la façon dont les modèles fonctionnent avec un seul article ou quelques documents liés. Mais beaucoup de questions dans la vie réelle nécessitent de consulter plusieurs documents et de lier des morceaux d'infos ensemble. FanOutQA vise à combler ce vide en fournissant un ensemble de questions qui nécessitent des réponses trouvées par le raisonnement à travers plusieurs documents.

Structure du Jeu de Données

Le jeu de données FanOutQA se compose de plusieurs éléments :

  1. Questions : Les questions principales auxquelles on veut répondre.
  2. Réponses : Réponses correctes à ces questions.
  3. Preuves : Liens vers des pages Wikipédia pertinentes qui fournissent les infos nécessaires pour répondre aux questions.

Chaque question de ce jeu de données est conçue pour nécessiter des infos provenant d'au moins cinq sources différentes. De plus, on décompose chaque question principale en sous-questions plus simples. Comme ça, il est clair quels morceaux d'infos doivent être rassemblés depuis chaque source.

Génération du Jeu de Données

Pour créer FanOutQA, on a demandé l'aide d'étudiants en IA et en traitement du langage naturel. On leur a demandé d'écrire des questions à déploiement liées à des articles de Wikipédia. Chaque question devait faire référence à plusieurs sources pour s'assurer qu'elle ne pouvait pas être répondue sans rassembler des infos provenant de différents articles.

Au cours d'une semaine, les étudiants ont produit différentes questions, qu'on a ensuite filtrées pour garantir une haute qualité. Après notre processus de révision, on a abouti à un total de 1 034 questions principales et 7 305 sous-questions.

Paramètres de Défi

On a mis en place trois façons différentes de défier les modèles de langage avec le jeu de données FanOutQA :

  1. Livre Fermé : Dans ce contexte, le modèle n'a accès qu'à la question elle-même. Il doit se fier à ce qu'il a appris jusqu'à présent. Cela teste les connaissances générales du modèle sans aide extérieure.

  2. Livre Ouvert : Ici, le modèle a accès à la base de connaissances Wikipédia. Il peut consulter des articles pour aider à répondre à la question. Ce paramètre teste la capacité du modèle à retrouver des infos pertinentes et à raisonner avec des documents plus longs.

  3. Preuve Fournie : Dans ce cas, le modèle reçoit la question accompagnée d'articles spécifiques contenant les infos nécessaires pour y répondre. Cela permet de tester la capacité du modèle à extraire et raisonner sur les infos des textes fournis.

Évaluation des Performances

On a testé sept LLMs différents avec le jeu de données FanOutQA : GPT-4, GPT-3.5-turbo, LLaMA 2, et d'autres. On a mesuré la façon dont chaque modèle s'est comporté dans les différents contextes.

Résultats du Livre Fermé

Dans le cadre du livre fermé, les modèles devaient se fier uniquement aux connaissances encodées dans leurs systèmes. Leurs performances variaient, aucun des modèles ne dépassant 50 %. Les erreurs les plus courantes étaient basées sur des suppositions infondées.

Résultats du Livre Ouvert

Dans le cadre du livre ouvert, la plupart des modèles ont moins bien performé que dans le cadre du livre fermé. C'était surprenant, sachant qu'on s'attendrait à ce que plus d'infos à disposition aident. Cependant, beaucoup de modèles ont eu du mal à garder en tête la question originale pendant qu'ils traitaient de longs passages récupérés, ce qui a conduit à des résultats hors sujet.

Résultats avec Preuves Fournies

Quand les modèles ont eu accès aux articles à partir desquels travailler, leur performance s'est améliorée de manière significative. La capacité à utiliser de plus grandes quantités de texte dans la fenêtre de contexte a fait une grande différence. On a constaté que la performance était fortement corrélée à la longueur de contexte maximale des modèles.

Performance Humaine

Pour comprendre à quel point les humains pouvaient performer sur ces tâches, on a demandé à des volontaires de répondre à un ensemble de questions du jeu de données FanOutQA. En moyenne, ils ont obtenu des scores significativement plus élevés que la plupart des modèles testés. Cela indiquait qu'il y a encore beaucoup à améliorer pour les LLMs concernant leur capacité à répondre à des questions complexes à étapes multiples.

Défis avec la Réponse aux Questions à Déploiement

Répondre à des questions à déploiement n'est pas une tâche facile pour les LLMs. Ils doivent décomposer des requêtes complexes en parties plus petites et gérables, rassembler des infos provenant de diverses sources, et raisonner à travers ces infos pour fournir une réponse finale correcte.

Importance de l'Information de Qualité

Un point clé de notre recherche est que la qualité et la quantité d'infos disponibles pour un modèle influencent énormément sa performance. Dans les contextes où la longueur de contexte était plus grande, les modèles avaient tendance à mieux performer parce qu'ils pouvaient conserver plus d'infos sans perdre de vue la question originale.

Travaux Futurs

On encourage d'autres chercheurs à utiliser le jeu de données FanOutQA pour évaluer de nouveaux modèles et techniques pour la réponse aux questions. Ce jeu de données met en lumière les capacités et les limites des LLMs actuels tout en invitant à des améliorations de leurs compétences en raisonnement et en gestion de contexte.

Considérations Éthiques

La création de FanOutQA a pris en compte l'éthique de la collecte de données et de l'implication des participants. Tous les contributeurs ont été rémunérés de manière appropriée, et leurs identités ont été gardées confidentielles. De plus, le jeu de données n'utilise que du contenu provenant de pages Wikipédia accessibles au public, assurant qu'aucune information privée n'a été incluse.

Conclusion

FanOutQA est une étape vers la réponse au besoin d'évaluation efficace des modèles de langage pour répondre à des questions complexes à étapes multiples. En créant un jeu de données axé sur ce domaine, on peut mieux comprendre les forces et faiblesses des modèles actuels, ouvrant la voie à des avancées dans leurs capacités. On a hâte de voir comment la communauté de recherche interagira avec FanOutQA et repousse les limites de ce que les modèles de langage peuvent accomplir dans le domaine de la réponse aux questions.

Source originale

Titre: FanOutQA: A Multi-Hop, Multi-Document Question Answering Benchmark for Large Language Models

Résumé: One type of question that is commonly found in day-to-day scenarios is ``fan-out'' questions, complex multi-hop, multi-document reasoning questions that require finding information about a large number of entities. However, there exist few resources to evaluate this type of question-answering capability among large language models. To evaluate complex reasoning in LLMs more fully, we present FanOutQA, a high-quality dataset of fan-out question-answer pairs and human-annotated decompositions with English Wikipedia as the knowledge base. We formulate three benchmark settings across our dataset and benchmark 7 LLMs, including GPT-4, LLaMA 2, Claude-2.1, and Mixtral-8x7B, finding that contemporary models still have room to improve reasoning over inter-document dependencies in a long context. We provide our dataset and open-source tools to run models to encourage evaluation at https://fanoutqa.com

Auteurs: Andrew Zhu, Alyssa Hwang, Liam Dugan, Chris Callison-Burch

Dernière mise à jour: 2024-06-06 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.14116

Source PDF: https://arxiv.org/pdf/2402.14116

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Liens de référence

Plus d'auteurs

Articles similaires