Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Introduction d'IfQA : Un nouveau dataset pour le raisonnement contrefactuel en QA

IfQA propose plus de 3 800 questions contrefactuelles pour défier la réponse à des questions en domaine ouvert.

― 8 min lire


IfQA : Dataset de QAIfQA : Dataset de QAcontrefactuelcontrefactuel.avec des questions de raisonnementUn ensemble de données pour défier l'IA
Table des matières

Le Raisonnement contrefactuel est une compétence importante en intelligence qui consiste à réfléchir sur ce qui aurait pu se passer différemment dans d'autres circonstances. Cependant, il n'y a pas eu de gros dataset spécifiquement conçu pour le questionnement en open-domain (QA) qui se concentre sur ce type de raisonnement. Pour combler ce vide, on introduit le dataset IfQA, qui se compose de Questions basées sur des situations hypothétiques utilisant des clauses "si".

Comprendre les Questions Contrefactuelles

Par exemple, prenons la question : "Si Los Angeles était sur la côte est des États-Unis, quelle serait la différence horaire entre Los Angeles et Paris ?" Cette question nécessite plus que des connaissances factuelles ; elle demande à la personne de réfléchir à une situation contraire aux faits connus. Répondre à ces questions implique de récupérer des informations provenant de sources fiables, comme Wikipedia, et de raisonner sur ce scénario imaginé.

Le dataset IfQA comprend plus de 3 800 questions qui ont été créées et vérifiées par des travailleurs. Des tests initiaux montrent que ce dataset est assez difficile pour les méthodes QA open-domain existantes. Les modèles actuels ont du mal à bien performer face aux exigences uniques du raisonnement contrefactuel.

Le Besoin de Raisonnement Contrefactuel

Le raisonnement contrefactuel reflète notre capacité à envisager différents résultats d'événements passés, surtout ceux qui ne se sont pas réellement produits. C'est un élément essentiel que les chercheurs estiment devoir faire partie de tout système d'IA avancé. Pourtant, peu de ressources ont été disponibles pour évaluer à quel point différents modèles peuvent gérer le raisonnement contrefactuel dans le questionnement open-domain.

La plupart des méthodes existantes pour le QA open-domain se concentrent sur des questions factuelles simples, comme "Quelle était la profession de Lovely Rita selon la chanson des Beatles ?" Ces types de questions peuvent être répondues en utilisant des informations facilement disponibles sur Internet.

Quand on considère les questions contrefactuelles, on trouve une couche de complexité différente. Ce type de raisonnement nécessite souvent un changement dans la compréhension d'une situation basée sur des scénarios hypothétiques tout en gardant à l'esprit ce que l'on sait sur la réalité. Pour répondre aux questions basées sur des présuppositions contrefactuelles, les modèles doivent aller au-delà de la simple récupération de faits.

Structure du Dataset IfQA

Le dataset IfQA est structuré de manière à ce que chaque question soit fondée sur une déclaration contrefactuelle introduite par une clause "si". Pour répondre à ces questions, un modèle doit d'abord trouver des faits pertinents dans des sources comme Wikipedia. Ensuite, il doit réfléchir au raisonnement contrefactuel pour arriver à une réponse correcte.

Bien que certaines recherches précédentes aient tenté de traiter des scénarios contrefactuels, aucune n'a construit de référence dédiée pour évaluer le raisonnement contrefactuel dans des situations de QA en open-domain. Pour remédier à ce manque, nous avons créé le dataset IfQA, qui met au défi les méthodes existantes de s'améliorer en termes de récupération et de raisonnement.

Collecte du Dataset IfQA

Les questions et réponses dans le dataset IfQA ont été recueillies en utilisant Amazon Mechanical Turk, une plateforme où les travailleurs peuvent accomplir des tâches en échange d'un paiement. Pour garantir une diversité de questions, nous avons limité chaque travailleur à 30 questions. Au total, 188 travailleurs différents ont contribué au dataset.

Le processus de création du dataset implique trois étapes principales. D'abord, des extraits pertinents ont été extraits de Wikipedia. Ensuite, les travailleurs ont été chargés de créer des questions nécessitant un raisonnement contrefactuel basé sur ces extraits. Enfin, nous avons validé la qualité et la justesse des questions et réponses par des vérifications supplémentaires.

Étapes de la Collecte de Données

  1. Sélection des Extraits : Nous avons filtré les extraits de Wikipedia pour identifier ceux liés à des événements causaux à l'aide de mots-clés spécifiques. Cette approche nous a aidés à rassembler des extraits adaptés à la création de questions contrefactuelles.

  2. Annotation des Questions : Les travailleurs ont reçu des extraits aléatoires et ont été invités à proposer des questions. Nous avons fourni des exemples initiaux pour les guider, mais plus tard, nous avons permis plus de flexibilité pour éviter les biais liés aux exemples. Les travailleurs avaient aussi la possibilité de créer leurs propres questions basées sur le matériel fourni.

  3. Annotation des Réponses : Après la génération des questions, les travailleurs devaient fournir des réponses. Des cases supplémentaires leur étaient offertes pour inclure d'autres réponses valides qu'ils pouvaient penser.

Vérification des Questions et Réponses

Pour garantir des réponses de haute qualité, chaque question a été évaluée sur sa lisibilité, sa clarté et sa justesse. Nous avons posé trois questions principales lors de ce processus de vérification :

  • La question est-elle claire et liée à l'extrait ?
  • La question nécessite-t-elle l'extrait pour le contexte ?
  • La réponse fournie est-elle correcte ?

À travers cette méthode, nous avons cherché à éliminer toute question mal construite ou réponse incorrecte.

Analyse du Dataset IfQA

Le dataset IfQA contient une variété de types de questions, qui peuvent principalement être catégorisés comme suit :

  1. Entités : 49,7%
  2. Dates : 14,5%
  3. Chiffres : 15,9%
  4. Autres : 19,9%

La longueur moyenne des réponses dans l'IfQA est d'environ 1,8 mots, ce qui est similaire à d'autres benchmarks QA. En ce qui concerne les types de questions, la plupart commencent par "quoi" (51,7 %), suivies de "qui" (14,6 %) et d'autres types, avec une longueur moyenne de question de 22,2 mots.

Dans le dataset, 75,1 % des réponses sont extraites des extraits fournis, tandis que le reste nécessite soit un raisonnement mathématique, soit combine plusieurs segments de texte pour la réponse. Fait intéressant, certaines questions peuvent avoir plus d'une réponse valide, mais cela se produit seulement dans 11,2 % des cas.

Test du Dataset IfQA

Nous avons créé deux divisions distinctes du dataset IfQA. La première est dédiée à l'apprentissage supervisé traditionnel, tandis que la seconde est pour l'apprentissage par peu d'exemples, ce qui nous permet d'évaluer les performances des modèles dans différentes conditions.

Le corpus de récupération utilisé pour ce dataset provient de Wikipedia, qui a été traité pour extraire de plus petits extraits pour un accès plus facile. Les comparaisons ont montré que les modèles "closed-book", qui ne comptent pas sur des informations externes, ont mal performé par rapport aux modèles "open-book" qui pouvaient accéder à Wikipedia.

Défis de la Récupération

La récupération d'informations dans IfQA est particulièrement difficile. Tant les méthodes de récupération traditionnelles que denses ont rencontré des défis importants en raison de la complexité du raisonnement contrefactuel. Dans de nombreux cas, les questions étaient plus longues que ce que la plupart des modèles de récupération existants sont conçus pour traiter, rendant plus difficile la recherche de passages précis.

De plus, la nature spécifique des questions contrefactuelles signifie souvent que les documents pertinents ne contiennent pas les mots exacts trouvés dans la question. Ainsi, la récupération basée uniquement sur la correspondance des mots a des limites.

Défis de Lecture et de Raisonnement

Une fois les documents pertinents récupérés, la prochaine étape est de tirer la réponse, ce qui pose également des défis. Les modèles actuels, y compris les meilleurs, ont du mal avec le raisonnement nécessaire pour relier les faits récupérés à des situations hypothétiques.

Même les modèles à la pointe de la technologie échouent à obtenir des résultats satisfaisants sur IfQA car ils doivent appliquer un raisonnement complexe, surtout pour les scénarios nécessitant des réponses numériques. La recherche montre que combiner récupération et raisonnement améliore considérablement les performances globales sur ces types de questions.

Conclusion

En résumé, IfQA introduit un nouvel ensemble de défis pour le QA en open-domain en se concentrant sur le raisonnement contrefactuel. Avec plus de 3 800 questions uniques, le dataset pousse les limites de ce que les méthodes actuelles peuvent réaliser en matière de récupération et de raisonnement. Malgré ses défis, IfQA vise à faire avancer la recherche dans le QA open-domain et à encourager de meilleurs modèles pour aborder des tâches de raisonnement complexes.

Le dataset présente certaines limitations, principalement qu'il n'est applicable qu'aux questions basées sur des événements. La collecte de données s'est largement appuyée sur des contributions humaines, ce qui peut introduire des biais. À mesure que ce domaine évolue, la vision reste claire : construire des modèles plus avancés capables de comprendre et de traiter des raisonnements complexes basés sur des scénarios hypothétiques.

Source originale

Titre: IfQA: A Dataset for Open-domain Question Answering under Counterfactual Presuppositions

Résumé: Although counterfactual reasoning is a fundamental aspect of intelligence, the lack of large-scale counterfactual open-domain question-answering (QA) benchmarks makes it difficult to evaluate and improve models on this ability. To address this void, we introduce the first such dataset, named IfQA, where each question is based on a counterfactual presupposition via an "if" clause. For example, if Los Angeles was on the east coast of the U.S., what would be the time difference between Los Angeles and Paris? Such questions require models to go beyond retrieving direct factual knowledge from the Web: they must identify the right information to retrieve and reason about an imagined situation that may even go against the facts built into their parameters. The IfQA dataset contains over 3,800 questions that were annotated annotated by crowdworkers on relevant Wikipedia passages. Empirical analysis reveals that the IfQA dataset is highly challenging for existing open-domain QA methods, including supervised retrieve-then-read pipeline methods (EM score 36.2), as well as recent few-shot approaches such as chain-of-thought prompting with GPT-3 (EM score 27.4). The unique challenges posed by the IfQA benchmark will push open-domain QA research on both retrieval and counterfactual reasoning fronts.

Auteurs: Wenhao Yu, Meng Jiang, Peter Clark, Ashish Sabharwal

Dernière mise à jour: 2023-05-23 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.14010

Source PDF: https://arxiv.org/pdf/2305.14010

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires