Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Recherche d'informations

Analyse des jeux de données de questions-réponses

Une étude des ensembles de données et des métriques dans la recherche sur le questionnement.

Jamshid Mozafari, Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt

― 5 min lire


Aperçus sur les ensemblesAperçus sur les ensemblesde données dequestions-réponsesdonnées et des métriques clés.Évaluation et analyse des ensembles de
Table des matières

Dans cet article, on va parler des différents Jeux de données qu'on a utilisés pour notre recherche. Les infos comprennent des détails comme le nombre d'échantillons, le nombre de questions et les indices fournis dans chaque jeu de données.

Détails des jeux de données

On a examiné trois jeux de données principaux : TriviaQA, NQ et WebQ. Voici les détails concernant ces jeux de données.

Jeu de donnéesScénarioNombre de questionsNombre d'indices
TriviaQAFinetuned11,313105,709
TriviaQAVanilla11,313103,018
NQFinetuned3,61033,131
NQVanilla3,61030,976
WebQFinetuned2,03216,978
WebQVanilla2,03215,812

Répartition des types de questions

La répartition des types de questions dans les jeux de données est aussi super importante pour notre étude.

Type de questionTriviaQANQWebQ
Entraînement14,6451,0001,000
Validation140,9739,6389,619
Test14.1814.0813.95
Longueur moyenne des indices14.9815.0715.14
Indices moyens/question9.629.639.61
Entités moyennes/question1.351.401.35
Entités moyennes/indice0.961.000.98
Sources moyennes/question6.276.176.71

Métriques utilisées

Dans cette section, on discute des métriques utilisées pour évaluer les méthodes dans notre recherche. La bibliothèque scikit-learn nous a aidés à calculer ces métriques.

Précision (ACC)

Cette métrique vérifie si les réponses données par le modèle sont correctes.

Correspondance exacte (EM)

Ça mesure si le passage récupéré ou généré inclut la bonne réponse exactement comme elle apparaît.

Précision (PR)

Ça montre combien de mots dans le passage se trouvent aussi dans la bonne réponse.

Rappel (RC)

Ça calcule le nombre de mots de la bonne réponse qui sont inclus dans le passage récupéré.

F1-mesure (F1)

C'est un équilibre entre la précision et le rappel.

Contient (CON)

Cette métrique vérifie si le passage récupéré a l'intégralité de la bonne réponse.

BERTScore (BERT)

Cette métrique vérifie à quel point les mots dans le passage récupéré ressemblent à la réponse en utilisant des embeddings de mots de BERT.

Résultats expérimentaux

Dans cette section, on fournit les résultats de nos expériences dans divers scénarios. On examine comment différentes conditions et facteurs affectent les résultats.

Le nombre d'indices donne du contexte, tandis que la colonne de classement liste les méthodes pour reranker ces indices.

Résultats pour le jeu de données TriviaQA

Dans nos expériences, on a analysé les résultats de l'utilisation de T5-3b comme lecteur. On a appliqué à la fois des stratégies de zero-shot et de few-shot learning sur le jeu de données TriviaQA.

Voici les résultats basés sur différentes méthodes de classement et quantités d'indices.

Nombre d'indicesClassementEMF1PRRCCONBERT
8cZero-Shot
8cFew-Shot

Résultats du jeu de données NQ

Comme pour le jeu de données précédent, on fournit les résultats pour le jeu de données NQ en utilisant T5-3b dans des conditions zero-shot et few-shot.

Nombre d'indicesClassementEMF1PRRCCONBERT
8cZero-Shot
8cFew-Shot

Résultats du jeu de données WebQ

Enfin, on présente les résultats pour le jeu de données WebQ dans les mêmes conditions.

Nombre d'indicesClassementEMF1PRRCCONBERT
8cZero-Shot
8cFew-Shot

Performance de T5-3b et LLaMA-7b

On a aussi examiné la performance de T5-3b et LLaMA-7b dans divers scénarios en utilisant différentes méthodes d'indices.

Etudes de cas

Dans cette section, on montre plusieurs études de cas qui démontrent les invites qu'on a choisies, avec des exemples de nos expériences.

Questions et réponses types

Voici quelques questions types venant des jeux de données, avec les réponses des modèles :

QuestionRécupérateurLLaMA-70bVraie réponse
Combien de positions de points sont généralement utilisées dans chaque lettre du système Braille ?6six6, six
Qui était le leader du gang dont les membres incluaient Benny the Ball, Brain et Choo Choo ?les garçons de bowerytop cattop cat
Quel groupe de Glasgow a signé chez Creation Records et a enregistré son premier single "All Fall Down" en 1985 ?primal screamthe pastelsthe jesus and mary chain
Qui est le seul homme à avoir gagné un Oscar du meilleur acteur en jouant des frères ?jack nicholsondaniel dayhenry fonda

Indices générés

Nos études de cas illustrent comment les indices ont été générés pour diverses questions. Chaque indice fournissait un contexte pour aider les modèles à trouver les bonnes réponses.

Conclusion

Dans cet article, on a exploré divers jeux de données utilisés pour notre recherche, en se concentrant sur leurs détails, les métriques utilisées pour l’évaluation, les résultats expérimentaux et des études de cas qui illustrent l'application pratique de nos méthodes. Le but est de contribuer à la compréhension de la performance des différents modèles pour répondre aux questions avec l'aide d'indices contextuels.

Source originale

Titre: Exploring Hint Generation Approaches in Open-Domain Question Answering

Résumé: Automatic Question Answering (QA) systems rely on contextual information to provide accurate answers. Commonly, contexts are prepared through either retrieval-based or generation-based methods. The former involves retrieving relevant documents from a corpus like Wikipedia, whereas the latter uses generative models such as Large Language Models (LLMs) to generate the context. In this paper, we introduce a novel context preparation approach called HINTQA, which employs Automatic Hint Generation (HG) techniques. Unlike traditional methods, HINTQA prompts LLMs to produce hints about potential answers for the question rather than generating relevant context. We evaluate our approach across three QA datasets including TriviaQA, NaturalQuestions, and Web Questions, examining how the number and order of hints impact performance. Our findings show that the HINTQA surpasses both retrieval-based and generation-based approaches. We demonstrate that hints enhance the accuracy of answers more than retrieved and generated contexts.

Auteurs: Jamshid Mozafari, Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt

Dernière mise à jour: 2024-09-24 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.16096

Source PDF: https://arxiv.org/pdf/2409.16096

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires