Hybrid-SQuAD : L'avenir des questions-réponses académiques
Un ensemble de données combinant du texte et des données structurées pour améliorer les réponses aux questions académiques.
Tilahun Abedissa Taffa, Debayan Banerjee, Yaregal Assabie, Ricardo Usbeck
― 5 min lire
Table des matières
Dans le monde de la recherche, trouver des réponses précises aux questions peut être compliqué. Beaucoup de systèmes qui essaient de répondre à ces questions se concentrent généralement sur un seul type de données, soit le texte, soit les graphiques. Pourtant, l'info académique vient souvent d'un mélange de différentes sources. Pour régler ce problème, un nouveau dataset appelé Hybrid-SQuAD a été créé. Ce dataset aide les systèmes à répondre aux questions en tirant des infos à la fois du texte et des données structurées.
Qu'est-ce que Hybrid-SQuAD ?
Hybrid-SQuAD signifie Hybrid Scholarly Question Answering Dataset. C'est une grande collection de questions et réponses conçue pour améliorer la manière dont on peut répondre aux questions académiques. Ce dataset contient environ 10 500 paires de questions et réponses générées par un modèle informatique puissant. Les questions proviennent de diverses sources, y compris des bases de données comme DBLP et SemOpenAlex, ainsi que du texte de Wikipédia. L'objectif est de s'assurer que les réponses puissent être trouvées en consultant plusieurs sources plutôt qu'une seule.
La nécessité d'approches hybrides
Les questions académiques nécessitent souvent des informations qui sont réparties à différents endroits. Par exemple, quelqu'un pourrait avoir besoin de consulter un Graph de Connaissances (KG) qui répertorie les publications et ensuite vérifier Wikipédia pour plus de détails sur les auteurs. Une question typique pourrait être : "Quel est le principal intérêt de recherche de l'auteur d'un article spécifique ?" Cette question ne peut pas être répondue en ne regardant qu'une seule source ; des infos graphiques et textuelles sont nécessaires. C'est là qu'intervient Hybrid-SQuAD, ce qui facilite la compilation de toutes les données nécessaires pour des réponses.
Construction du dataset
Créer ce dataset a impliqué un processus rigoureux :
-
Collecte de données : L'équipe a rassemblé des données de DBLP, une base de données sur les publications en informatique, et SemOpenAlex, qui contient des informations académiques. Ils ont également collecté des textes associés de Wikipédia.
-
Génération des questions : En utilisant un modèle de langage, ils ont créé des questions basées sur les infos collectées. Le modèle a produit des paires de questions et réponses qui reflètent la complexité des enquêtes académiques.
-
Vérification de la qualité : Les chercheurs ont vérifié les questions générées pour s'assurer qu'elles étaient claires et avaient du sens. Toute question avec des réponses incomplètes a été révisée pour améliorer la qualité.
Types de questions dans Hybrid-SQuAD
Les questions de ce dataset couvrent plusieurs types :
-
Questions de transition : Celles-ci nécessitent de relier des données de différentes sources pour trouver des réponses. Par exemple, déterminer le nombre de citations d'un auteur impliqué dans un travail particulier.
-
Questions de comparaison : Celles-ci demandent de comparer des entités, comme déterminer quel auteur a un nombre de citations plus élevé.
-
Questions basées sur le texte : Certaines questions impliquent d'extraire des infos spécifiques du texte, comme le focus principal de recherche d'un auteur.
-
Questions complexes : Quelques questions demandent des infos qui nécessitent des données de plusieurs sources, nécessitant à la fois des données textuelles et graphiques pour trouver des réponses.
Performance des modèles
Pour voir à quel point les systèmes pouvaient répondre à ces questions, un modèle de référence a été développé. Ce modèle a réussi à atteindre un taux de précision impressionnant de plus de 69 %, montrant son efficacité à répondre aux questions de Hybrid-SQuAD. En revanche, des modèles populaires comme ChatGPT ont eu du mal, n'atteignant qu'environ 3 % de précision lorsqu'ils ont été testés sans contexte.
Importance de Hybrid-SQuAD
Hybrid-SQuAD est essentiel car il encourage des avancées supplémentaires dans la manière dont on répond aux questions académiques complexes. En repoussant les limites des systèmes et méthodologies existants, il peut aider à établir de nouvelles normes en recherche académique et en intégration de données.
Conclusion
Hybrid-SQuAD est une étape significative vers l'amélioration de la façon dont on aborde les questions académiques. En combinant différents types de données et en créant une ressource riche pour construire de meilleurs systèmes de question-réponse, il vise à renforcer la précision et l'efficacité de la recherche académique. Qui aurait cru que répondre à des questions de recherche pouvait susciter autant d'excitation ? Les chercheurs ont maintenant un outil de plus dans leur boîte à outils, rendant la quête de connaissance un peu plus facile et beaucoup plus amusante.
Source originale
Titre: Hybrid-SQuAD: Hybrid Scholarly Question Answering Dataset
Résumé: Existing Scholarly Question Answering (QA) methods typically target homogeneous data sources, relying solely on either text or Knowledge Graphs (KGs). However, scholarly information often spans heterogeneous sources, necessitating the development of QA systems that integrate information from multiple heterogeneous data sources. To address this challenge, we introduce Hybrid-SQuAD (Hybrid Scholarly Question Answering Dataset), a novel large-scale QA dataset designed to facilitate answering questions incorporating both text and KG facts. The dataset consists of 10.5K question-answer pairs generated by a large language model, leveraging the KGs DBLP and SemOpenAlex alongside corresponding text from Wikipedia. In addition, we propose a RAG-based baseline hybrid QA model, achieving an exact match score of 69.65 on the Hybrid-SQuAD test set.
Auteurs: Tilahun Abedissa Taffa, Debayan Banerjee, Yaregal Assabie, Ricardo Usbeck
Dernière mise à jour: 2024-12-05 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2412.02788
Source PDF: https://arxiv.org/pdf/2412.02788
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.w3.org/TR/rdf-sparql-query/
- https://dblp.org
- https://semopenalex.org/resource/semopenalex:UniversalSearch
- https://orkg.org
- https://openai.com/blog/chatgpt
- https://github.com/semantic-systems/hybrid-squad
- https://www.quora.com/
- https://stackexchange.com/
- https://www.mturk.com/
- https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct
- https://sbert.net
- https://huggingface.co/google/flan-t5-small
- https://huggingface.co/deepset/bert-base-cased-squad2
- https://blog.dblp.org/2022/03/02/dblp-in-rdf/
- https://semopenalex.org/authors/context
- https://semopenalex.org/institutions/context
- https://dblp-april24.skynet.coypu.org/sparql
- https://semoa.skynet.coypu.org/sparql
- https://drive.google.com/file/d/1ISxvb4q1TxcYRDWlyG-KalInSOeZqpyI/view?usp=drive_link
- https://orcid.org
- https://pypi.org/project/beautifulsoup4/
- https://huggingface.co/BAAI/bge-small-en-v1.5
- https://huggingface.co/meta-llama/Meta-Llama-3-8B
- https://www.w3.org/1999/02/
- https://dblp.org/rdf/schema#
- https://semopenalex.org/ontology/
- https://purl.org/spar/bido/
- https://dbpedia.org/ontology/
- https://dbpedia.org/property/
- https://xmlns.com/foaf/0.1/
- https://www.w3.org/ns/org#
- https://www.w3.org/
- https://www.w3.org/2002/07/owl#