Hybrid-SQuAD: Il futuro delle domande e risposte accademiche
Un dataset che combina testo e dati strutturati per migliorare le risposte a domande accademiche.
Tilahun Abedissa Taffa, Debayan Banerjee, Yaregal Assabie, Ricardo Usbeck
― 4 leggere min
Indice
Nel mondo della ricerca, trovare risposte accurate alle domande può essere complicato. Molti sistemi che cercano di rispondere a queste domande di solito si concentrano su un solo tipo di dati, o testo o grafici. Tuttavia, le informazioni accademiche arrivano spesso da una miscela di fonti diverse. Per affrontare questo problema, è stato creato un nuovo dataset chiamato Hybrid-SQuAD. Questo dataset aiuta i sistemi a rispondere a domande estraendo informazioni sia dal testo che dai dati strutturati.
Cos'è Hybrid-SQuAD?
Hybrid-SQuAD sta per Hybrid Scholarly Question Answering Dataset. È una grande raccolta di domande e risposte progettata per migliorare il modo in cui possiamo rispondere a domande accademiche. Questo dataset contiene circa 10.500 coppie di domande e risposte generate da un potente modello di computer. Le domande provengono da varie fonti, comprese basi dati come DBLP e SemOpenAlex, e testi da Wikipedia. L'obiettivo è assicurarsi che le risposte possano essere trovate guardando a più fonti invece che a una sola.
Il bisogno di approcci ibridi
Le domande accademiche spesso richiedono informazioni sparse in diversi luoghi. Ad esempio, qualcuno potrebbe dover guardare a un Knowledge Graph (KG) che elenca le pubblicazioni e poi controllare Wikipedia per dettagli più personali sugli autori. Una domanda tipica potrebbe essere: "Qual è il principale interesse di ricerca dell'autore di un particolare articolo?" Questa domanda non può essere risposta solo guardando a una fonte; servono sia informazioni grafiche che testuali. Qui entra in gioco Hybrid-SQuAD, rendendo più facile raccogliere tutti i dati necessari per le risposte.
Costruzione del dataset
Creare questo dataset ha comportato un processo approfondito:
-
Raccolta dei dati: Il team ha raccolto dati da DBLP, una banca dati di pubblicazioni di informatica, e SemOpenAlex, che contiene informazioni accademiche. Hanno anche raccolto testi correlati da Wikipedia.
-
Generazione delle domande: Utilizzando un modello di linguaggio, hanno creato domande basate sulle informazioni raccolte. Il modello ha prodotto coppie di domande e risposte che riflettono la complessità delle indagini accademiche.
-
Controllo Qualità: I ricercatori hanno verificato le domande generate per assicurarsi che fossero chiare e sensate. Qualsiasi domanda con risposte incomplete è stata rivista per migliorare la qualità.
Tipi di domande in Hybrid-SQuAD
Le domande in questo dataset coprono vari tipi:
-
Domande di collegamento: Queste richiedono di collegare dati da diverse fonti per trovare risposte. Ad esempio, scoprire i conteggi delle citazioni per un autore coinvolto in un determinato lavoro.
-
Domande di confronto: Queste chiedono confronti tra entità, come determinare quale autore ha un conteggio di citazioni più alto.
-
Domande basate su testo: Alcune domande coinvolgono l'estrazione di informazioni specifiche dal testo, come il focus principale di ricerca di un autore.
-
Domande complesse: Alcune domande chiedono informazioni che necessitano dati da più fonti, richiedendo sia dati testuali che grafici per trovare risposte.
Prestazioni del Modello
Per vedere quanto bene i sistemi potessero rispondere a queste domande, è stato sviluppato un modello di riferimento. Questo modello è riuscito a raggiungere un'accuratezza impressionante di oltre il 69%, dimostrando la sua efficacia nel rispondere alle domande di Hybrid-SQuAD. Al contrario, modelli popolari come ChatGPT hanno faticato, raggiungendo solo circa il 3% di accuratezza quando testati senza alcun contesto.
Importanza di Hybrid-SQuAD
Hybrid-SQuAD è fondamentale perché incoraggia ulteriori progressi nel modo in cui rispondiamo a domande accademiche complesse. Spingendo i confini dei sistemi e delle metodologie esistenti, può aiutare a stabilire nuovi standard nella ricerca accademica e nell'integrazione dei dati.
Conclusione
Hybrid-SQuAD è un passo significativo per migliorare il modo in cui affrontiamo le domande accademiche. Combinando diversi tipi di dati e creando una risorsa ricca per costruire sistemi di risposta alle domande migliori, mira a migliorare l'accuratezza e l'efficienza della ricerca accademica. Chi l'avrebbe mai detto che rispondere a domande di ricerca potesse suscitare tanto entusiasmo? I ricercatori ora hanno uno strumento in più nel loro arsenale, rendendo la ricerca della conoscenza un po' più facile e molto più divertente.
Titolo: Hybrid-SQuAD: Hybrid Scholarly Question Answering Dataset
Estratto: Existing Scholarly Question Answering (QA) methods typically target homogeneous data sources, relying solely on either text or Knowledge Graphs (KGs). However, scholarly information often spans heterogeneous sources, necessitating the development of QA systems that integrate information from multiple heterogeneous data sources. To address this challenge, we introduce Hybrid-SQuAD (Hybrid Scholarly Question Answering Dataset), a novel large-scale QA dataset designed to facilitate answering questions incorporating both text and KG facts. The dataset consists of 10.5K question-answer pairs generated by a large language model, leveraging the KGs DBLP and SemOpenAlex alongside corresponding text from Wikipedia. In addition, we propose a RAG-based baseline hybrid QA model, achieving an exact match score of 69.65 on the Hybrid-SQuAD test set.
Autori: Tilahun Abedissa Taffa, Debayan Banerjee, Yaregal Assabie, Ricardo Usbeck
Ultimo aggiornamento: Dec 5, 2024
Lingua: English
URL di origine: https://arxiv.org/abs/2412.02788
Fonte PDF: https://arxiv.org/pdf/2412.02788
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.w3.org/TR/rdf-sparql-query/
- https://dblp.org
- https://semopenalex.org/resource/semopenalex:UniversalSearch
- https://orkg.org
- https://openai.com/blog/chatgpt
- https://github.com/semantic-systems/hybrid-squad
- https://www.quora.com/
- https://stackexchange.com/
- https://www.mturk.com/
- https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct
- https://sbert.net
- https://huggingface.co/google/flan-t5-small
- https://huggingface.co/deepset/bert-base-cased-squad2
- https://blog.dblp.org/2022/03/02/dblp-in-rdf/
- https://semopenalex.org/authors/context
- https://semopenalex.org/institutions/context
- https://dblp-april24.skynet.coypu.org/sparql
- https://semoa.skynet.coypu.org/sparql
- https://drive.google.com/file/d/1ISxvb4q1TxcYRDWlyG-KalInSOeZqpyI/view?usp=drive_link
- https://orcid.org
- https://pypi.org/project/beautifulsoup4/
- https://huggingface.co/BAAI/bge-small-en-v1.5
- https://huggingface.co/meta-llama/Meta-Llama-3-8B
- https://www.w3.org/1999/02/
- https://dblp.org/rdf/schema#
- https://semopenalex.org/ontology/
- https://purl.org/spar/bido/
- https://dbpedia.org/ontology/
- https://dbpedia.org/property/
- https://xmlns.com/foaf/0.1/
- https://www.w3.org/ns/org#
- https://www.w3.org/
- https://www.w3.org/2002/07/owl#