Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Recupero delle informazioni

Analizzando i dataset per il Question Answering

Uno studio su dataset e metriche nella ricerca delle domande e risposte.

Jamshid Mozafari, Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt

― 4 leggere min


Panoramica del dataset diPanoramica del dataset didomande e risposteset di dati e metriche.Valutazione e analisi dei principali
Indice

In questo articolo, diamo un'occhiata a diversi dataset utilizzati per la nostra ricerca. Le informazioni includono dettagli come il numero di campioni, il numero di domande e suggerimenti forniti in ogni dataset.

Dettagli del Dataset

Abbiamo esaminato tre dataset principali: TriviaQA, NQ e WebQ. Ecco i dettagli riguardanti i dataset.

DatasetScenarioNumero di DomandeNumero di Suggerimenti
TriviaQAFinetuned11,313105,709
TriviaQAVanilla11,313103,018
NQFinetuned3,61033,131
NQVanilla3,61030,976
WebQFinetuned2,03216,978
WebQVanilla2,03215,812

Distribuzione dei Tipi di Domande

La distribuzione dei tipi di domande nei dataset è fondamentale per il nostro studio.

Tipo di DomandaTriviaQANQWebQ
Addestramento14,6451,0001,000
Validazione140,9739,6389,619
Test14.1814.0813.95
Lunghezza Media Suggerimenti14.9815.0715.14
Suggerimenti Medi/ Domanda9.629.639.61
Entità Medie/ Domanda1.351.401.35
Entità Medie/ Suggerimento0.961.000.98
Fonti Medie/ Domanda6.276.176.71

Metriche Utilizzate

In questa sezione, discutiamo delle metriche usate per valutare i metodi nella nostra ricerca. La libreria scikit-learn ci ha aiutato a calcolare queste metriche.

Accuratezza (ACC)

Questa metrica controlla se le risposte date dal modello sono corrette.

Corrispondenza Esatta (EM)

Questo misura se il passaggio recuperato o generato include la risposta corretta esattamente come appare.

Precisione (PR)

Questo mostra quante parole nel passaggio sono anche presenti nella risposta corretta.

Richiamo (RC)

Questo calcola il numero di parole dalla risposta corretta incluse nel passaggio recuperato.

F1-measure (F1)

Questo è un equilibrio tra precisione e richiamo.

Contiene (CON)

Questa metrica verifica se il passaggio recuperato ha l'intera risposta corretta.

BERTScore (BERT)

Questa metrica controlla quanto siano simili le parole nel passaggio recuperato rispetto alla risposta usando word embeddings da BERT.

Risultati Sperimentali

In questa sezione, presentiamo risultati dei nostri esperimenti in vari scenari. Esaminiamo come diverse condizioni e fattori influenzano i risultati.

Il numero di suggerimenti fornisce contesto, mentre la colonna di ranking elenca i metodi per il reranking di questi suggerimenti.

Risultati per il Dataset TriviaQA

Nei nostri esperimenti, abbiamo analizzato i risultati dell’uso di T5-3b come lettore. Abbiamo applicato strategie di zero-shot e few-shot sul dataset TriviaQA.

Ecco i risultati basati su diversi metodi di ranking e quantità di suggerimenti.

Numero di SuggerimentiRankingEMF1PRRCCONBERT
8cZero-Shot
8cFew-Shot

Risultati del Dataset NQ

Simile al dataset precedente, forniamo risultati per il dataset NQ usando T5-3b in condizioni di zero-shot e few-shot.

Numero di SuggerimentiRankingEMF1PRRCCONBERT
8cZero-Shot
8cFew-Shot

Risultati del Dataset WebQ

Infine, presentiamo risultati per il dataset WebQ nelle stesse condizioni.

Numero di SuggerimentiRankingEMF1PRRCCONBERT
8cZero-Shot
8cFew-Shot

Prestazioni di T5-3b e LLaMA-7b

Abbiamo anche esaminato le prestazioni di T5-3b e LLaMA-7b in vari scenari usando diversi metodi di suggerimento.

Casi Studio

In questa sezione, mostriamo vari casi studio che dimostrano i prompt che abbiamo scelto, insieme ad esempi dai nostri esperimenti.

Domande e Risposte Esempio

Ecco alcune domande esempio dai dataset, insieme a come i modelli hanno risposto:

DomandaRecuperatoreLLaMA-70bRisposta Vera
Quanti punti in rilievo vengono solitamente usati in ogni lettera del sistema Braille?6sei6, sei
Chi era il leader della banda i cui membri includevano Benny the Ball, Brain e Choo Choo?i ragazzi di Bowerytop cattop cat
Quale gruppo di Glasgow firmò con la Creation Records e registrò il loro singolo di debutto "All Fall Down", nel 1985?primal screamthe pastelsthe jesus and mary chain
Chi è l'unico uomo a vincere un Oscar come miglior attore interpretando dei fratelli?jack nicholsondaniel dayhenry fonda

Suggerimenti Generati

I nostri casi studio illustrano come sono stati generati i suggerimenti per varie domande. Ogni suggerimento forniva contesto per aiutare i modelli a trovare le risposte corrette.

Conclusione

In questo articolo, abbiamo esplorato vari dataset utilizzati per la nostra ricerca, concentrandoci sui loro dettagli, le metriche utilizzate per la valutazione, i risultati sperimentali e i casi studio che illustrano l'applicazione pratica dei nostri metodi. L'obiettivo è contribuire alla comprensione di come diversi modelli si comportano nell'rispondere a domande con l'aiuto di suggerimenti contestuali.

Fonte originale

Titolo: Exploring Hint Generation Approaches in Open-Domain Question Answering

Estratto: Automatic Question Answering (QA) systems rely on contextual information to provide accurate answers. Commonly, contexts are prepared through either retrieval-based or generation-based methods. The former involves retrieving relevant documents from a corpus like Wikipedia, whereas the latter uses generative models such as Large Language Models (LLMs) to generate the context. In this paper, we introduce a novel context preparation approach called HINTQA, which employs Automatic Hint Generation (HG) techniques. Unlike traditional methods, HINTQA prompts LLMs to produce hints about potential answers for the question rather than generating relevant context. We evaluate our approach across three QA datasets including TriviaQA, NaturalQuestions, and Web Questions, examining how the number and order of hints impact performance. Our findings show that the HINTQA surpasses both retrieval-based and generation-based approaches. We demonstrate that hints enhance the accuracy of answers more than retrieved and generated contexts.

Autori: Jamshid Mozafari, Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt

Ultimo aggiornamento: 2024-09-24 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2409.16096

Fonte PDF: https://arxiv.org/pdf/2409.16096

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili