Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Recuperação de informação

Analisando Conjuntos de Dados de Perguntas e Respostas

Um estudo sobre conjuntos de dados e métricas na pesquisa de respostas a perguntas.

― 4 min ler


Insights sobre ConjuntoInsights sobre Conjuntode Dados de Perguntas eRespostasdados e métricas chave.Avaliação e análise de conjuntos de
Índice

Neste artigo, a gente dá uma olhada EM diferentes Conjuntos de dados que usamos na nossa pesquisa. As informações incluem detalhes como o número de amostras, o número de perguntas e dicas fornecidas em cada conjunto de dados.

Detalhes do Conjunto de Dados

Analisamos três conjuntos de dados principais: TriviaQA, NQ e WebQ. Aqui estão os detalhes sobre os conjuntos de dados.

Conjunto de DadosCenárioNúmero de PerguntasNúmero de Dicas
TriviaQAFinetuned11,313105,709
TriviaQAVanilla11,313103,018
NQFinetuned3,61033,131
NQVanilla3,61030,976
WebQFinetuned2,03216,978
WebQVanilla2,03215,812

Distribuição dos Tipos de Pergunta

A distribuição dos tipos de perguntas nos conjuntos de dados também é importante para o nosso estudo.

Tipo de PerguntaTriviaQANQWebQ
Treinamento14,6451,0001,000
Validação140,9739,6389,619
Teste14.1814.0813.95
Comprimento Médio da Dica14.9815.0715.14
Dicas Médias/Pergunta9.629.639.61
Entidades Médias/Pergunta1.351.401.35
Entidades Médias/Dica0.961.000.98
Fontes Médias/Pergunta6.276.176.71

Métricas Usadas

Nesta seção, discutimos as métricas usadas para avaliar os métodos na nossa pesquisa. A biblioteca scikit-learn ajudou a calcular essas métricas.

Precisão (ACC)

Essa métrica verifica se as respostas dadas pelo modelo estão corretas.

Correspondência Exata (EM)

Essa mede se o trecho recuperado ou gerado inclui a resposta correta exatamente como aparece.

Precisão (PR)

Isso mostra quantas palavras no trecho também estão na resposta correta.

Revocação (RC)

Isso calcula o número de palavras da resposta correta que estão incluídas no trecho recuperado.

Medida F1 (F1)

Essa é um equilíbrio entre precisão e revocação.

Contém (CON)

Essa métrica verifica se o trecho recuperado tem toda a resposta correta.

BERTScore (BERT)

Essa métrica verifica quão semelhantes as palavras no trecho recuperado são à resposta usando embeddings de palavras do BERT.

Resultados Experimentais

Nesta seção, apresentamos os resultados de nossos experimentos em vários cenários. Analisamos como diferentes condições e fatores afetam os resultados.

O número de dicas dá contexto, enquanto a coluna de classificação lista os métodos para reclassificar essas dicas.

Resultados do Conjunto de Dados TriviaQA

Nos nossos experimentos, analisamos os resultados de usar T5-3b como leitor. Aplicamos tanto estratégias de aprendizado zero-shot quanto few-shot no conjunto de dados TriviaQA.

Aqui estão os resultados baseados nos diferentes métodos de classificação e quantidades de dicas.

Número de DicasClassificaçãoEMF1PRRCCONBERT
8cZero-Shot
8cFew-Shot

Resultados do Conjunto de Dados NQ

Semelhante ao conjunto de dados anterior, apresentamos resultados para o conjunto de dados NQ usando T5-3b nas condições zero-shot e few-shot.

Número de DicasClassificaçãoEMF1PRRCCONBERT
8cZero-Shot
8cFew-Shot

Resultados do Conjunto de Dados WebQ

Por fim, apresentamos resultados para o conjunto de dados WebQ nas mesmas condições.

Número de DicasClassificaçãoEMF1PRRCCONBERT
8cZero-Shot
8cFew-Shot

Desempenho do T5-3b e LLaMA-7b

Nós também examinamos o desempenho do T5-3b e LLaMA-7b em vários cenários usando diferentes métodos de dicas.

Estudos de Caso

Nesta seção, mostramos vários estudos de caso que demonstram os prompts que escolhemos, junto com exemplos de nossos experimentos.

Perguntas e Respostas de Exemplo

Aqui estão algumas perguntas de exemplo dos conjuntos de dados, junto com como os modelos responderam:

PerguntaRecuperadorLLaMA-70bResposta Correta
Quantas posições de ponto geralmente são usadas em cada letra do sistema Braille?6seis6, seis
Quem foi o líder da gangue cujos membros incluíam Benny the Ball, Brain e Choo Choo?os garotos da bowerytop cattop cat
Qual grupo de Glasgow assinou com a Creation Records e gravou seu single de estreia "All Fall Down", em 1985?grito primalos pastéisa jesus and mary chain
Quem é o único homem a ganhar um Oscar de melhor ator interpretando irmãos?jack nicholsondaniel dayhenry fonda

Dicas Geradas

Nossos estudos de caso ilustram como as dicas foram geradas para várias perguntas. Cada dica forneceu contexto para ajudar os modelos a encontrar as respostas corretas.

Conclusão

Neste artigo, exploramos vários conjuntos de dados usados na nossa pesquisa, focando em seus detalhes, as métricas usadas para avaliação, resultados experimentais e estudos de caso que ilustram a aplicação prática dos nossos métodos. O objetivo é contribuir para a compreensão de como diferentes modelos se desempenham em responder perguntas com a ajuda de dicas contextuais.

Fonte original

Título: Exploring Hint Generation Approaches in Open-Domain Question Answering

Resumo: Automatic Question Answering (QA) systems rely on contextual information to provide accurate answers. Commonly, contexts are prepared through either retrieval-based or generation-based methods. The former involves retrieving relevant documents from a corpus like Wikipedia, whereas the latter uses generative models such as Large Language Models (LLMs) to generate the context. In this paper, we introduce a novel context preparation approach called HINTQA, which employs Automatic Hint Generation (HG) techniques. Unlike traditional methods, HINTQA prompts LLMs to produce hints about potential answers for the question rather than generating relevant context. We evaluate our approach across three QA datasets including TriviaQA, NaturalQuestions, and Web Questions, examining how the number and order of hints impact performance. Our findings show that the HINTQA surpasses both retrieval-based and generation-based approaches. We demonstrate that hints enhance the accuracy of answers more than retrieved and generated contexts.

Autores: Jamshid Mozafari, Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt

Última atualização: Sep 24, 2024

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.16096

Fonte PDF: https://arxiv.org/pdf/2409.16096

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes