Avançando o Question Answering de Longa Duração com o RobustQA
Um novo conjunto de dados pra melhorar o desempenho em perguntas e respostas usando respostas longas, feitas por humanos.
― 7 min ler
Índice
- Criação do Conjunto de Dados
- Comparação de Conjuntos de Dados
- Long-form RobustQA
- Abordando Limitações Existentes
- Metodologia
- Criação e Anotação de Dados
- Resultados e Análise
- Estrutura de Avaliação
- Desempenho dos Sistemas RAG-QA
- Insights sobre Perguntas e Respostas
- Avançando
- Conclusão
- Fonte original
- Ligações de referência
A resposta a perguntas que usa geração aumentada por Recuperação (RAG-QA) é uma área importante em processamento de linguagem natural (NLP). Esse método tem várias aplicações úteis no mundo real. Mas, a maioria dos conjuntos de dados atuais foca em respostas curtas ou usa apenas uma fonte para informação. Isso limita nossa capacidade de testar como os modelos de linguagem se saem em diferentes assuntos. Para resolver isso, criamos um novo conjunto de dados chamado Long-form RobustQA. Esse conjunto contém respostas longas, escritas por humanos, que combinam informações de vários documentos em uma única resposta clara. Ele cobre uma variedade de perguntas em vários domínios.
Criação do Conjunto de Dados
Criamos o Long-form RobustQA para resolver as fraquezas dos conjuntos de dados existentes. Nosso conjunto inclui respostas longas criadas por humanos que juntam respostas curtas de diferentes fontes em uma narrativa única. Esse novo conjunto tem 26.000 perguntas e abrange sete domínios, ou seja, cobre uma variedade de tópicos.
O processo envolve coletar documentos que estão relacionados às perguntas. Isso permite que os anotadores - pessoas que ajudam a criar o conjunto de dados - combinem informações de diferentes fontes em uma resposta abrangente. Isso ajuda a garantir que as respostas sejam úteis, verdadeiras e coerentes.
Comparação de Conjuntos de Dados
Desenvolvemos nosso conjunto de dados para se destacar dos anteriores, incluindo várias características importantes:
- Conjunto de dados RAG-QA com respostas rastreadas até os documentos-fonte.
- Respostas longas, detalhadas e em formato de parágrafo.
- Informações extraídas de vários documentos que oferecem diferentes perspectivas.
- Respostas que abordam e misturam informações conflitantes.
- Uma coleção multissetorial para testar desempenho em diferentes assuntos.
- Respostas de alta qualidade verificadas por humanos.
- Um grande conjunto de Avaliação para testar diferentes modelos.
As tarefas tradicionais de resposta a perguntas costumam usar contextos fixos, o que não reflete as perguntas do mundo real. Por isso, é necessário ter sistemas que consigam encontrar respostas em grandes bancos de dados como a Wikipedia, que pode ser um desafio de gerenciar.
O RAG-QA ajuda a filtrar informações irrelevantes e selecionar apenas os trechos mais úteis para responder perguntas. Para aplicações práticas, é crucial verificar como esses sistemas conseguem lidar com informações fora do domínio, já que frequentemente enfrentam dados novos que não foram treinados.
Long-form RobustQA
Para melhorar os métodos de avaliação desses sistemas, criamos o Long-form RobustQA. Esse conjunto de dados permite uma comparação melhor entre respostas longas geradas por modelos de linguagem e respostas de alta qualidade escritas por humanos.
Para garantir que nosso conjunto de dados seja útil, estruturamos nossos experimentos para mostrar que as respostas dos anotadores humanos e as avaliações dos modelos de linguagem concordam bastante em termos de qualidade das respostas. Isso prova que nosso conjunto de dados serve como um bom padrão de referência para desenvolvimentos futuros.
Abordando Limitações Existentes
Os conjuntos de dados existentes para resposta a perguntas costumam focar em respostas curtas, que não se alinham bem com as respostas longas e detalhadas que os modelos de linguagem modernos produzem. Além disso, as técnicas usadas para medir desempenho nesses conjuntos de dados tradicionais não avaliam adequadamente esses modelos mais novos.
Nossa abordagem coleta respostas curtas extrativas e pede aos anotadores que as combinem em respostas longas coerentes, garantindo que as respostas finais sejam ricas em detalhes e contexto. Isso é vital, pois permite uma comparação mais razoável ao testar modelos de linguagem, destacando sua eficácia na geração de respostas de qualidade.
Metodologia
Em nossa pesquisa, estabelecemos uma estrutura para avaliar o quão bem os sistemas RAG-QA se saem. Começamos recuperando trechos de uma coleção de documentos com base na pergunta feita. Então, a abordagem RAG-QA nos permite gerar uma resposta lendo os trechos mais relevantes.
O objetivo é permitir que os modelos produzam respostas abrangentes para perguntas, em vez de puxar apenas trechos curtos de documentos. Isso reflete as necessidades de um ambiente de questionamento mais realista.
Criação e Anotação de Dados
Para nosso conjunto de dados, coletamos perguntas e documentos relevantes de vários domínios. O objetivo era criar um amplo conjunto de perguntas que pudessem ser representadas por respostas longas.
Os anotadores revisaram cuidadosamente os documentos para extrair informações e produzir respostas claras e coerentes. Essas respostas incluíram todos os pontos críticos e foram estruturadas de uma forma que fazia sentido no contexto.
Foi feito um controle de qualidade para manter altos padrões, onde lotes aleatórios de respostas foram auditados por especialistas em linguagem. Isso ajudou a garantir que as informações fossem completas e relevantes.
Resultados e Análise
Depois de criar nosso conjunto de dados, realizamos testes extensivos. Comparamos as respostas geradas com as escritas por humanos para medir sua qualidade. Os resultados mostraram que nosso conjunto de dados facilitou uma melhor compreensão de como os modelos de linguagem podem responder a várias perguntas.
Na nossa análise, notamos que as respostas geradas frequentemente ficavam aquém das respostas feitas por humanos. Os sistemas tinham dificuldade em alcançar altos níveis de completude e coerência. Mais da metade das respostas geradas não foram preferidas em relação às humanas, indicando uma necessidade de melhoria.
Estrutura de Avaliação
Desenhamos uma estrutura de avaliação que usa tanto avaliações humanas quanto baseadas em modelos. Isso permite uma forma mais eficiente de comparar respostas de diferentes sistemas.
Os avaliadores humanos classificaram as respostas com base em quão úteis, verdadeiras e completas elas eram. As avaliações baseadas em modelos ajudaram a escalar esse processo, permitindo avaliações rápidas em muitas perguntas.
Desempenho dos Sistemas RAG-QA
Em sessões usando nossa estrutura de avaliação, testamos vários modelos de linguagem. Descobrimos que, embora alguns modelos se saíssem razoavelmente bem, havia lacunas significativas quando comparados a respostas humanas de alta qualidade. Isso destaca a necessidade contínua de trabalho nessa área.
Além disso, a eficácia dos sistemas de recuperação desempenha um papel crucial na geração de boas respostas. Quanto melhor a recuperação, melhor a resposta final fornecida pelo modelo de linguagem.
Insights sobre Perguntas e Respostas
Através de nossos estudos, observamos padrões em como as respostas eram formuladas. As respostas frequentemente combinavam informações de vários documentos, com um número notável de frases integrando fatos de diferentes fontes.
Isso indica que modelos eficazes devem ser capazes de sintetizar informações e não apenas extraí-las. A inclusão de pontos de vista diversos nas respostas é essencial para abordar a complexidade de muitas perguntas feitas em cenários do mundo real.
Avançando
Nossas descobertas sugerem que modelos de linguagem podem se beneficiar de técnicas de treinamento aprimoradas e melhores métodos de recuperação. À medida que a demanda por respostas a perguntas precisas e coerentes cresce, desenvolver benchmarks de avaliação robustos como o Long-form RobustQA será fundamental.
Pesquisas futuras também podem explorar diferentes sistemas de recuperação e como eles impactam o desempenho dos modelos de linguagem. À medida que refinamos essas metodologias, ampliamos nossa compreensão sobre modelos de linguagem e suas capacidades em gerar respostas ricas e informativas.
Conclusão
A pesquisa sobre Long-form RobustQA e sistemas RAG-QA dá passos significativos para abordar as limitações dos métodos atuais de resposta a perguntas. Ao focar em respostas longas e coerentes e em estruturas de avaliação rigorosas, estabelecemos uma base para mais avanços na área.
Com esforços contínuos para estabelecer padrões e melhorar sistemas, podemos alcançar um desempenho melhor e modelos de linguagem mais confiáveis que atendem às crescentes demandas de aplicações reais em resposta a perguntas.
Título: RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering
Resumo: Question answering based on retrieval augmented generation (RAG-QA) is an important research topic in NLP and has a wide range of real-world applications. However, most existing datasets for this task are either constructed using a single source corpus or consist of short extractive answers, which fall short of evaluating large language model (LLM) based RAG-QA systems on cross-domain generalization. To address these limitations, we create Long-form RobustQA (LFRQA), a new dataset comprising human-written long-form answers that integrate short extractive answers from multiple documents into a single, coherent narrative, covering 26K queries and large corpora across seven different domains. We further propose RAG-QA Arena by directly comparing model-generated answers against LFRQA's answers using LLMs as evaluators. We show via extensive experiments that RAG-QA Arena and human judgments on answer quality are highly correlated. Moreover, only 41.3% of the most competitive LLM's answers are preferred to LFRQA's answers, demonstrating RAG-QA Arena as a challenging evaluation platform for future research.
Autores: Rujun Han, Yuhao Zhang, Peng Qi, Yumo Xu, Jenyuan Wang, Lan Liu, William Yang Wang, Bonan Min, Vittorio Castelli
Última atualização: 2024-10-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.13998
Fonte PDF: https://arxiv.org/pdf/2407.13998
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://sites.google.com/view/fiqa/home
- https://github.com/stanford-futuredata/ColBERT
- https://participants-area.bioasq.org/datasets/
- https://github.com/awslabs/robustqa-acl23
- https://aclanthology.org/2021.naacl-main.393.pdf
- https://github.com/awslabs/rag-qa-arena
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.appen.com/
- https://platform.openai.com/docs/guides/prompt-engineering