Apresentando o FanOutQA: Um Novo Conjunto de Dados para Respostas a Perguntas Complexas
O FanOutQA ajuda a avaliar modelos de linguagem em perguntas difíceis de múltiplos passos usando dados estruturados.
― 6 min ler
Índice
- A Necessidade de Perguntas Fan-Out
- Estrutura do Conjunto de Dados
- Gerando o Conjunto de Dados
- Configurações de Desafio
- Avaliação de Desempenho
- Resultados do Closed Book
- Resultados do Open Book
- Resultados com Evidências Fornecidas
- Desempenho Humano
- Desafios com Respostas a Perguntas Fan-Out
- Importância da Informação de Qualidade
- Trabalho Futuro
- Considerações Éticas
- Conclusão
- Fonte original
- Ligações de referência
Quando as pessoas fazem Perguntas no dia a dia, elas costumam precisar de Respostas que envolvem várias etapas e informações de diversas fontes. Esse tipo de pergunta é chamado de "perguntas fan-out". Elas pedem detalhes sobre vários tópicos e, para responder corretamente, é preciso juntar informações de muitos artigos ou documentos diferentes.
Para avaliar como os grandes modelos de linguagem (LLMs) conseguem responder a essas perguntas complexas, criamos um novo conjunto de dados chamado FanOutQA. Esse conjunto se concentra em perguntas fan-out e inclui pares de perguntas e respostas, junto com explicações detalhadas de como cada pergunta pode ser dividida em partes mais simples. Usamos informações da Wikipedia em inglês como fonte de conhecimento para esse conjunto de dados.
A Necessidade de Perguntas Fan-Out
Perguntas fan-out são comuns em várias situações. Por exemplo, se alguém está planejando uma viagem, pode querer saber sobre várias atrações turísticas em uma cidade. Ou, se está pesquisando um tema para um trabalho, pode precisar colher informações de múltiplos estudos. Responder a esse tipo de pergunta é complicado porque exige checar várias fontes para encontrar as respostas.
Os conjuntos de dados existentes que testam habilidades de pergunta-resposta geralmente se concentram em quão bem os modelos funcionam com apenas um artigo ou alguns documentos relacionados. Mas muitas perguntas da vida real exigem olhar para muitos documentos diferentes e juntar informações. O FanOutQA busca preencher essa lacuna, oferecendo um conjunto de perguntas que precisam de respostas encontradas através de raciocínio entre múltiplos documentos.
Estrutura do Conjunto de Dados
O conjunto de dados FanOutQA consiste em vários componentes:
- Perguntas: As perguntas principais que queremos responder.
- Respostas: Respostas corretas para essas perguntas.
- Evidências: Links para páginas relevantes da Wikipedia que fornecem as informações necessárias para responder às perguntas.
Cada pergunta desse conjunto é projetada para exigir informações de pelo menos cinco fontes diferentes. Além disso, dividimos cada pergunta principal em sub-perguntas mais simples. Assim, fica claro quais pedaços de informação precisam ser coletados de cada fonte.
Gerando o Conjunto de Dados
Para criar o FanOutQA, contamos com a ajuda de estudantes que estudam IA e processamento de linguagem natural. Pedimos a eles que escrevessem perguntas fan-out ligadas a artigos da Wikipedia. Cada pergunta precisava fazer referência a várias fontes para garantir que não pudesse ser respondida sem reunir informações de diferentes artigos.
Durante uma semana, os estudantes produziram várias perguntas, que depois filtramos para garantir alta qualidade. Depois de passar pelo nosso processo de revisão, ficamos com um total de 1.034 perguntas principais e 7.305 sub-perguntas.
Configurações de Desafio
Criamos três maneiras diferentes de desafiar os modelos de linguagem com o conjunto de dados FanOutQA:
Closed Book: Nesse cenário, o modelo só tem acesso à própria pergunta. Ele deve se basear no que aprendeu até agora. Isso testa o conhecimento geral do modelo sem ajuda externa.
Open Book: Aqui, o modelo tem acesso à base de conhecimento da Wikipedia. Ele pode procurar artigos para ajudar a responder a pergunta. Esse cenário testa a habilidade do modelo de recuperar informações relevantes e raciocinar com documentos mais longos.
Evidência Fornecida: Nesse caso, o modelo recebe a pergunta junto com artigos específicos que contêm as informações necessárias para respondê-la. Isso permite testar a capacidade do modelo de extrair e raciocinar sobre informações dos textos fornecidos.
Desempenho
Avaliação deTestamos sete LLMs diferentes usando o conjunto de dados FanOutQA: GPT-4, GPT-3.5-turbo, LLaMA 2 e outros. Medimos quão bem cada modelo se saiu nas diferentes configurações.
Resultados do Closed Book
Na configuração de closed book, os modelos tiveram que se basear apenas no conhecimento codificado em seus sistemas. O desempenho variou, com nenhum dos modelos marcando acima de 50%. Os erros mais comuns envolveram suposições baseadas em informações incorretas.
Resultados do Open Book
Na configuração de open book, a maioria dos modelos teve um desempenho pior do que na configuração de closed book. Isso foi surpreendente, já que se esperaria que ter mais informações à mão ajudasse. No entanto, muitos modelos falharam em acompanhar a pergunta original enquanto processavam trechos longos recuperados, levando a saídas irrelevantes.
Resultados com Evidências Fornecidas
Quando os modelos receberam os artigos reais para trabalhar, seu desempenho melhorou significativamente. A capacidade de usar quantidades maiores de texto dentro da janela de contexto fez uma grande diferença. Descobrimos que o desempenho estava fortemente correlacionado com o comprimento máximo de contexto dos modelos.
Desempenho Humano
Para entender quão bem os humanos poderiam se sair nessas tarefas, pedimos a voluntários que respondessem um conjunto de perguntas do conjunto de dados FanOutQA. Em média, eles marcaram significativamente mais alto do que a maioria dos modelos testados. Isso indicou que ainda há muito o que melhorar nos LLMs em relação à habilidade de responder perguntas complexas e multi-step.
Desafios com Respostas a Perguntas Fan-Out
Responder a perguntas fan-out não é uma tarefa fácil para os LLMs. Eles precisam dividir consultas complexas em partes menores e mais gerenciáveis, coletar informações de várias fontes e raciocinar sobre essas informações para fornecer uma resposta final correta.
Importância da Informação de Qualidade
Um ponto chave da nossa pesquisa é que a qualidade e a quantidade de informações disponíveis para um modelo afetam muito seu desempenho. Em configurações onde o comprimento de contexto era maior, os modelos tendiam a se sair melhor porque conseguiam reter mais informações sem perder o fio da meada da pergunta original.
Trabalho Futuro
Encorajamos outros pesquisadores a usar o conjunto de dados FanOutQA para avaliar novos modelos e técnicas de resposta a perguntas. Esse conjunto de dados ilumina as capacidades e limitações dos LLMs atuais, ao mesmo tempo em que convida a melhorias em suas habilidades de raciocínio e gerenciamento de contexto.
Considerações Éticas
A criação do FanOutQA levou em conta a ética da coleta de dados e a participação dos envolvidos. Todos os contribuintes foram compensados adequadamente, e suas identidades foram mantidas em sigilo. Além disso, o conjunto de dados utiliza apenas conteúdo de páginas da Wikipedia disponíveis publicamente, garantindo que nenhuma informação privada foi incluída.
Conclusão
O FanOutQA é um passo em direção a atender a necessidade de uma avaliação eficaz dos modelos de linguagem na resposta a perguntas complexas e multi-step. Ao criar um conjunto de dados focado nessa área, podemos entender melhor os pontos fortes e fracos dos modelos atuais, abrindo caminho para avanços em suas capacidades. Estamos ansiosos para ver como a comunidade de pesquisa interage com o FanOutQA e empurra os limites do que os modelos de linguagem podem realizar no âmbito da resposta a perguntas.
Título: FanOutQA: A Multi-Hop, Multi-Document Question Answering Benchmark for Large Language Models
Resumo: One type of question that is commonly found in day-to-day scenarios is ``fan-out'' questions, complex multi-hop, multi-document reasoning questions that require finding information about a large number of entities. However, there exist few resources to evaluate this type of question-answering capability among large language models. To evaluate complex reasoning in LLMs more fully, we present FanOutQA, a high-quality dataset of fan-out question-answer pairs and human-annotated decompositions with English Wikipedia as the knowledge base. We formulate three benchmark settings across our dataset and benchmark 7 LLMs, including GPT-4, LLaMA 2, Claude-2.1, and Mixtral-8x7B, finding that contemporary models still have room to improve reasoning over inter-document dependencies in a long context. We provide our dataset and open-source tools to run models to encourage evaluation at https://fanoutqa.com
Autores: Andrew Zhu, Alyssa Hwang, Liam Dugan, Chris Callison-Burch
Última atualização: 2024-06-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.14116
Fonte PDF: https://arxiv.org/pdf/2402.14116
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://fanoutqa.com
- https://github.com/zhudotexe/fanoutqa
- https://acl-org.github.io/ACLPUB/formatting.html
- https://aclweb.org/anthology/anthology.bib.gz
- https://en.wikipedia.org/wiki/Billboard_Year-End_Hot_100_singles_of_2022
- https://en.wikipedia.org/wiki/Heat_Waves
- https://en.wikipedia.org/wiki/As_It_Was
- https://en.wikipedia.org/wiki/Stay_
- https://en.wikipedia.org/wiki/Easy_on_Me
- https://en.wikipedia.org/wiki/Shivers_
- https://en.wikipedia.org/wiki/List_of_most-followed_Instagram_accounts
- https://en.wikipedia.org/wiki/Cristiano_Ronaldo
- https://en.wikipedia.org/wiki/Lionel_Messi
- https://en.wikipedia.org/wiki/Selena_Gomez
- https://en.wikipedia.org/wiki/Kylie_Jenner
- https://en.wikipedia.org/wiki/Dwayne_Johnson
- https://en.wikipedia.org/wiki/List_of_best-selling_manga
- https://en.wikipedia.org/wiki/One_Piece
- https://en.wikipedia.org/wiki/Golgo_13
- https://en.wikipedia.org/wiki/Case_Closed
- https://en.wikipedia.org/wiki/Dragon_Ball_
- https://en.wikipedia.org/wiki/Ivy_League
- https://en.wikipedia.org/wiki/Brown_University
- https://en.wikipedia.org/wiki/Dartmouth_College
- https://en.wikipedia.org/wiki/Cornell_University
- https://en.wikipedia.org/wiki/Columbia_University
- https://en.wikipedia.org/wiki/How_I_Met_Your_Mother
- https://en.wikipedia.org/wiki/List_of_Academy_Awards_ceremonies
- https://en.wikipedia.org/wiki/Neil_Patrick_Harris
- https://en.wikipedia.org/wiki/David_Burtka
- https://en.wikipedia.org/wiki/University_of_Michigan
- https://en.wikipedia.org/wiki/Ann_Arbor,_Michigan
- https://en.wikipedia.org/wiki/Bordeaux_wine
- https://en.wikipedia.org/wiki/Cabernet_Sauvignon
- https://en.wikipedia.org/wiki/Cabernet_Franc
- https://en.wikipedia.org/wiki/Merlot
- https://en.wikipedia.org/wiki/S%C3%A9millon
- https://en.wikipedia.org/wiki/Sauvignon_blanc
- https://platform.openai.com/docs/models/gpt-4-and-gpt-4-turbo
- https://platform.openai.com/docs/models/gpt-3-5-turbo
- https://www.anthropic.com/news/claude-2-1
- https://en.wikipedia.org/wiki/Demographic_history_of_New_York_City
- https://en.wikipedia.org/wiki/Los_Angeles
- https://en.wikipedia.org/wiki/List_of_United_States_cities_by_population
- https://en.wikipedia.org/wiki/Chicago
- https://en.wikipedia.org/wiki/Houston
- https://en.wikipedia.org/wiki/Phoenix,_Arizona
- https://en.wikipedia.org/wiki/List_of_presidents_of_the_United_States
- https://en.wikipedia.org/wiki/Cabinet_of_Joe_Biden
- https://en.wikipedia.org/wiki/Kamala_Harris
- https://en.wikipedia.org/wiki/Janet_Yellen
- https://en.wikipedia.org/wiki/Deb_Haaland
- https://en.wikipedia.org/wiki/Gina_Raimondo
- https://en.wikipedia.org/wiki/Julie_Su
- https://en.wikipedia.org/wiki/Marcia_Fudge
- https://en.wikipedia.org/wiki/Jennifer_Granholm
- https://en.wikipedia.org/wiki/Main_Page