Avaliação de Respostas a Perguntas Longas em Modelos de Linguagem
Este estudo compara o desempenho entre vários modelos de linguagem em responder perguntas complexas.
― 5 min ler
Índice
Com os grandes modelos de linguagem (LLMs) melhorando cada vez mais, é importante saber o que eles conseguem e o que não conseguem fazer. Este estudo analisa as diferenças entre grandes LLMs, como o ChatGPT, e modelos menores, incluindo opções de código aberto como Alpaca e LLaMa. Focamos em responder perguntas longas (LFQA) porque isso tem várias aplicações no mundo real, como atendimento ao cliente e resolução de problemas. Porém, essa área não tem recebido muita atenção e é difícil para os LLMs lidarem.
Método de Geração de Perguntas
A gente sugere um novo método pra criar perguntas a partir de resumos de textos longos. O objetivo é ver se fazer essas perguntas de acompanhamento é mais difícil pros LLMs, enquanto eles tentam raciocinar sobre informações mais longas. Nossos testes mostram dois pontos principais: primeiro, nossa abordagem realmente desafia os LLMs e destaca as diferenças de desempenho entre modelos maiores como o ChatGPT e modelos menores como Alpaca e LLaMa. Segundo, quando confrontados com perguntas a partir de resumos, os modelos menores não dependem tanto do contexto, mas eles pontuam bem mais baixo na hora de gerar respostas.
Entendendo os LLMs
Avaliar LLMs pra ver as diferenças de desempenho é complicado, especialmente ao comparar modelos como ChatGPT e Alpaca. Embora algumas avaliações em tarefas de raciocínio lógico sejam úteis, as avaliações de LFQG/A ainda são escassas. Nosso trabalho busca preencher essa lacuna propondo métodos tanto pra geração de perguntas quanto pra Avaliação.
A gente dá o primeiro passo pra reconhecer as diferenças em como ChatGPT e modelos menores de código aberto respondem a prompts de LFQA. Usamos o ChatGPT pra criar perguntas complexas e depois avaliamos as respostas com o GPT-4 usando vários critérios de pesquisas anteriores. Nossos resultados indicam que modelos menores, embora consigam produzir respostas fluentes em conjuntos de dados padrão, frequentemente dão respostas repetitivas, confusas ou incorretas pras perguntas que a gente gerou.
Trabalho Relacionado
Estudos anteriores mostraram que LLMs conseguem raciocinar em várias tarefas, mas a maioria dessas tarefas não exige processar contextos longos. No nosso trabalho, avaliamos como os LLMs lidam com documentos longos gerando perguntas de acompanhamento a partir de resumos.
Configuração da Avaliação
A gente examina respostas de LLMs baseadas em artigos da Wikipedia em nove áreas: Física, Entretenimento, História, Ciência da Computação, Ciências Sociais, Sociedade, Economia, Medicina e Esportes. Nosso objetivo é garantir uma avaliação justa controlando o comprimento e filtrando conteúdos não informativos.
Processo de Coleta de Dados
Resumindo: Primeiro, coletamos trechos seccionais da Wikipedia e pedimos pro ChatGPT criar resumos desses documentos.
Geração de Perguntas: Com base nesses resumos, geramos perguntas, pedindo pro ChatGPT criar as três perguntas mais complexas.
Nossa avaliação inclui analisar a complexidade das perguntas geradas e suas respostas associadas.
Resultados e Análise
Nossos achados revelam que o ChatGPT se sai melhor que outros modelos em várias métricas, pontuando significativamente mais alto em coerência, relevância, precisão e consistência factual. Porém, todos os modelos tiveram um desempenho pior em perguntas geradas a partir de resumos comparado às que vieram diretamente de trechos.
Os resultados também mostram que o contexto tem um papel importante em gerar respostas satisfatórias. No entanto, alguns modelos menores como o Alpaca surpreenderam positivamente quando o contexto foi removido em alguns casos.
Uma análise de como o desempenho varia com o comprimento do contexto mostra que textos mais longos nem sempre ajudam modelos menores, que tendem a ter dificuldades em manter coerência e relevância conforme o contexto aumenta.
Conclusão
Esse estudo apresenta um novo jeito de avaliar LFQA usando perguntas geradas a partir de resumos. Mostramos que esse método realmente representa um desafio pros LLMs, destacando as diferenças de desempenho entre modelos maiores e menores. Esperamos que nossas descobertas incentivem mais pesquisas sobre como usar contextos longos de forma eficaz e melhorar respostas longas de modelos menores.
Trabalhos Futuros
Pesquisas futuras podem focar em entender quando incluir ou excluir contexto adicional em diferentes tarefas, além de desenvolver métodos pra uma melhor geração de textos longos para modelos menores de LLM.
Limitações
Embora nosso método de avaliação tenha se mostrado promissor, existem algumas limitações. A eficácia do GPT-4 como avaliador ainda é uma área de pesquisa. Além disso, usar o ChatGPT pra geração de perguntas pode enviesar os resultados a favor dele. Finalmente, as distribuições de dados de treinamento desconhecidas de grandes modelos como o ChatGPT tornam as comparações mais difíceis.
Detalhes da Avaliação
Usamos prompts específicos tanto pra geração de perguntas quanto pra avaliação, garantindo que todos os modelos fossem testados de forma justa. Os resultados foram registrados e analisados pra fornecer insights sobre o desempenho entre diferentes modelos e contextos.
Insights Qualitativos
As avaliações humanas e do GPT-4 foram comparadas pra garantir a confiabilidade, mostrando alta concordância na avaliação da qualidade das respostas. Os dados coletados da Wikipedia foram filtrados pra maximizar a relevância, levando a conclusões fortes sobre as capacidades dos LLMs em responder perguntas longas.
Título: Investigating Answerability of LLMs for Long-Form Question Answering
Resumo: As we embark on a new era of LLMs, it becomes increasingly crucial to understand their capabilities, limitations, and differences. Toward making further progress in this direction, we strive to build a deeper understanding of the gaps between massive LLMs (e.g., ChatGPT) and smaller yet effective open-source LLMs and their distilled counterparts. To this end, we specifically focus on long-form question answering (LFQA) because it has several practical and impactful applications (e.g., troubleshooting, customer service, etc.) yet is still understudied and challenging for LLMs. We propose a question-generation method from abstractive summaries and show that generating follow-up questions from summaries of long documents can create a challenging setting for LLMs to reason and infer from long contexts. Our experimental results confirm that: (1) our proposed method of generating questions from abstractive summaries pose a challenging setup for LLMs and shows performance gaps between LLMs like ChatGPT and open-source LLMs (Alpaca, Llama) (2) open-source LLMs exhibit decreased reliance on context for generated questions from the original document, but their generation capabilities drop significantly on generated questions from summaries -- especially for longer contexts (>1024 tokens)
Autores: Meghana Moorthy Bhat, Rui Meng, Ye Liu, Yingbo Zhou, Semih Yavuz
Última atualização: 2023-09-15 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.08210
Fonte PDF: https://arxiv.org/pdf/2309.08210
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.