Uma Nova Forma de Avaliar Sistemas de Pergunta e Resposta
A métrica SQuArE melhora a avaliação de sistemas de QA através de múltiplas referências de resposta.
― 6 min ler
Índice
- A Necessidade de Melhorar as Métricas de Avaliação
- Introduzindo uma Nova Métrica de Avaliação: SQuArE
- A Importância de Múltiplas Respostas de Referência
- O Papel das Respostas Incorretas
- Testando SQuArE em Diferentes Conjuntos de dados
- Desempenho e Resultados do SQuArE
- Comparando SQuArE com Outras Métricas
- Conclusão
- Fonte original
- Ligações de referência
Sistemas de Perguntas e Respostas (QA) são feitos pra dar respostas certas pras perguntas dos usuários. Esses sistemas dependem muito de como eles avaliam a precisão das respostas. Tradicionalmente, a melhor forma de ver se uma resposta tá certa era por avaliações humanas, onde as pessoas revisam e classificam as respostas. Mas esse processo pode ser demorado e caro.
Nos últimos anos, novas maneiras usando modelos de machine learning foram desenvolvidas pra automatizar a Avaliação dos sistemas de QA. Esses métodos geralmente enfrentam dificuldades porque costumam depender de apenas uma resposta certa como ponto de referência. Essa limitação pode causar problemas, já que muitas perguntas podem ter mais de uma resposta aceitável.
A Necessidade de Melhorar as Métricas de Avaliação
Os métodos comuns pra avaliar sistemas de QA costumam usar métricas de correspondência de tokens, como Exato Match (EM) ou F1. Embora essas métricas funcionem bem pra certas tarefas, elas ficam devendo quando se trata de perguntas baseadas em frases complexas. Elas nem sempre capturam o sentido por trás das palavras, o que é crucial pra entender o contexto da pergunta e da resposta.
Modelos anteriores, como AVA e BEM, usaram uma única resposta de referência correta pra avaliar outras respostas. Essa abordagem não considera que algumas perguntas têm múltiplas respostas corretas ou que informações relevantes podem ser divididas entre várias Referências. Assim, é importante encontrar uma forma de incluir várias respostas, tanto corretas quanto incorretas, ao avaliar as respostas do sistema.
Introduzindo uma Nova Métrica de Avaliação: SQuArE
Pra lidar com esses desafios, uma nova métrica chamada SQuArE foi proposta. SQuArE significa Avaliação de Resposta a Perguntas em Nível de Sentença. A ideia é usar várias respostas de referência-tanto corretas quanto incorretas-pra avaliar quão precisa é uma resposta dada a uma pergunta.
Essa métrica foi testada em diferentes tipos de sistemas de QA, incluindo aqueles que extraem respostas de um texto (como sistemas de Seleção de Respostas) e aqueles que geram respostas baseadas em informações (como QA generativa). Os resultados mostram que SQuArE pode superar métodos mais antigos e se alinhar melhor com o julgamento humano na avaliação da correção das respostas.
A Importância de Múltiplas Respostas de Referência
Um grande problema com a abordagem de resposta única é que muitas perguntas podem ter diferentes respostas corretas. Por exemplo, se alguém pergunta, "O que é uma banda?" tanto "Uma banda é um grupo de músicos" quanto "Uma banda é uma tira de material" são respostas válidas. Contar apenas com uma resposta pode levar a avaliações enganosas.
Além disso, às vezes, informações relevantes estão espalhadas por várias respostas. Se um usuário pergunta sobre uma figura pública, como um presidente, a melhor resposta pode não vir de uma única resposta, mas juntando informações de várias referências.
Adicionalmente, existem questões que são ambíguas ou subjetivas. Uma pergunta como "Quando é a próxima copa do mundo?" pode ter várias respostas corretas dependendo do esporte. Usar apenas uma referência pode dar uma ideia errada da capacidade do sistema de responder com precisão.
O Papel das Respostas Incorretas
Curiosamente, até respostas incorretas podem ajudar a melhorar a avaliação. Usando referências incorretas junto com as corretas, o sistema de avaliação consegue tomar decisões mais informadas. Por exemplo, se uma pergunta questiona sobre filmes lançados por um ator específico, até uma resposta errada pode dar um contexto que ajuda a diferenciar entre respostas aceitáveis e inaceitáveis.
Incluindo tanto referências positivas quanto negativas, SQuArE busca oferecer um panorama mais completo de como um sistema de QA se sai.
Conjuntos de dados
Testando SQuArE em DiferentesA nova métrica foi avaliada em vários conjuntos de dados pra checar sua eficácia. Esses conjuntos de dados incluem grandes coleções de perguntas e respostas candidatas, permitindo testes rigorosos do sistema.
Alguns dos conjuntos de dados usados incluem:
- WQA (Web Question Answers) - Um grande conjunto de dados público com uma ampla gama de perguntas ligadas a múltiplas respostas candidatas.
- WikiQA - Um conjunto de dados menor baseado em perguntas de busca do Bing, focando em respostas da Wikipedia.
- TREC-QA - Um conjunto de dados contendo perguntas baseadas em fatos, que ajuda a testar a precisão do sistema.
- GenQA-MTURK - Um conjunto de dados construído a partir de respostas geradas por vários modelos pra medir quão bem eles conseguem criar respostas que soam naturais.
Desempenho e Resultados do SQuArE
Quando o SQuArE foi testado em comparação com métodos de avaliação existentes, ele consistentemente teve pontuações mais altas em várias métricas, como precisão e correlação com avaliações humanas. Isso mostra que usar múltiplas referências leva a resultados de avaliação melhores.
Nos casos em que o SQuArE utilizou tanto referências positivas quanto negativas, ele conseguiu corrigir mais erros do que quando se baseou apenas em referências positivas. Isso destaca a importância de aproveitar uma gama mais ampla de respostas de referência pra aprimorar o processo de avaliação.
Além disso, em configurações de zero-shot-onde o modelo é encarregado de avaliar novas perguntas que ele nunca viu antes-o SQuArE ainda se mostrou forte. Isso é crítico porque indica a capacidade do modelo de generalizar bem além dos dados de treinamento.
Comparando SQuArE com Outras Métricas
Quando comparado com outras métricas de avaliação automática, como BLEURT e BERTScore, o SQuArE demonstrou maior confiabilidade na previsão de anotações humanas. A capacidade de incorporar referências corretas e incorretas deu uma vantagem significativa no desempenho, especialmente em tarefas onde métodos tradicionais tiveram dificuldades.
Esse desempenho é crucial pra qualquer aplicação no mundo real de sistemas de QA, onde o peso de fornecer informações precisas pode ser muito alto.
Conclusão
O avanço das métricas de avaliação de QA, especialmente com a introdução do SQuArE, representa um grande passo à frente na forma como avaliamos respostas geradas por máquinas. Ao abraçar a complexidade da linguagem e a variabilidade nas respostas humanas, o SQuArE oferece uma abordagem mais nuançada e eficaz pra avaliar o desempenho dos sistemas de QA.
À medida que o campo continua a crescer, desenvolver métodos de avaliação robustos será chave pra melhorar a precisão e a confiabilidade desses sistemas, levando a uma melhor experiência pro usuário.
Título: SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References
Resumo: Evaluation of QA systems is very challenging and expensive, with the most reliable approach being human annotations of correctness of answers for questions. Recent works (AVA, BEM) have shown that transformer LM encoder based similarity metrics transfer well for QA evaluation, but they are limited by the usage of a single correct reference answer. We propose a new evaluation metric: SQuArE (Sentence-level QUestion AnsweRing Evaluation), using multiple reference answers (combining multiple correct and incorrect references) for sentence-form QA. We evaluate SQuArE on both sentence-level extractive (Answer Selection) and generative (GenQA) QA systems, across multiple academic and industrial datasets, and show that it outperforms previous baselines and obtains the highest correlation with human annotations.
Autores: Matteo Gabburo, Siddhant Garg, Rik Koncel Kedziorski, Alessandro Moschitti
Última atualização: 2023-09-21 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.12250
Fonte PDF: https://arxiv.org/pdf/2309.12250
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont
- https://github.com/amazon-science/square
- https://github.com/google-research-datasets/answer-equivalence-dataset
- https://huggingface.co/tiiuae/falcon-7b-instruct
- https://huggingface.co/tiiuae/falcon-40b-instruct