Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Aprimorando Métodos de Avaliação em Sistemas de Perguntas e Respostas

Este estudo propõe novos métodos para avaliar as respostas em sistemas de perguntas e respostas de máquina.

― 8 min ler


Repensando os Métodos deRepensando os Métodos deAvaliação de QAavaliação de respostas geradas por IA.Novos métodos melhoram a precisão na
Índice

A pergunta e resposta (QA) é uma parte importante de como os computadores entendem e respondem à linguagem humana. Pra melhorar esses sistemas, é essencial saber se as respostas que eles dão estão corretas. Mas, os métodos atuais pra checar se as respostas são equivalentes às corretas muitas vezes não coincidem com o que os especialistas humanos pensam, especialmente quando as respostas são longas ou mais complexas.

Temos dois problemas principais que enfrentamos nessa área. Primeiro, não tem dados suficientes disponíveis, e segundo, os modelos usados pra avaliação são muito grandes e caros de atualizar regularmente. Alguns sistemas de pontuação funcionam melhor com juízes humanos, mas foram testados EM uma quantidade pequena de dados. Isso significa que mesmo quando temos dados, atualizar os modelos é lento porque eles são grandes e caros.

Pra lidar com esses desafios, a gente fornece diretrizes claras pra avaliar a equivalência de respostas (AE) em QA de máquina, baseado em regras de competições profissionais de QA. Também apresentamos um método chamado CFMatch. Esse método combina maneiras padrão de avaliar respostas com um método classificador mais eficaz que é menor e mais fácil de rodar. CFMatch é projetado pra avaliar a correção das respostas melhor, de acordo com regras de especialistas que refletem julgamentos humanos.

Importância da Avaliação em Pergunta e Resposta

QA é uma tarefa crítica pra entender a linguagem natural, e a maioria das interações com modelos de linguagem pode ser vista como tarefas de QA. Geralmente, existem duas abordagens comuns pra melhorar a capacidade dos modelos de QA em fornecer melhores respostas. Uma forma é usar dados melhores, e a outra é criar modelos maiores e mais eficientes. Curiosamente, esse artigo toma um caminho diferente, focando em melhorar como avaliamos esses modelos.

Um leitor cauteloso pode se perguntar se um modelo melhor sempre ganha nas avaliações, independentemente de como o avaliamos. Do ponto de vista de escolha de modelos, até pequenas diferenças podem mudar completamente qual modelo é visto como o melhor. No entanto, ter o método de avaliação correto é tão vital quanto. Ao melhorar como avaliamos as respostas, conseguimos medir melhor o desempenho dos modelos, levando a avaliações mais precisas.

O que é Avaliação de Respostas?

A tarefa principal que focamos é a avaliação de respostas (AE). Dada uma série de respostas corretas, precisamos determinar se a saída de um sistema combina com alguma dessas respostas corretas. Os métodos tradicionais de AE incluem Exact Match (EM), correspondência nível de token, pontuação ROUGE e pontuação METEOR. Cada um desses tem suas próprias forças e fraquezas.

  1. Exact Match (EM): Esse método checa se a saída do modelo combina exatamente com a resposta correta. É simples e fácil de entender. Mas não funciona bem quando a resposta correta é formulada de forma diferente ou inclui informações adicionais úteis.

  2. Correspondência Nível de Token: Esse método lida com quantas palavras na resposta do modelo se sobrepõem à resposta correta. Checa tanto o número de palavras relevantes na resposta quanto as palavras que estão faltando.

  3. Pontuação ROUGE: Essa pontuação mede o quanto a saída se sobrepõe com resumos de referência através de n-grams.

  4. Pontuação METEOR: Essa pontuação avalia traduções de máquinas e inclui fatores como lematização e sinônimos.

Embora esses métodos padrão funcionem razoavelmente bem pra exemplos comuns de QA, eles falham pra perguntas mais complexas. Eles têm dificuldade em entender os significados mais profundos e o contexto que os humanos consideram ao julgar respostas.

Aprendendo com Julgamentos Humanos

Pra ir além dos métodos tradicionais, podemos aproveitar as melhores práticas de competições de QA humanas. Estudamos diretrizes estabelecidas pra avaliar respostas de eventos como Torneios Acadêmicos Nacionais (NAQT), competições de Jeopardy! e outros. Essas diretrizes nos ajudam a definir respostas aceitáveis pra QA de máquina.

Reconhecemos que modelos de IA generativa, como os da série GPT, mudaram o cenário ao gerar respostas em vez de apenas extraí-las. Isso tornou essencial ampliar nossa compreensão de AE. Por exemplo, durante nossa análise de 250 exemplos selecionados, encontramos muitos casos onde respostas corretas de candidatos estavam faltando dos conjuntos de respostas de referência, mas ainda eram consideradas equivalentes por humanos.

Apesar da popularidade do EM por sua simplicidade, muitas vezes ele falha em capturar respostas que, embora não idênticas, ainda são corretas em significado.

Apresentando o CFMatch

Pra lidar com as limitações das métricas de avaliação padrão, propomos o CFMatch, um novo método que combina técnicas de avaliação tradicionais com um classificador leve treinado em conjuntos de dados aumentados. Esse classificador é eficiente, precisando de menos de 1 MB de armazenamento, facilitando sua implementação.

Nosso classificador é testado em conjuntos de dados onde especialistas humanos avaliam AE, garantindo que ele alcance alta conformidade com os julgamentos de especialistas. Também incorporamos avaliações humanas pra demonstrar que o CFMatch reduz erros comuns encontrados nas métricas atuais enquanto se alinha melhor com os julgamentos humanos.

Além disso, fornecemos um pacote Python pra pesquisadores que inclui várias métricas de avaliação, facilitando o acesso a ferramentas robustas de avaliação de QA.

Limitações dos Métodos de Avaliação Atuais

Apesar das melhorias nos modelos de QA, os métodos de avaliação existentes ainda mostram fraquezas. Por exemplo, examinamos o EM e outras métricas populares em um conjunto de dados fora da distribuição e encontramos lacunas significativas.

  1. Exact Match (EM): Descobrimos que o EM é muito rigoroso, especialmente quando as respostas candidatas pareciam razoáveis mas não apareciam nas listas de referência. Essa discrepância destaca as falhas do EM em reconhecer respostas válidas que não são correspondências exatas.

  2. Sensibilidade da Pontuação: A escolha de limiares no processo de correspondência nível de token impacta significativamente os resultados. Dependendo do limiar escolhido, esse método pode classificar respostas como equivalentes ou não, o que complica a interpretação.

  3. Correspondência BERT (BEM): Embora o BEM seja melhor em entender o contexto, ainda tem dificuldades com conjuntos de dados que diferem significativamente em estilo dos dados de treinamento.

Revisando Estruturas de Avaliação

Pra criar uma estrutura de avaliação melhor, precisamos modificar as diretrizes atuais de AE pra se adequar ao ambiente de QA de máquina. Destacamos que regras sobre pronúncia e ordem de nomes, que podem ser aceitáveis em competições humanas, podem não se aplicar a avaliações de máquinas.

Em vez disso, adotamos regras de competições de trivia que enfatizam a importância do contexto e da especificidade nas respostas. Por exemplo, as respostas devem ser específicas o suficiente sem serem excessivamente detalhadas, e sinônimos devem ser reconhecidos como válidos quando apropriado.

Coletando Dados pra Treinamento de Classificadores

Pra treinar nossos classificadores, coletamos dados que seguem as novas regras de AE. Isso envolve coletar exemplos de conjuntos de dados existentes e gerar novos usando nossas diretrizes. Selecionamos e revisamos manualmente os exemplos conforme necessário pra garantir diversidade e qualidade.

Depois de gerar uma quantidade suficiente de dados, validamos os exemplos usando um método onde o modelo avalia seus julgamentos. Essa auto-verificação permite aprimorar a qualidade e a consistência, levando a um conjunto de treinamento mais robusto.

Avaliando Contra Julgamentos de Especialistas

Pra validar nossos novos métodos de avaliação, comparamos eles com julgamentos de especialistas de fontes como Jeopardy! onde perguntas e respostas foram avaliadas por pessoas conhecedoras. Esse teste garante que nossos métodos estejam alinhados de perto com o que os especialistas acreditam serem respostas corretas.

Através dos nossos testes, descobrimos que os métodos de avaliação baseados em classificadores mostram maior conformidade com os julgamentos de especialistas do que os métodos tradicionais. É importante notar que nossos métodos propostos têm um desempenho particularmente bom quando as respostas candidatas são expandidas pra incluir mais variações.

Conclusão

Esse trabalho destaca a necessidade de refinar como avaliamos sistemas de QA. Ao introduzir novos métodos que refletem o julgamento de especialistas e adaptar regras de competições humanas bem-sucedidas, abrimos caminho pra uma avaliação automatizada melhor em tarefas de QA.

A principal conclusão é que melhorar a avaliação automatizada leva a modelos de QA melhores no geral. À medida que esses modelos continuam a evoluir, nossos métodos de avaliação devem acompanhar pra garantir que consigam medir efetivamente a precisão e a qualidade das respostas que a IA gera.

Nossa abordagem baseada em classificadores melhora significativamente a capacidade de avaliar as respostas corretamente e serve como um passo em direção a sistemas de QA mais intuitivos. Trabalhos futuros devem focar em aplicar esses métodos a perguntas mais longas e conjuntos de dados mais diversos pra continuamente melhorar e se adaptar às necessidades em mudança no campo do processamento de linguagem natural.

Fonte original

Título: CFMatch: Aligning Automated Answer Equivalence Evaluation with Expert Judgments For Open-Domain Question Answering

Resumo: Question answering (QA) can only make progress if we know if an answer is correct, but for many of the most challenging and interesting QA examples, current evaluation metrics to determine answer equivalence (AE) often do not align with human judgments, particularly more verbose, free-form answers from large language models (LLM). There are two challenges: a lack of data and that models are too big: LLM-based scorers can correlate better with human judges, but this task has only been tested on limited QA datasets, and even when available, update of the model is limited because LLMs are large and often expensive. We rectify both of these issues by providing clear and consistent guidelines for evaluating AE in machine QA adopted from professional human QA contests. We also introduce a combination of standard evaluation and a more efficient, robust, and lightweight discriminate AE classifier-based matching method (CFMatch, smaller than 1 MB), trained and validated to more accurately evaluate answer correctness in accordance with adopted expert AE rules that are more aligned with human judgments.

Autores: Zongxia Li, Ishani Mondal, Yijun Liang, Huy Nghiem, Jordan Boyd-Graber

Última atualização: 2024-06-29 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2401.13170

Fonte PDF: https://arxiv.org/pdf/2401.13170

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes