Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Métodos de Avaliação para Modelos que Seguem Instruções

Analisando como avaliar melhor modelos que seguem instruções em tarefas de perguntas e respostas.

― 5 min ler


Avaliando Modelos deAvaliando Modelos deSeguimento de Instruçõespara sistemas de pergunta-resposta.Avaliação de métricas de desempenho
Índice

Hoje em dia, responder perguntas se tornou uma tarefa essencial para muita gente. Precisamos de sistemas que entendam as perguntas e ofereçam respostas precisas com base nas informações disponíveis. Modelos ajustados por instrução são uma tecnologia projetada pra seguir instruções específicas e responder perguntas de forma mais eficaz.

O Que São Modelos que Seguem Instruções?

Modelos que seguem instruções são sistemas avançados que usam uma quantidade enorme de dados pra aprender a responder perguntas e realizar outras tarefas. Eles são treinados com vários exemplos que ajudam a entender e responder perguntas de um jeito parecido com o humano. Mas, às vezes, quando esses modelos geram respostas, eles podem acabar produzindo respostas muito longas ou com informações extras que não alinham com o que o usuário precisa.

O Desafio de Avaliar a Resposta a Perguntas

Quando avaliamos esses modelos, os métodos tradicionais costumam falhar. Por exemplo, métricas padrão como Exatidão (EM) e F1 podem não refletir com precisão a qualidade das respostas. Isso acontece porque essas métricas focam em correspondências exatas de palavras e podem ignorar respostas corretas que estão formuladas de jeito diferente ou são mais detalhadas que as respostas referência.

Investigando o Desempenho em Tarefas de Resposta a Perguntas

Pra avaliar como os modelos que seguem instruções respondem a perguntas, olhamos o desempenho deles em três tarefas diferentes:

  1. Resposta a Perguntas de Domínio Aberto (QA): Responder perguntas com base em informações retiradas de uma variedade de fontes.
  2. QA Multi-Hop: Isso envolve raciocinar sobre várias informações pra responder perguntas complexas.
  3. QA Conversacional: Responder perguntas em um formato de diálogo, onde o modelo tem que acompanhar as trocas anteriores.

Avaliando Correção e Fidelidade

Na nossa avaliação, focamos em dois aspectos principais:

  1. Correção: Isso mede quão bem o modelo atende as necessidades de informação do usuário.
  2. Fidelidade: Isso verifica se as respostas estão baseadas nas informações fornecidas, ou seja, se elas dependem de dados corretos e relevantes.

Deficiências das Métricas Tradicionais

Depois de avaliar os modelos, percebemos que as métricas tradicionais subestimaram bastante o desempenho deles. Muitas respostas foram consideradas incorretas simplesmente porque eram mais longas ou usavam palavras diferentes das respostas referência, mesmo quando a informação era correta. Descobrimos que mais da metade das respostas eram semanticamente parecidas com as respostas de referência, mas não foram bem avaliadas com as métricas padrão.

Métricas de Avaliação Alternativas

Pra lidar com as limitações das métricas tradicionais, exploramos várias alternativas que poderiam refletir melhor as capacidades dos modelos que seguem instruções:

  • Recall: Isso mede a proporção de tokens de resposta que aparecem na resposta do modelo. Captura se informações-chave estão presentes sem penalizar respostas longas.

  • K-Precision: Essa métrica avalia a proporção de tokens de resposta que correspondem ao conhecimento fornecido. Ajuda a entender quão fundamentada uma resposta está nas informações relevantes.

Resultados da Avaliação Humana

Fizemos avaliações humanas das respostas dos modelos pra ganhar insights sobre correção e fidelidade. Nessas avaliações, anotações humanas revisaram as respostas dos modelos em comparação com as respostas de referência pra determinar se estavam corretas.

Os resultados mostraram uma forte correlação entre algumas das novas métricas e os julgamentos humanos. Especificamente, Recall e K-Precision foram considerados os que mais refletiram as avaliações humanas, permitindo uma melhor compreensão do desempenho do modelo.

Resultados dos Modelos que Seguem Instruções

Em nossos testes, os modelos que seguem instruções mostraram desempenho competitivo ou até superior em relação a outros modelos comumente usados em resposta a perguntas. Quanto à correção, os resultados sugeriram que esses modelos podiam igualar ou superar modelos afinados, sendo também naturais e informativos nas suas respostas.

No entanto, os modelos que seguem instruções tiveram dificuldade com a fidelidade, frequentemente fornecendo informações que poderiam enganar os usuários. Isso destaca uma área importante pra pesquisa futura a fim de melhorar a confiabilidade desses modelos ao responder perguntas.

Desafios da Avaliação Automatizada

No campo da avaliação automatizada, encontramos que muitas métricas tradicionais tinham dificuldade em avaliar efetivamente o desempenho dos modelos que seguem instruções. Por exemplo, modelos treinados em uma ampla gama de tarefas produziram respostas que atendiam às necessidades humanas, mas foram mal avaliadas devido à sua verbosidade ou pequenas variações em relação às respostas de referência.

Pra resolver isso, propusemos que futuras avaliações incorporassem métricas que considerassem a natureza mais longa e detalhada das respostas geradas pelos modelos que seguem instruções.

Conclusão

Nossa exploração dos modelos que seguem instruções pra resposta a perguntas mostra potencial em melhorar o desempenho de sistemas projetados pra fornecer informações precisas e confiáveis. Ao refinar as métricas de avaliação, podemos avaliar melhor os pontos fortes e fracos desses modelos, levando a mais avanços na área.

Melhorar o entendimento de como avaliar esses modelos é vital pra desenvolver sistemas que atendam efetivamente às necessidades dos usuários. À medida que os modelos que seguem instruções continuam a evoluir, o papel deles na resposta a perguntas vai se tornar cada vez mais importante, exigindo pesquisa e desenvolvimento contínuos pra garantir que sejam precisos, confiáveis e eficientes.

Fonte original

Título: Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering

Resumo: Retriever-augmented instruction-following models are attractive alternatives to fine-tuned approaches for information-seeking tasks such as question answering (QA). By simply prepending retrieved documents in its input along with an instruction, these models can be adapted to various information domains and tasks without additional fine-tuning. While the model responses tend to be natural and fluent, the additional verbosity makes traditional QA evaluation metrics such as exact match (EM) and F1 unreliable for accurately quantifying model performance. In this work, we investigate the performance of instruction-following models across three information-seeking QA tasks. We use both automatic and human evaluation to evaluate these models along two dimensions: 1) how well they satisfy the user's information need (correctness), and 2) whether they produce a response based on the provided knowledge (faithfulness). Guided by human evaluation and analysis, we highlight the shortcomings of traditional metrics for both correctness and faithfulness. We then propose simple token-overlap based and model-based metrics that reflect the true performance of these models. Our analysis reveals that instruction-following models are competitive, and sometimes even outperform fine-tuned models for correctness. However, these models struggle to stick to the provided knowledge and often hallucinate in their responses. We hope our work encourages a more holistic evaluation of instruction-following models for QA. Our code and data is available at https://github.com/McGill-NLP/instruct-qa

Autores: Vaibhav Adlakha, Parishad BehnamGhader, Xing Han Lu, Nicholas Meade, Siva Reddy

Última atualização: 2024-04-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.16877

Fonte PDF: https://arxiv.org/pdf/2307.16877

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes