Simple Science

Ciência de ponta explicada de forma simples

# Estatística# Computação e linguagem# Inteligência Artificial# Aprendizagem de máquinas# Aprendizagem automática

Uma Nova Forma de Avaliar Modelos de Linguagem

Esse artigo apresenta um método pra avaliar modelos de linguagem em vários prompts.

― 7 min ler


Avaliação de Modelos deAvaliação de Modelos deLinguagem de FormaEficientede solicitações.modelos de linguagem em diversos tiposNovo método melhora a avaliação de
Índice

Modelos de linguagem deram um grande avanço nos últimos anos, mudando a forma como a gente lida com tarefas como geração de texto e compreensão. Mas, avaliar esses modelos da forma certa pode ser complicado. Muitas avaliações atuais focam em só um ou alguns comandos, que podem não mostrar tudo que um modelo é capaz de fazer. Essa abordagem limitada pode levar a resultados enganadores, especialmente quando diferentes modelos são comparados com comandos diferentes.

O objetivo desse trabalho é avaliar múltiplos comandos de forma eficaz e dar uma visão melhor de como os modelos de linguagem se saem no geral. Queremos criar um método que consiga estimar rapidamente o desempenho de um modelo em uma ampla gama de comandos com o mínimo de avaliações.

O Problema com as Avaliações Atuais

Muitas formas populares de avaliar modelos de linguagem dependem de apenas alguns modelos de comandos. Isso pode levar a avaliações incompletas das habilidades de um modelo. Estudos recentes mostraram como os modelos podem ser sensíveis à formulação específica dos comandos, causando diferenças significativas no desempenho. Esses problemas também podem levar a resultados inconsistentes em quadros de líderes de Avaliação, onde diferentes modelos podem ter classificações diferentes dependendo dos comandos usados.

Para resolver isso, a gente propõe um novo método que analisa o desempenho em várias variações de comandos. Em vez de depender de apenas um comando, nossa abordagem combina informações de vários comandos para dar uma imagem mais clara das capacidades de um modelo.

Apresentando Nosso Método

Nosso método funciona pegando ideias de técnicas de avaliação educacional, especificamente a Teoria de Resposta ao Item (IRT). Isso nos permite analisar o desempenho em vários comandos, criando estimativas precisas mesmo quando podemos avaliar só algumas opções de cada vez.

A gente mostra que nosso método pode estimar de forma consistente distribuições de desempenho e aplicamos isso a três benchmarks bem conhecidos: MMLU, BIG-bench Hard e LMentry. Por exemplo, nosso método pode estimar o desempenho em 100 modelos de comandos usando só um orçamento que permite duas avaliações tradicionais.

Distribuição de Desempenho e Quantis

Uma das características principais da nossa abordagem é o foco nas distribuições de desempenho. Ao olhar para o desempenho em muitos comandos, conseguimos reunir estatísticas úteis, como a média ou outros quantis específicos. Por exemplo, podemos determinar o desempenho típico (a mediana) ou o desempenho dos 95% mais altos, que pode refletir o que um engenheiro de comando expert conseguiria.

Usar distribuições de desempenho nos permite examinar como diferentes modelos se saem em diferentes contextos. Por exemplo, se você quer saber como um modelo se sai em uma situação típica, pode olhar para a mediana. Mas se você quer ver como ele se comporta em uma situação de baixo desempenho, pode checar o Quantil de 5%.

Abordando a Sensibilidade em Modelos de Linguagem

A sensibilidade dos modelos de linguagem a diferentes modelos de comandos foi documentada em vários estudos. Pequenas mudanças na formulação podem levar a diferenças substanciais em precisão. Alguns pesquisadores sugeriram medir essa sensibilidade usando uma métrica chamada "dispersão de desempenho", que olha a diferença entre as melhores e piores performances em diferentes comandos.

Nosso trabalho acrescenta a isso, fornecendo uma maneira de calcular eficientemente a distribuição geral de desempenho. Essa abordagem ajuda a estabelecer um framework de avaliação mais robusto que reduz o risco de classificações não confiáveis baseadas em um único comando.

Avaliação em Vários Modelos de Comandos

No nosso trabalho, avaliamos nosso método contra vários modelos e uma variedade de modelos de comandos. Focamos em dois aspectos principais para a avaliação:

  1. Comparar a distribuição total de desempenho com distribuições estimadas para avaliar a precisão.
  2. Avaliar quantis específicos para ver quão perto nossas estimativas chegam dos valores reais.

Para fazer isso, usamos três benchmarks amplamente reconhecidos: MMLU, BIG-bench Hard e LMentry. Só no conjunto de dados MMLU, consideramos cerca de 14.000 exemplos abrangendo 57 assuntos e avaliamos 15 diferentes modelos de linguagem de código aberto.

Resultados

Distribuições de Desempenho

Nossos resultados mostram que nosso método supera significativamente a linha de base ao estimar distribuições de desempenho. Os modelos que usaram covariáveis adicionais, como embeddings, geralmente se saíram melhor, fornecendo estimativas mais precisas em vários comandos.

Estimativas de Quantis

A gente também verificou como nosso método estima quantis específicos. Nossas descobertas sugerem que, enquanto estimar quantis extremos é desafiador e requer mais avaliações, quantis centrais podem frequentemente ser estimados com um número relativamente baixo de avaliações.

Identificação do Melhor Comando

Outra aplicação interessante do nosso método é identificar o melhor comando de uma seleção. Ao enquadrar isso como um problema de bandido, conseguimos escolher eficazmente quais comandos avaliar com base no desempenho passado. Nosso método supera abordagens existentes, alcançando um arrependimento menor, ou seja, se aproxima mais do modelo de comando que melhor performa de forma mais confiável.

Analisando a Sensibilidade do Comando

A gente dá uma olhada mais de perto em como os modelos de linguagem são sensíveis a mudanças nos modelos de comandos, especialmente dentro do conjunto de dados MMLU. Nossa análise mostra que, embora o desempenho geral do modelo possa ser consistente, o desempenho de cada assunto pode variar bastante com base no comando usado.

Análise da Dispersão de Desempenho

Quando fazemos a média do desempenho entre os assuntos, observamos uma dispersão notável por modelo de linguagem, apesar de ser relativamente menor do que a que vemos em outros conjuntos de dados. Isso indica que, enquanto alguns modelos têm um desempenho consistentemente bom, a escolha do comando ainda pode impactar muito o desempenho em áreas específicas.

Consistência Entre Modelos de Comandos

Outro aspecto importante da nossa avaliação envolve checar como diferentes comandos se saem de maneira consistente entre assuntos ou modelos. Alguns comandos podem ter um bom desempenho em várias tarefas, enquanto outros podem não ser tão confiáveis. A gente descobriu que os modelos de comandos muitas vezes faltam consistência, ou seja, não existe um comando universalmente melhor para cada tarefa.

A Necessidade de Avaliações Robústas

Nosso método permite uma avaliação mais completa dos modelos de linguagem, abordando preocupações sobre a confiabilidade dos resultados derivados de comandos únicos. Ao fornecer uma maneira de comparar distribuições e quantis em várias variações de comandos, podemos trabalhar em direção a quadros de avaliação e classificações mais confiáveis.

No entanto, ainda existem desafios a serem superados. Uma questão chave é como escolher os comandos certos para avaliação. Nosso método ajuda com isso, mas não resolve completamente o problema da engenharia de comandos, que continua sendo um aspecto importante na avaliação de modelos de linguagem.

Direções Futuras

Olhando para frente, será interessante ver como nossa abordagem poderia ser expandida. Por exemplo, adaptar nosso método para acomodar comandos gerados dinamicamente poderia oferecer melhorias nas avaliações dos modelos.

Além disso, refinar como lidamos com pontuações de correção, especialmente em casos onde as pontuações são limitadas ou não binárias, poderia aumentar a eficácia das nossas avaliações, levando a melhores insights.

Conclusão

Em resumo, nosso trabalho introduz uma abordagem nova e eficiente para avaliar modelos de linguagem em vários comandos. Ao estimar com precisão distribuições de desempenho e quantis com menos avaliações, conseguimos fornecer insights mais claros sobre como diferentes modelos se saem. Embora nosso método represente uma melhoria na metodologia, ele também abre a porta para novos desafios na seleção de comandos e estratégias de avaliação. À medida que avançamos, o objetivo será refinar essas avaliações e torná-las mais confiáveis e abrangentes, garantindo que os modelos de linguagem possam ser avaliados de forma eficaz e significativa.

Fonte original

Título: Efficient multi-prompt evaluation of LLMs

Resumo: Most popular benchmarks for comparing LLMs rely on a limited set of prompt templates, which may not fully capture the LLMs' abilities and can affect the reproducibility of results on leaderboards. Many recent works empirically verify prompt sensitivity and advocate for changes in LLM evaluation. In this paper, we consider the problem of estimating the performance distribution across many prompt variants instead of finding a single prompt to evaluate with. We introduce PromptEval, a method for estimating performance across a large set of prompts borrowing strength across prompts and examples to produce accurate estimates under practical evaluation budgets. The resulting distribution can be used to obtain performance quantiles to construct various robust performance metrics (e.g., top 95% quantile or median). We prove that PromptEval consistently estimates the performance distribution and demonstrate its efficacy empirically on three prominent LLM benchmarks: MMLU, BIG-bench Hard, and LMentry; for example, PromptEval can accurately estimate performance quantiles across 100 prompt templates on MMLU with a budget equivalent to two single-prompt evaluations. Moreover, we show how PromptEval can be useful in LLM-as-a-judge and best prompt identification applications.

Autores: Felipe Maia Polo, Ronald Xu, Lucas Weber, Mírian Silva, Onkar Bhardwaj, Leshem Choshen, Allysson Flavio Melo de Oliveira, Yuekai Sun, Mikhail Yurochkin

Última atualização: 2024-10-30 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.17202

Fonte PDF: https://arxiv.org/pdf/2405.17202

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes