Sci Simple

New Science Research Articles Everyday

# Informática # Computação e linguagem # Inteligência Artificial

Avaliação de Modelos de Linguagem: Um Toque Humano

Novos métodos melhoram a avaliação de modelos de linguagem usando respostas escritas por humanos.

Xinxi Lyu, Yizhong Wang, Hannaneh Hajishirzi, Pradeep Dasigi

― 8 min ler


Repensando a Avaliação de Repensando a Avaliação de Modelos de Linguagem insights humanos. Melhorando as avaliações de modelos com
Índice

Hoje em dia, os grandes modelos de linguagem (LLMs) estão bombando. Eles são como os novatos estilosos que todo mundo quer impressionar. Mas como saber se eles realmente seguem instruções? É aí que entra a Avaliação. Tradicionalmente, os LLMs têm algum tipo de juiz interno para ver como eles seguem os comandos, mas isso gerou alguns viéses. Pense nisso como pedir a um gato para julgar um concurso de cães—os gatos têm suas próprias ideias sobre o que faz um bom cachorro! Para resolver isso, os pesquisadores criaram algumas maneiras inovadoras de tornar essas avaliações mais confiáveis.

O Desafio da Avaliação

Avaliar LLMs não é só um passeio no parque. É mais como uma trilha íngreme com uma criança pequena debaixo do braço. Na maior parte do tempo, os pesquisadores confiaram em LLMs poderosos como juízes, mas tem um detalhe: esses juízes podem ser tendenciosos. Você não ia querer que seu julgamento fosse influenciado se as respostas fossem muito longas ou muito curtas. É como dizer que quanto mais longa a história, melhor ela é, o que sabemos que não é verdade—já tentou ler um livro que terminou com uma baita decepção?

E qual é a solução? Em vez de depender apenas desses modelos de julgamento, os pesquisadores introduziram respostas escritas por humanos na mistura. Os humanos têm um talento para nuances que as máquinas, às vezes, não pegam. Parece que adicionar um toque humano pode levar a avaliações melhores sobre como os LLMs seguem instruções.

O Novo Padrão de Avaliação

Para melhorar as avaliações, um novo padrão foi criado que foca nas Respostas Humanas. Esse padrão tem impressionantes 4.258 amostras cobrindo 11 categorias diferentes de tarefas. É como colecionar cartões de Pokémon, mas em vez de criaturas fofas, temos prompts e respostas tanto de modelos quanto de humanos reais. E o melhor? Esse novo método visa remover a contaminação dos dados de teste, então os resultados não são distorcidos por misturar respostas já avaliadas.

A Importância das Categorias de Tarefas

Assim como um buffet oferece várias opções de comida, o novo método de avaliação analisa várias tarefas que os LLMs devem ser julgados. Essas tarefas incluem coisas como brainstorming, resumo e responder perguntas. Ao dividir as tarefas em categorias, os pesquisadores podem dar um feedback mais específico. Você gostaria de ver um chef elogiado por seu espaguete quando ele serve um sushi horrível? Não, obrigado! As categorias de tarefas servem como um guia para tornar as avaliações justas.

Como a Avaliação Funciona

Agora, vamos entrar de cabeça em como essas avaliações realmente funcionam. Os pesquisadores coletam respostas de vários LLMs e comparam com respostas escritas por humanos. Eles usam um método que analisa como a resposta de um modelo se compara com uma resposta humana. Imagine isso como uma competição culinária: os juízes provam os pratos e decidem qual deles preferem. Neste caso, as respostas são os pratos, e os juízes são tanto experts humanos quanto modelos poderosos.

Os pesquisadores têm várias técnicas que usam para avaliar essas respostas. Eles verificam coisas como similaridade no conteúdo e quão bem a resposta corresponde às instruções dadas. Ao incluir respostas humanas, eles costumam ver uma melhoria na concordância com juízes humanos. É como ter um par extra de óculos para ver claramente—tudo fica mais focado.

O Papel das Respostas Escritas por Humanos

O que torna as respostas escritas por humanos tão valiosas? Para começar, os humanos conseguem captar sutilezas que uma máquina pode deixar passar. Pense em como seu amigo pode entender uma piada que você conta, enquanto um robô só fica olhando sem entender. Ao incorporar respostas humanas, os LLMs podem ser avaliados de forma mais justa.

Em tarefas onde as respostas são bem claras, como perguntas fechadas ou tarefas de extração, usar respostas escritas por humanos resultou em melhores taxas de concordância. No entanto, os resultados foram variados para outros tipos de tarefas. É um pouco como esperar que seu cachorro busque um pau e ele acaba se distraindo com um esquilo. Nem todas as tarefas funcionam perfeitamente com a ajuda humana.

Projetando a Avaliação

Ao criar a estrutura de avaliação, os pesquisadores prestaram atenção em como as avaliações foram projetadas. Eles garantiram que as respostas que coletaram fossem não só variadas, mas também de alta qualidade. Não foi só jogar respostas aleatórias. Em vez disso, eles montaram um pool de modelos que incluía 32 LLMs diferentes, então não faltou variedade. É como ter uma equipe inteira de chefs na cozinha para preparar um banquete.

Eles também se certifi caram de prestar atenção em quanto tempo as respostas tinham. É importante que nada distorça os resultados porque um modelo escreveu respostas muito longas ou super curtas.

Coletando Preferências Humanas

Mas como os pesquisadores coletam as preferências humanas? Eles recrutaram pessoas para ler e comparar diferentes respostas de modelos. Esses juízes humanos eram como um painel de provadores, só que em vez de biscoitos, eles estavam avaliando respostas de LLMs. Eles foram treinados em um guia especial para garantir que escolhessem as melhores respostas.

E não se preocupe—esses juízes humanos não foram escolhidos aleatoriamente. Eram falantes nativos de inglês com diplomas. Sim, pessoal, eles tinham qualificações! Os pesquisadores até criaram um site fácil de usar para coletar todas as preferências. Se ao menos escolher a melhor pizza fosse tão simples.

Analisando Resultados

Depois de coletar todos esses dados, os pesquisadores mergulharam na análise para ver o quão bem cada método se saiu. Eles compararam LLMs que foram avaliados com respostas humanas com aqueles avaliados apenas com respostas de modelos. As respostas dos modelos muitas vezes ficaram devendo. É como olhar para um desenho de uma criança pequena em comparação com uma obra-prima de um artista renomado. Uma certamente terá mais profundidade e criatividade!

Os resultados mostraram que respostas escritas por humanos geralmente superaram aquelas geradas por modelos. Mas houve algumas surpresas. Em alguns casos, modelos puderam se sair surpreendentemente bem ao usar métodos de avaliação mais simples que não consideravam respostas humanas. Mas, no geral, as respostas humanas eram o caminho a seguir.

Comparando Diferentes Métodos de Avaliação

Então, como os diferentes métodos de avaliação se compararam? Os pesquisadores analisaram vários métodos, como pedir aos modelos que julgassem as respostas ou observar o comprimento das respostas. Eles descobriram que a abordagem que usou uma referência humana (uma maneira chique de dizer que compararam respostas de modelos com respostas humanas) teve os melhores resultados.

É como criar a receita perfeita. Você pode usar ingredientes que sabe que vão elevar um prato, assim como os pesquisadores usaram respostas humanas para melhorar a qualidade da avaliação.

O Impacto do Tamanho do Modelo

Curiosamente, o tamanho dos modelos também teve um papel. Modelos maiores geralmente mostraram melhor desempenho nas avaliações. Não é tão surpreendente; normalmente, modelos maiores têm mais informações e conseguem fazer melhores conexões. É muito parecido com como uma biblioteca maior tem uma gama mais ampla de livros do que uma menor. Quanto mais recursos disponíveis, melhores as chances de obter um resultado de qualidade.

O Futuro da Avaliação

Com o estabelecimento do novo padrão, os pesquisadores esperam continuar melhorando a maneira como avaliamos os LLMs. À medida que os modelos continuam crescendo em tamanho e complexidade, haverá a necessidade de melhores métodos de avaliação que consigam acompanhar.

O objetivo é garantir que as avaliações permaneçam robustas e relevantes. Afinal, ninguém quer ficar preso no passado quando se trata de tecnologia. À medida que os LLMs evoluem, nossos métodos de avaliar suas capacidades também devem evoluir.

Considerações Finais

Em um mundo onde os LLMs estão se tornando mais influentes em nossas vidas diárias, entender seus pontos fortes e fracos é crucial. Ao incorporar respostas humanas nas avaliações, os pesquisadores estão dando um grande passo em direção a garantir que esses modelos possam seguir instruções de forma eficaz.

Imagine um futuro onde os LLMs sejam tão confiáveis quanto sua cafeteira—sempre produzindo bebidas do jeito que você gosta. Mas até que esse dia glorioso chegue, os pesquisadores continuarão trabalhando duro, ajustando seus métodos e garantindo que esses modelos de linguagem possam realmente atender nossas necessidades. A jornada apenas começou!

Fonte original

Título: HREF: Human Response-Guided Evaluation of Instruction Following in Language Models

Resumo: Evaluating the capability of Large Language Models (LLMs) in following instructions has heavily relied on a powerful LLM as the judge, introducing unresolved biases that deviate the judgments from human judges. In this work, we reevaluate various choices for automatic evaluation on a wide range of instruction-following tasks. We experiment with methods that leverage human-written responses and observe that they enhance the reliability of automatic evaluations across a wide range of tasks, resulting in up to a 3.2% improvement in agreement with human judges. We also discovered that human-written responses offer an orthogonal perspective to model-generated responses in following instructions and should be used as an additional context when comparing model responses. Based on these observations, we develop a new evaluation benchmark, Human Response-Guided Evaluation of Instruction Following (HREF), comprising 4,258 samples across 11 task categories with a composite evaluation setup, employing a composite evaluation setup that selects the most reliable method for each category. In addition to providing reliable evaluation, HREF emphasizes individual task performance and is free from contamination. Finally, we study the impact of key design choices in HREF, including the size of the evaluation set, the judge model, the baseline model, and the prompt template. We host a live leaderboard that evaluates LLMs on the private evaluation set of HREF.

Autores: Xinxi Lyu, Yizhong Wang, Hannaneh Hajishirzi, Pradeep Dasigi

Última atualização: 2024-12-19 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2412.15524

Fonte PDF: https://arxiv.org/pdf/2412.15524

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes