Repensando Métodos de Avaliação para Modelos de Linguagem
Uma nova abordagem pra avaliar modelos de linguagem em meio a ambiguidades de tarefas.
Luke Guerdan, Hanna Wallach, Solon Barocas, Alexandra Chouldechova
― 6 min ler
Índice
Quando se trata de testar grandes modelos de linguagem (LLMs), as coisas podem ficar bem complicadas. Imagina que você tá tentando avaliar redações, mas cada um tem uma ideia diferente do que é uma boa redação. É aí que a gente se enrosca. A maioria das avaliações acha que só existe uma resposta certa, o que é como esperar que todo mundo concorde no melhor recheio de pizza-boa sorte com isso!
O Problema com Rótulos de Ouro
No mundo dos LLMs, a gente costuma depender dos "rótulos de ouro" pra avaliação. Rótulos de ouro são aquelas respostas ideais que todo mundo consegue concordar. Mas o que acontece quando a pergunta não é clara ou pode ser interpretada de várias maneiras? Por exemplo, se alguém pergunta: "Essa afirmação é ofensiva?" isso pode depender de quem você pergunta. Uma pessoa pode achar que é uma brincadeira, enquanto outra pode ver como uma ofensa pessoal. Essa confusão significa que pode haver várias respostas corretas, o que chamamos de “indeterminação da tarefa.”
O que é Indeterminação da Tarefa?
Indeterminação da tarefa ocorre quando as instruções para as tarefas são confusas ou vagas. Se você disser a alguém pra julgar se uma afirmação é depreciativa, a interpretação dela pode variar com base nas experiências e no contexto dela. Por exemplo, chamar alguém de "Cheesehead" em um contexto esportivo pode parecer amigável pra uma pessoa, enquanto outra pode ver como um insulto. Então, quando avaliamos LLMs, podemos acabar subestimando como eles realmente se saem porque levamos em conta apenas uma resposta como correta, em vez de todas as interpretações válidas que existem.
Nossa Estrutura para Avaliação
Então, como a gente resolve isso? Apresentamos nossa estrutura chique! Nossa abordagem ajuda a separar as diferentes partes do processo de avaliação. Pense nisso como fazer uma receita: você precisa saber os ingredientes, como combiná-los e qual prato final você quer. Aqui está como funciona:
Especificação da Tarefa: Isso é o que você está pedindo pro modelo ou avaliador humano fazer. Tem que ser claro, mas nada muito simplista. Ambiguidade é o inimigo!
Avaliações Humanas: É aqui que as coisas ficam interessantes. Dependendo de quem tá avaliando a resposta, você pode ter respostas bem diferentes. Pode acabar com uma sala cheia de gente, cada uma pensando uma coisa diferente.
Respostas do LLM: Por último, a gente checa como o modelo se saiu baseado nas avaliações que recebeu.
Entendendo como esses elementos interagem, podemos avaliar os LLMs de forma mais justa.
Por que os Métodos Atuais Não Funcionam
Atualmente, a maioria das avaliações junta as opiniões de todo mundo em um único "rótulo de ouro." Imagina reunir uma galera pra escolher uma sobremesa e todo mundo gostar de coisas diferentes-chocolate, baunilha, tortas de frutas-e você manda eles escolherem só uma. Isso pode levar a erros na avaliação. Alguns grupos podem nem ser representados de forma precisa!
Pesquisadores perceberam que, quando a gente olha pras avaliações dadas por diferentes pessoas, essas diferenças podem significar algo. Podem revelar influências culturais ou demográficas que precisam ser consideradas.
Descobrindo o Verdadeiro Desempenho
Agora, como a gente descobre o verdadeiro desempenho de um LLM? Em vez de depender de apenas uma resposta, podemos olhar todas as interpretações razoáveis de uma pergunta específica. Pra isso, desenvolvemos um método pra estimar uma faixa de desempenho em vez de uma única pontuação. É como dizer: "Eu acho que consigo correr uma milha em cerca de 8 a 10 minutos," em vez de afirmar: "Eu consigo correr uma milha em 9 minutos."
Usamos duas ideias principais pra estabelecer limites pra esse desempenho:
Limite de Prevalência: Isso nos dá uma estimativa aproximada com base em um conjunto de itens que julgamos serem ambíguos ou dependerem de contexto.
Limite de Partição: Isso envolve classificar itens com base em quanto consenso existe entre os avaliadores. Se todo mundo discorda sobre uma pergunta, provavelmente ela cai na área cinzenta da indeterminação.
O resultado? Conseguimos medir o desempenho real do modelo de forma mais precisa do que apenas adivinhando com base em uma resposta.
Por que Isso Importa
Reconhecer que algumas perguntas podem levar a múltiplos pontos de vista não é só papo acadêmico; é uma mudança de jogo pra avaliar LLMs. Isso permite que os pesquisadores criem ferramentas e estratégias melhores pra lidar com tarefas como segurança e danos. Os estudos podem incluir a refinamento das instruções ou fornecer mais contexto, o que pode ajudar a aliviar um pouco da ambiguidade.
Impactos Mais Amplos Dessa Abordagem
Atualmente, muitas avaliações são feitas meio no improviso, levando a uma confiabilidade questionável. Usando nossa estrutura, oferecemos uma maneira mais estruturada de entender as diferenças nas respostas. Isso também abre caminhos pra mais pesquisas, permitindo que a gente afine como os LLMs são testados pra várias aplicações, tipo melhorar a experiência do usuário ou garantir a segurança do modelo.
Limitações e Direções Futuras
Vale a pena notar que nossa estrutura não é a solução pra tudo. Ela aborda principalmente tarefas com escolhas claras, então tarefas mais abertas ainda podem precisar de abordagens diferentes. Nossa estrutura também não fornece uma avaliação completa de quão confiável e válida uma avaliação é. Às vezes, até perguntas bem formuladas podem levar a conclusões erradas.
Imagina alguém marcando um comentário como "depreciativo" só porque menciona uma palavra numa lista gerada automaticamente. Sim, tá seguindo as regras, mas pode ignorar um contexto importante. Por isso, é essencial tratar nossa estrutura como parte de um quebra-cabeça maior.
Conclusão
Avaliar LLMs pode ser mais complicado do que parece, especialmente quando as tarefas são vagas ou ambíguas. Nossa nova estrutura visa esclarecer o processo e promover melhores práticas nas avaliações. Ao reconhecer as variações nas avaliações humanas e a complexidade da linguagem, conseguimos ter uma visão muito mais clara de como esses modelos se saem e preparar o terreno pra trabalhos futuros que melhorem as capacidades dos LLMs.
Então, da próxima vez que você estiver tentando explicar algo complicado, lembre-se disso: se houver uma discordância, provavelmente há mais de um jeito de ver as coisas. E tá tudo certo!
Título: A Framework for Evaluating LLMs Under Task Indeterminacy
Resumo: Large language model (LLM) evaluations often assume there is a single correct response -- a gold label -- for each item in the evaluation corpus. However, some tasks can be ambiguous -- i.e., they provide insufficient information to identify a unique interpretation -- or vague -- i.e., they do not clearly indicate where to draw the line when making a determination. Both ambiguity and vagueness can cause task indeterminacy -- the condition where some items in the evaluation corpus have more than one correct response. In this paper, we develop a framework for evaluating LLMs under task indeterminacy. Our framework disentangles the relationships between task specification, human ratings, and LLM responses in the LLM evaluation pipeline. Using our framework, we conduct a synthetic experiment showing that evaluations that use the "gold label" assumption underestimate the true performance. We also provide a method for estimating an error-adjusted performance interval given partial knowledge about indeterminate items in the evaluation corpus. We conclude by outlining implications of our work for the research community.
Autores: Luke Guerdan, Hanna Wallach, Solon Barocas, Alexandra Chouldechova
Última atualização: Nov 20, 2024
Idioma: English
Fonte URL: https://arxiv.org/abs/2411.13760
Fonte PDF: https://arxiv.org/pdf/2411.13760
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.