Avaliando o Conhecimento Comum em Modelos de Linguagem
Um novo método pra avaliar o raciocínio de bom senso em modelos de IA através de tarefas abertas.
― 9 min ler
Índice
- O Problema das Perguntas de Múltipla Escolha
- Indo Além das Perguntas de Múltipla Escolha
- Introdução à Conclusão de Quadro de Bom Senso (CFC)
- Como o Conjunto de Dados Foi Criado
- Entendendo a Distribuição de Probabilidade
- Decidindo Quantas Respostas Coletar
- Tipos de Perguntas na CFC
- Novos Métodos de Avaliação
- Framework de Avaliação Automática
- Validando o Avaliador
- Desempenho dos Modelos de Linguagem
- Trabalho Futuro e Considerações
- Conclusão
- Fonte original
- Ligações de referência
Modelos de linguagem grandes mostraram que podem ser bem bons em tarefas de bom senso. Mas, muitas dessas tarefas são feitas como perguntas de múltipla escolha. Esse esquema permite que os modelos aproveitem certos vieses nas perguntas e nas respostas. O conhecimento de bom senso é complicado porque, muitas vezes, tem mais de uma resposta certa. Por exemplo, ferver água pode ser para fazer chá, cozinhar ou purificar água. Os testes atuais não refletem essa incerteza que existe no raciocínio de bom senso.
Para resolver isso, criamos uma nova forma de avaliar o bom senso, que chamamos de conclusão de quadro de bom senso (CFC). Essa é uma tarefa onde os modelos têm que gerar respostas para perguntas abertas. O conjunto de dados e o método de avaliação estão disponíveis para que outros possam usar. Além disso, desenvolvemos uma forma de avaliar essas respostas que se aproxima de como os humanos julgariam. Os resultados mostram que os seres humanos se saem significativamente melhor até do que os melhores modelos de linguagem quando se trata de raciocínio de bom senso.
O Problema das Perguntas de Múltipla Escolha
A maioria dos testes existentes para bom senso foca em perguntas de múltipla escolha. Embora isso facilite a avaliação do desempenho do modelo, também traz limitações. Esse método oferece uma visão limitada do conhecimento de bom senso. Ao usar perguntas de múltipla escolha, o modelo geralmente trabalha com um pequeno conjunto de respostas. É difícil criar opções significativas e desafiadoras. Mais importante, o conhecimento de bom senso é frequentemente implícito. Envolve entender coisas que são geralmente verdadeiras, mas não estão explicitamente ditas. A abordagem direta das perguntas de múltipla escolha não captura a habilidade do modelo de usar esse conhecimento de maneiras imprevisíveis. Além disso, o raciocínio de bom senso é inerentemente cheio de incertezas, e os testes precisam refletir isso.
Tradicionalmente, as avaliações compararam o desempenho do modelo e do humano com base apenas na melhor tentativa. Nossa abordagem avalia escolhas de respostas mais abrangentes agrupando respostas semelhantes em categorias. Esse método observa a distribuição das respostas, permitindo uma melhor avaliação das habilidades de bom senso do modelo.
Indo Além das Perguntas de Múltipla Escolha
Para superar as limitações das avaliações de múltipla escolha, muitos testes recentes começaram a usar avaliações gerativas de bom senso. Esse formato tem seus benefícios, já que evita os desafios encontrados na geração de exemplos negativos difíceis. No entanto, não reflete que frequentemente há muitas respostas válidas, especialmente para perguntas de bom senso.
Por exemplo, se alguém diz: "eles ferveram a água", o bom senso sugere que isso é provavelmente feito para cozinhar ou fazer chá. No entanto, em áreas onde a água limpa é difícil de encontrar, as pessoas podem ver a fervura como uma forma de matar germes. Essa complexidade é frequentemente ignorada ao criar benchmarks. Para garantir que os modelos possam se relacionar a grupos diversos de pessoas, é essencial coletar múltiplas respostas. Focar nessa variedade fornece uma imagem mais clara do conhecimento de bom senso necessário para situações do mundo real.
Nesse novo framework, é necessário abordar perguntas de bom senso que permitam várias respostas corretas. Embora alguns trabalhos passados tenham sugerido usar um método de agrupamento e classificação para avaliação, mostramos que isso pode carecer de profundidade. Em vez disso, abraçamos a complexidade do conhecimento de bom senso e avaliamos o sucesso do modelo de acordo com o quanto ele reflete a distribuição de respostas possíveis de um grupo maior.
Introdução à Conclusão de Quadro de Bom Senso (CFC)
A CFC foca em descobrir informações faltantes em uma frase que dá contexto. Essa tarefa destaca a natureza implícita do bom senso e se conecta diretamente a aplicações como assistentes domésticos, onde entender o pedido de um usuário é essencial. Na CFC, as perguntas são formadas buscando essa informação faltante em cenários do dia a dia. Para cada contexto e pergunta, coletamos várias respostas diferentes de pessoas.
Para avaliar efetivamente essas respostas variadas, criamos um novo método. As respostas de diferentes pessoas podem variar bastante, e o bom senso é frequentemente definido como conhecimento compartilhado entre a maioria das pessoas. Para garantir que cada resposta conte, analisamos as respostas a partir de uma perspectiva probabilística. Especificamente, agrupamos as respostas e observamos a distribuição desses grupos com base em sua frequência. Temos mecanismos que permitem que os modelos sejam julgados com base em como suas respostas se comparam a essas distribuições.
Como o Conjunto de Dados Foi Criado
O processo para criar o conjunto de dados CFC começou com a coleta de frases de contexto que envolvem naturalmente o conhecimento de bom senso. Usamos um conjunto de dados que contém uma variedade de frases sobre a vida diária. A partir dessas frases, buscamos informações implícitas, identificando partes que estavam faltando. Para fazer isso, usamos um método que divide as frases em seus componentes semânticos para identificar qual informação está faltando.
Depois de gerar muitos pares de contexto e pergunta, pedimos para trabalhadores online anotarem as informações faltantes. Garantimos que houvesse uma boa mistura de tipos de informações faltantes. O conjunto de dados final inclui frases de contexto, informações faltantes e várias respostas de diversas fontes.
Distribuição de Probabilidade
Entendendo aEm tarefas abertas onde várias pessoas são convidadas a fornecer respostas, pode haver muitas respostas que expressam a mesma ideia. Nosso principal objetivo não é focar na redação única das respostas, mas sim no conceito compartilhado que elas representam. Por exemplo, se perguntarmos por que alguém ferveu água, tanto "chaleira" quanto "bule" podem refletir a mesma ideia.
Para avaliar isso, olhamos para o agrupamento de respostas e transformamos isso em uma distribuição que expressa a probabilidade de obter respostas de um grupo específico. Esse processo ajuda a simplificar a diversidade de respostas em uma forma mais gerenciável.
Decidindo Quantas Respostas Coletar
O número de respostas possíveis pode ser vasto, e é crucial garantir que coletemos o suficiente para refletir com precisão a verdadeira distribuição de respostas. Esse é um problema bem conhecido em estatística. Seguindo métodos estabelecidos, podemos determinar quantas respostas coletar. Descobrimos que uma abordagem equilibrada garante que tenhamos uma distribuição estável de respostas.
Tipos de Perguntas na CFC
Coletamos um grande número de pares de contexto e informações faltantes. Para cada um desses pares, buscamos pelo menos 100 respostas de trabalhadores da multidão. Esse processo resultou em um conjunto robusto de anotações. Cada tipo de pergunta se relaciona a um aspecto diferente do raciocínio de bom senso, como entender tempo ou contexto.
Métodos de Avaliação
NovosEm seguida, focamos em como avaliar múltiplas respostas corretas. Como relaxamos a noção de conhecimento de bom senso para ser mais probabilística, precisamos de um método de avaliação rigoroso. A tarefa dada a humanos e modelos é apresentada como responder a uma pergunta em vez de simplesmente escolher a melhor opção.
Para avaliar as semelhanças entre respostas geradas por humanos e aquelas dos modelos, criamos uma estrutura onde agrupamos as respostas em clusters significativos. Comparando distribuições desses clusters, podemos obter insights sobre o quão bem os modelos entendem o conhecimento de bom senso.
Framework de Avaliação Automática
Baseado em nosso framework de avaliação geral, propomos uma métrica automática para avaliar as respostas dos modelos. Isso envolve várias etapas chave:
- Representar respostas como vetores numéricos.
- Agrupar automaticamente esses vetores em clusters.
- Combinar respostas de modelos com clusters humanos com base em sua similaridade.
Testamos várias técnicas para agrupamento e correspondência, eventualmente optando por métodos que provaram ser eficazes na prática.
Validando o Avaliador
Para confirmar a precisão de nosso método de avaliação, comparamos com julgamentos humanos usando dois Conjuntos de dados. O objetivo é mostrar que nossa avaliação automática se alinha de perto ao modo como os humanos avaliariam as mesmas saídas dos modelos.
Começamos criando uma mistura diversificada de distribuições de respostas para avaliar como nosso método se comportava em diferentes condições. Ao amostrar de uma mistura de respostas humanas e previsões de modelos, avaliamos quão bem as respostas dos modelos se igualavam aos nossos clusters de verdade.
Desempenho dos Modelos de Linguagem
Usando o método de avaliação automático que desenvolvemos, analisamos como diferentes modelos de linguagem se saíram na CFC. Encontramos uma lacuna significativa no desempenho entre humanos e modelos de linguagem, indicando que nossa tarefa é realmente desafiadora.
Testamos vários grandes modelos de linguagem, incluindo configurações de zero-shot e fine-tuning. Mesmo os modelos com melhor desempenho ainda ficaram atrás do desempenho humano, reforçando a necessidade de melhorias nessa área.
Trabalho Futuro e Considerações
Nossa abordagem reconhece que as respostas de bom senso que coletamos podem não representar totalmente a diversidade global, mas podem ser vistas como um passo na direção certa. Planejamos expandir nosso conjunto de dados para incluir respostas de uma variedade mais ampla de culturas e idiomas.
Além disso, reconhecemos que nosso avaliador pode ser suscetível a certas fraquezas devido à sua natureza automatizada. Alguns modelos poderiam conseguir pontuações altas sem realmente se destacar na tarefa em questão. Trabalhos futuros irão explorar a combinação de raciocínio simbólico com métodos neurais para fortalecer nosso framework de avaliação.
Conclusão
Em conclusão, apresentamos a ideia de que o conhecimento de bom senso pode ser visto como uma distribuição de possibilidades, em vez de fatos rígidos. Desenvolvemos um conjunto de dados voltado para avaliar esse conhecimento por meio de tarefas gerativas. Com nosso novo método de avaliação, podemos revelar lacunas significativas no desempenho entre humanos e modelos de aprendizado de máquina existentes, destacando áreas para mais desenvolvimento e pesquisa.
À medida que seguimos em frente, expandir o conjunto de dados e refinar nosso avaliador será fundamental para melhorar nossa compreensão do raciocínio de bom senso. Esse trabalho estabelece as bases para modelos mais sofisticados que podem imitar melhor a compreensão humana do mundo.
Título: Every Answer Matters: Evaluating Commonsense with Probabilistic Measures
Resumo: Large language models have demonstrated impressive performance on commonsense tasks; however, these tasks are often posed as multiple-choice questions, allowing models to exploit systematic biases. Commonsense is also inherently probabilistic with multiple correct answers. The purpose of "boiling water" could be making tea and cooking, but it also could be killing germs. Existing tasks do not capture the probabilistic nature of common sense. To this end, we present commonsense frame completion (CFC), a new generative task that evaluates common sense via multiple open-ended generations. We also propose a method of probabilistic evaluation that strongly correlates with human judgments. Humans drastically outperform strong language model baselines on our dataset, indicating this approach is both a challenging and useful evaluation of machine common sense.
Autores: Qi Cheng, Michael Boratko, Pranay Kumar Yelugam, Tim O'Gorman, Nalini Singh, Andrew McCallum, Xiang Lorraine Li
Última atualização: 2024-06-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.04145
Fonte PDF: https://arxiv.org/pdf/2406.04145
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.