Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avaliando Conhecimento em Modelos de Linguagem

Estudo avalia se LLMs adivinham respostas ou realmente entendem as perguntas.

― 8 min ler


Modelos de Linguagem:Modelos de Linguagem:Conhecimento ouAdivinhação?dos grandes modelos de linguagem.Explorando as verdadeiras habilidades
Índice

Modelos de linguagem grandes (LLMs) são programas de computador avançados feitos pra entender e gerar linguagem humana. Uma tarefa chave que testam esses modelos é a resposta a Perguntas de múltipla escolha (MCQA), onde eles respondem perguntas baseadas em um conjunto de opções. Descobertas recentes sugerem que alguns LLMs conseguem se sair bem nessas situações mesmo quando recebem só as opções, sem a pergunta real. Isso levanta uma preocupação importante: esses modelos realmente sabem das coisas ou só são bons em adivinhar com base nas opções de resposta?

Pra resolver essa pergunta, os pesquisadores criaram um conjunto especial de testes chamado Conjuntos de Contraste. Esses testes ajudam a determinar se os modelos realmente entendem as perguntas ou se estão se apoiando em Padrões nas opções de resposta. Diferente dos métodos tradicionais que costumam precisar de muito trabalho manual, os pesquisadores usaram uma abordagem mais rápida minerando conjuntos de dados já existentes. Eles pegaram uma coleção popular chamada UnifiedQA, que inclui várias perguntas de raciocínio, e montaram um conjunto de 820 perguntas únicas pra ver como os modelos se saem.

O Propósito dos Conjuntos de Contraste

Os conjuntos de contraste são mini-testes feitos pra checar se um modelo tá prestando atenção na pergunta que tá sendo feita. Eles contêm pares de perguntas que têm as mesmas opções de resposta, mas perguntam coisas diferentes. Por exemplo, se uma pergunta leva à resposta "o sol" e outra leva a "a chuva", elas podem ser colocadas juntas pra ver se o modelo consegue responder sem olhar só as Escolhas.

Se um modelo vai bem nos testes normais, mas se sai mal nesses conjuntos de contraste, pode significar que suas notas altas vêm só da capacidade de adivinhar a partir das opções. Por isso, é crucial criar conjuntos de contraste eficazes que desafiem esses modelos.

Como o Conjunto de Contraste Foi Criado

Criar conjuntos de contraste de alta qualidade não é fácil; geralmente envolve muito trabalho manual, que pode ser tendencioso. Em vez disso, os pesquisadores decidiram automatizar esse processo usando um método chamado mineração de grafos. Assim funciona: cada pergunta e suas opções de resposta são vistas como um ponto em um gráfico. Se duas perguntas compartilham opções de resposta que podem ser corretas pra ambas, elas são conectadas por uma linha. Ao buscar pares assim, os pesquisadores conseguiam criar um grande conjunto de perguntas de contraste enquanto evitavam potenciais viéses que poderiam vir de dados gerados por humanos.

Usando essa técnica, eles derivaram uma coleção de perguntas do conjunto UnifiedQA, conhecido pela sua alta Precisão ao usar apenas as opções. Eles reuniram perguntas de seis conjuntos de dados de raciocínio diferentes, garantindo uma boa mistura de tópicos.

Testando os Modelos de Linguagem

Uma vez que o conjunto de contraste estava pronto, os pesquisadores testaram doze LLMs diferentes. Eles queriam ver como esses modelos se saíam no conjunto de avaliação original do UnifiedQA e no novo conjunto de contraste. Eles descobriram que, enquanto os modelos geralmente se saíram bem quando receberam só as opções, suas classificações permaneceram razoavelmente consistentes quando receberam tanto as perguntas quanto as opções.

Essa consistência sugere que os modelos não estão dependendo muito de atalhos só pra conseguir boas notas. Se eles estivessem usando principalmente as opções de resposta sem considerar as perguntas, esperaríamos que seu desempenho caísse significativamente no conjunto de contraste. No entanto, os resultados mostraram que não era o caso, indicando que os LLMs podem ter, de fato, um conhecimento substancial além de apenas adivinhar pelas opções.

Explorando Resultados Adicionais

Os pesquisadores também queriam ver se um alto desempenho em situações apenas com opções afetava as classificações desses modelos. Eles compararam como os modelos foram classificados ao responder perguntas completas versus quando responderam usando apenas as opções. Os resultados mostraram uma forte correlação. Em outras palavras, modelos que foram bem no teste principal tendiam também a se sair bem quando recebiam só as opções, ou seja, provavelmente eles entendem melhor as perguntas do que apenas se basear em padrões de resposta específicos.

Mesmo com essa correlação, as classificações no conjunto de contraste permaneceram estáveis, o que sugere que esses modelos não estão apenas se saindo bem porque conseguem explorar atalhos. Em vez disso, eles são genuinamente capazes de responder perguntas com base na sua compreensão tanto das perguntas quanto das opções.

Avaliação da Qualidade do Conjunto de Contraste

Pra garantir a qualidade do conjunto de contraste, os pesquisadores fizeram alguns especialistas avaliarem uma amostra das perguntas. Eles compararam com um conjunto base selecionado aleatoriamente. A avaliação envolveu olhar quão plausíveis eram os distratores (opções de resposta incorretas) como alternativas plausíveis. O feedback indicou que o conjunto de contraste criado através da mineração de grafos tinha opções mais críveis em comparação com a base aleatória.

O Papel da Compreensão Apenas das Opções

Enquanto os resultados mostram que os LLMs são habilidosos em responder perguntas, é crucial notar que a capacidade deles de se sair bem usando só as opções de resposta não significa que eles não têm uma compreensão real. Muitos pesquisadores acreditam que alcançar notas altas em situações apenas com opções não implica que esses modelos não podem raciocinar ou compreender. Essa é uma distinção essencial porque abre a porta pra mais pesquisas. Mais investigações podem ajudar a esclarecer como esses modelos conseguem se sair bem, mesmo quando são dadas apenas as opções de resposta.

Limitações e Direções Futuras

A pesquisa focou em um conjunto específico de perguntas do UnifiedQA onde foi vista uma alta precisão ao usar prompts de apenas opções. Embora esse seja um conjunto de dados valioso, há reconhecimento de que os achados podem variar em outros conjuntos de dados. Portanto, investigações futuras poderiam empregar a técnica de mineração de grafos pra desenvolver conjuntos de contraste em vários contextos além de apenas MCQA.

Além disso, o conjunto de contraste incluía apenas perguntas com duas opções de resposta. Embora isso facilitasse as adivinhações dos modelos, os pesquisadores descobriram que a plausibilidade geral das perguntas permanecia intacta. Mesmo com menos opções, as classificações dos modelos mostraram consistência em diferentes tipos de testes.

Considerações Éticas

Quando os modelos dependem demais de padrões encontrados nos conjuntos de dados nos quais foram treinados, corre-se o risco de superestimar suas verdadeiras capacidades. Isso pode levar a problemas quando esses modelos são usados em aplicações do mundo real. Entender até que ponto os LLMs podem depender de atalhos é vital pra identificar suas habilidades reais.

Os pesquisadores também destacaram o potencial de viéses ligados a dados gerados por modelos, especialmente quando os modelos são usados pra criar novos conjuntos de dados. Eles desenharam o conjunto de contraste com mínima intervenção dos modelos, o que ajudou a reduzir esse risco. Essa abordagem pode servir como um modelo pra pesquisas futuras e esforços de criação de conjuntos de dados.

Conclusão

O estudo revela que modelos de linguagem grandes demonstram um conhecimento significativo e capacidade de raciocínio, em vez de depender apenas de adivinhações ou atalhos. Embora eles possam se sair bem em condições apenas com opções, essa capacidade não ofusca sua compreensão real quando tanto a pergunta quanto as escolhas estão presentes. A criação de conjuntos de contraste através da mineração de grafos oferece uma nova forma de avaliar esses modelos e pode levar a descobertas mais profundas no futuro.

Pesquisas em andamento são cruciais pra explorar melhor como os LLMs conseguem manter altos níveis de desempenho, as estratégias que usam e como podem ser aplicados eticamente em várias situações. Os achados convidam a uma discussão mais ampla sobre a interpretação dos comportamentos desses modelos avançados em configurações de múltipla escolha e além.

Fonte original

Título: Is Your Large Language Model Knowledgeable or a Choices-Only Cheater?

Resumo: Recent work shows that large language models (LLMs) can answer multiple-choice questions using only the choices, but does this mean that MCQA leaderboard rankings of LLMs are largely influenced by abilities in choices-only settings? To answer this, we use a contrast set that probes if LLMs over-rely on choices-only shortcuts in MCQA. While previous works build contrast sets via expensive human annotations or model-generated data which can be biased, we employ graph mining to extract contrast sets from existing MCQA datasets. We use our method on UnifiedQA, a group of six commonsense reasoning datasets with high choices-only accuracy, to build an 820-question contrast set. After validating our contrast set, we test 12 LLMs, finding that these models do not exhibit reliance on choice-only shortcuts when given both the question and choices. Thus, despite the susceptibility~of MCQA to high choices-only accuracy, we argue that LLMs are not obtaining high ranks on MCQA leaderboards just due to their ability to exploit choices-only shortcuts.

Autores: Nishant Balepur, Rachel Rudinger

Última atualização: 2024-07-02 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.01992

Fonte PDF: https://arxiv.org/pdf/2407.01992

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes