Avaliando Habilidades de Raciocínio em Modelos de Linguagem Através de Jogos
A gente testa as habilidades de raciocínio dos modelos de linguagem com vários jogos, mostrando limitações bem grandes.
― 9 min ler
Índice
- O Que São Modelos de Linguagem?
- Formas Atuais de Testar Modelos de Linguagem
- Definindo Inteligência Geral em IA
- A Necessidade de Melhores Medidas de Inteligência
- Experimentos Baseados em Jogos
- LEGO Connect Language (LCL)
- Jogos de Tabuleiro: Jogo da Velha, Conecta Quatro e Batalha Naval
- O Jogo das Formas
- Observações Gerais dos Jogos
- As Limitações dos Modelos Atuais
- Direções para Trabalhos Futuros
- Conclusão
- Fonte original
- Ligações de referência
A avaliação de grandes modelos de linguagem (LLMs) geralmente foca nas habilidades linguísticas deles, mas esse jeito pode deixar passar como esses modelos raciocinam de um modo geral. A gente investigou se LLMs como o GPT-3.5 e o GPT-4 conseguem fazer mais do que só lidar com texto. Acreditamos que esses modelos conseguem pensar de maneira mais ampla, especialmente em tarefas que não envolvem diretamente a linguagem.
Pra testar essa ideia, usamos vários jogos como Jogo da Velha, Conecta Quatro e Batalha Naval. Codificamos esses jogos usando caracteres de texto simples pra ver como os modelos conseguem fazer escolhas e decisões estratégicas. Além disso, criamos dois jogos novos pra testar diferentes habilidades. O primeiro, LEGO Connect Language (LCL), verifica se os modelos conseguem entender Raciocínio espacial seguindo instruções de construção. O segundo jogo envolve identificar formas dentro de uma grade de números.
Usando um jeito de "mostrar, não contar", a gente queria ver o que os modelos realmente podiam fazer nesses jogos, em vez de só perguntar como jogar. Nossos achados mostraram que, enquanto o GPT-3.5 e o GPT-4 mandavam bem em algumas tarefas relacionadas à linguagem, eles se saíram mal em jogos que exigiam pensamento estratégico e raciocínio espacial. Por exemplo, nenhum dos modelos previu movimentos perdedores no Jogo da Velha e no Conecta Quatro, e eles tinham dificuldade em seguir as regras enquanto jogavam Batalha Naval. No jogo de Identificação de Formas, o GPT-4 foi melhor que o GPT-3.5, mas ambos tiveram dificuldade com as tarefas de montagem no LCL.
O Que São Modelos de Linguagem?
Modelos de linguagem como GPT-3.5 e GPT-4 são sistemas avançados que processam entradas de texto e produzem saídas em texto. Eles funcionam entendendo as relações entre palavras numa frase, permitindo que gerem frases que fazem sentido. Pra fazer isso, eles quebram o texto em partes menores, convertem essas partes em formas numéricas e depois analisam a importância de cada parte na produção de respostas coerentes.
Esses modelos têm milhões ou até bilhões de parâmetros. Modelos como o Alpaca têm cerca de 7 bilhões de parâmetros, enquanto os maiores, como o LLaMA, têm até 65 bilhões. Os modelos mais extensos, como o PaLM, vão ainda mais longe, com 540 bilhões de parâmetros. Esse tamanho gigantesco permite que eles lidem com regras complexas da linguagem, abrangendo sintaxe, significado, contexto e até estilo.
Formas Atuais de Testar Modelos de Linguagem
Testes foram criados para LLMs verem quão bem eles entendem e geram linguagem. Diferentes conjuntos de dados, como SQuAD e GLUE, fornecem vários tipos de perguntas e tarefas. Por exemplo, essas tarefas podem incluir perguntas de múltipla escolha, compreensão de leitura ou completar conversas. Cada teste geralmente avalia quão corretas são as respostas, quão fluentemente a linguagem é gerada e se a conversa se mantém relevante.
Pra ir além das tarefas linguísticas, alguns estudos recentes tentaram formas diferentes de ver quão bem LLMs pensam sobre problemas. Em um estudo, os pesquisadores usaram o Jogo da Velha pra avaliar os modelos contra uma estratégia de jogo perfeita conhecida como algoritmo minimax. Embora alguns LLMs tenham se saído bem de vez em quando, geralmente eles não venceram essa estratégia ótima.
Outro trabalho importante apontou os riscos de interpretar mal o que LLMs podem fazer com base apenas em tarefas linguísticas. Enquanto esses modelos se saem bem em muitos testes de linguagem, eles têm dificuldade com raciocínio mais profundo e compreensão do mundo. Isso levanta questões sobre quão bem esses modelos podem fazer conexões lógicas e entender ideias complexas.
Pesquisadores também levantaram preocupações sobre a confiabilidade de grandes modelos. A falta de transparência sobre como esses modelos são construídos gera dúvidas sobre sua confiança. Alguns pesquisadores argumentam que as capacidades ditas pelos LLMs podem ser enganosas, sugerindo que essas avaliações poderiam simplesmente refletir como as métricas de avaliação foram escolhidas, em vez de mostrar verdadeiras melhorias nas habilidades de raciocínio.
Definindo Inteligência Geral em IA
Ao discutir inteligência em IA, os pesquisadores costumam se referir à inteligência geral (GI), que é a capacidade de pensar, resolver problemas e aprender em diversos contextos. Tradicionalmente, GI inclui processos que vão além do conhecimento específico e abrangem uma ampla gama de habilidades cognitivas.
Um problema significativo na avaliação de modelos avançados como o GPT-3.5 e o GPT-4 é que os dados usados pra treinamento podem se sobrepor aos testes, levando a resultados não confiáveis. Os conjuntos de dados frequentemente usados pra treinar esses modelos são enormes e complexos, tornando difícil saber exatamente que informações os modelos aprenderam. Essa incerteza pode tornar muitos esforços de benchmarking ineficazes.
Alguns pesquisadores estão tentando resolver esse problema avaliando com que frequência as respostas geradas se sobrepõem aos dados de treinamento. No entanto, esse método tem limitações, já que não considera o contexto em que as palavras aparecem e pode perder outros aspectos importantes.
A Necessidade de Melhores Medidas de Inteligência
A gente acha que uma abordagem mais sutil é necessária pra avaliar os LLMs. Pra medir mais precisamente a inteligência geral em IA, os benchmarks deveriam focar em avaliar verdadeiramente habilidades de raciocínio e generalização de maneiras realistas.
Neste trabalho, apresentamos o ChildPlay, que é uma série de jogos sem linguagem, projetados pra medir raciocínio e pensamento estratégico, além de reconhecimento de padrões. Usar jogos cria objetivos claros, facilitando ver quão bem os modelos conseguem planejar e tomar decisões ao longo do tempo. Por causa da natureza desses jogos, eles podem refletir desafios do mundo real de forma mais eficaz.
Experimentos Baseados em Jogos
Nos nossos experimentos, colocamos tarefas do benchmark BIG-bench numa categoria específica conhecida como teste zero-shot. Nesses testes, os modelos recebem as regras dos jogos sem exemplos ou prática anterior. A gente queria demonstrar se os modelos conseguiam pensar sobre arranjos espaciais usando sequências de caracteres de texto simples.
Criamos tarefas incluindo montagem de LEGO, e os jogos de tabuleiro Jogo da Velha, Conecta Quatro e Batalha Naval, além de um jogo de identificação de formas. Usamos GPT-3.5 e GPT-4 em vários cenários, com diferentes configurações pra ver como eles reagiriam.
LEGO Connect Language (LCL)
Para a tarefa de montagem de LEGO, criamos uma linguagem estruturada, LEGO Connect Language (LCL), pra instruir como construir usando regras específicas. Os modelos tinham que determinar se as construções de LEGO apresentadas eram válidas, com base em vários critérios.
O primeiro teste envolveu pedir aos LLMs que validassem se uma estrutura de LEGO estava construída corretamente ou não. Os modelos foram desafiados a gerar estruturas válidas com base nas instruções. O desempenho foi medido pela quantidade de estruturas válidas que os modelos produziram em resposta a esses testes.
Jogos de Tabuleiro: Jogo da Velha, Conecta Quatro e Batalha Naval
Em seguida, olhamos pros jogos de tabuleiro tradicionais. Cada jogo envolvia dar o estado atual do jogo pros modelos, junto com uma breve introdução ao jogo. Os modelos também foram informados que jogariam primeiro. No Jogo da Velha, um aspecto crítico era se os modelos reconheceriam movimentos vencedores e bloqueassem os perdedores.
Na Batalha Naval, configuramos navios em configurações aleatórias e acompanhamos os resultados com base nos palpites dos modelos. Cada jogo foi projetado pra confirmar se os modelos podiam seguir as regras do jogo e tomar decisões estratégicas. Infelizmente, os resultados mostraram que tanto o GPT-3.5 quanto o GPT-4 frequentemente falharam em seguir as regras corretamente, resultando em perdas.
O Jogo das Formas
No jogo das formas, os modelos tinham que encontrar formas geométricas básicas escondidas entre números. Os resultados revelaram que o GPT-3.5 teve dificuldades significativas, se saindo em níveis aleatórios, enquanto o GPT-4 mostrou melhores habilidades, especialmente em reconhecer triângulos.
Observações Gerais dos Jogos
Ao analisar o desempenho geral, ficou claro que nenhum dos modelos conseguiu seguir as regras de forma consistente, especialmente nos testes de Batalha Naval e LCL. O número de movimentos e erros aumentou à medida que ajustamos a dificuldade, sugerindo que os modelos não estavam estrategizando de forma eficaz.
Configurações de temperatura mais alta, que permitiam escolhas mais aleatórias no jogo, não melhoraram as habilidades deles em seguir regras ou tomar decisões melhores; na verdade, muitas vezes levaram a mais erros.
As Limitações dos Modelos Atuais
Nosso trabalho revela que os LLMs, apesar de suas fortes habilidades linguísticas, têm dificuldades em tarefas que exigem pensamento estratégico e compreensão real. Jogos como Jogo da Velha, Batalha Naval e identificação de formas mostraram limitações significativas nas capacidades de raciocínio dos modelos.
Apesar de algum sucesso em tarefas básicas, tanto o GPT-3.5 quanto o GPT-4, em geral, se saíram mal nos jogos testados. Os resultados destacam lacunas importantes na capacidade deles de resolver problemas e seguir regras estruturadas.
Direções para Trabalhos Futuros
Daqui pra frente, pretendemos testar mais modelos, incluindo os de código aberto, com esperança de encontrar melhores desempenhos no benchmark ChildPlay. Acreditamos que nenhum modelo existente vai se sair bem nos nossos testes, mas desenvolvimentos futuros em aprendizado de reforço profundo poderiam abrir caminho pra melhores resultados.
Vemos um valor significativo em usar benchmarks baseados em jogos pra avaliar LLMs, já que eles oferecem insights sobre as capacidades de raciocínio e resolução de problemas dos modelos. Testar LLMs com tarefas não linguísticas é crucial pra entender suas habilidades cognitivas de forma geral.
Conclusão
Em resumo, avaliar LLMs com jogos fornece uma nova perspectiva sobre o que esses modelos realmente conseguem realizar. Ao focar no desempenho deles em tarefas de raciocínio simples, descobrimos que até modelos avançados como o GPT-3.5 e o GPT-4 frequentemente ficam devendo. A incapacidade deles de jogar bem sugere limitações nas habilidades de resolver problemas e na tomada de decisões estratégicas. Nossas descobertas enfatizam a necessidade de benchmarks adicionais que desafiem esses modelos além das tarefas linguísticas, garantindo uma compreensão mais completa de suas capacidades.
Título: Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay
Resumo: We explore the hypothesis that LLMs, such as GPT-3.5 and GPT-4, possess broader cognitive functions, particularly in non-linguistic domains. Our approach extends beyond standard linguistic benchmarks by incorporating games like Tic-Tac-Toe, Connect Four, and Battleship, encoded via ASCII, to assess strategic thinking and decision-making. To evaluate the models' ability to generalize beyond their training data, we introduce two additional games. The first game, LEGO Connect Language (LCL), tests the models' capacity to understand spatial logic and follow assembly instructions. The second game, the game of shapes, challenges the models to identify shapes represented by 1s within a matrix of zeros, further testing their spatial reasoning skills. This "show, don't tell" strategy uses games instead of simply querying the models. Our results show that despite their proficiency on standard benchmarks, GPT-3.5 and GPT-4's abilities to play and reason about fully observable games without pre-training is mediocre. Both models fail to anticipate losing moves in Tic-Tac-Toe and Connect Four, and they are unable to play Battleship correctly. While GPT-4 shows some success in the game of shapes, both models fail at the assembly tasks presented in the LCL game. These results suggest that while GPT models can emulate conversational proficiency and basic rule comprehension, their performance in strategic gameplay and spatial reasoning tasks is very limited. Importantly, this reveals a blind spot in current LLM benchmarks that we highlight with our gameplay benchmark suite ChildPlay (https://github.com/child-play-neurips/child-play). Our findings provide a cautionary tale about claims of emergent intelligence and reasoning capabilities of LLMs that are roughly the size of GPT-3.5 and GPT-4.
Autores: Gonçalo Hora de Carvalho, Oscar Knap, Robert Pollice
Última atualização: 2024-08-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.11068
Fonte PDF: https://arxiv.org/pdf/2407.11068
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.