Avaliando o Desempenho do ChatGPT em Jogos de Texto
Testar as habilidades do ChatGPT através do clássico jogo de texto Zork revela limitações importantes.
― 7 min ler
Recentemente, modelos de linguagem grandes (LLMs) como o ChatGPT mostraram que conseguem conversar com humanos muito bem. No entanto, a gente queria ver quão bons eles são em jogar Jogos de texto. Nesses jogos, os jogadores precisam entender o que tá rolando ao redor e responder a diferentes situações através de texto.
Nos nossos testes, descobrimos que o ChatGPT se sai melhor que sistemas mais antigos, mas não tem um nível alto de inteligência quando se trata de jogar jogos de texto. Por exemplo, ele tem dificuldade em criar um modelo de mundo baseado no jogo ou até mesmo no manual do jogo. Muitas vezes, ele não consegue usar o conhecimento que já tem e não consegue entender os objetivos de cada passo enquanto o jogo rola.
Por que jogos são importantes para a IA?
Jogos refletem a vida real de várias maneiras. Eles envolvem definir Metas, tomar decisões, superar desafios e interagir com o mundo. Por causa dessas semelhanças, os jogos são ótimos para testar o progresso na inteligência artificial (IA). Comparando como os sistemas de IA se saem em jogos com jogadores humanos, os pesquisadores conseguem avaliar as capacidades desses sistemas de uma forma significativa.
Ao longo da história da IA, teve muitos momentos importantes ligados a jogos. Um dos mais famosos foi quando o programa de xadrez Deep Blue da IBM derrotou o campeão mundial Garry Kasparov em 1997. Essa partida marcou a primeira vez que um computador ganhou de um campeão mundial humano em controles de tempo padrão.
Outro momento importante foi em 2016, quando o AlphaGo do Google DeepMind venceu o jogador profissional de Go Lee Sedol. Essa foi a primeira vez que um computador derrotou um jogador de alto nível sem vantagens. Jogos como pôquer e Dota 2 também foram conquistados pela IA, mostrando suas habilidades crescentes.
Recentemente, modelos como o ChatGPT e o GPT-4 geraram discussões na comunidade de pesquisa. Algumas pessoas acham que esses modelos nos aproximam da inteligência artificial geral (AGI), enquanto outras acreditam que eles estão apenas imitando a linguagem sem entender de verdade. Esses debates nos incentivaram a testar os LLMs e olhar suas limitações em jogar jogos de texto.
Um Estudo de Caso: ChatGPT Jogando Zork
Para investigar mais a fundo, escolhemos testar o ChatGPT com o clássico jogo de texto Zork I. Esse jogo foi lançado nos anos 70 e envolve explorar um mundo subterrâneo fictício em busca de tesouros. Os jogadores dão comandos em texto para se mover entre locais e interagir com objetos. O jogo descreve o que o jogador vê e o que acontece à medida que ele toma decisões.
Nos nossos testes, um jogador humano agiu como um elo entre o ChatGPT e o jogo. O jogador informou o estado atual do jogo para o ChatGPT, pediu que ele realizasse uma ação legal e depois enviou a ação de volta para o jogo.
No começo, o jogo dá uma descrição do ambiente, como estar "a oeste da casa". A partir daí, o jogador pode escolher entre opções como "abrir caixa de correio", "norte", "sul" ou "oeste".
Quando perguntamos ao ChatGPT qual ação tomar, ele sugeriu abrir a caixa de correio, o que foi uma boa escolha. Isso mostrou que o ChatGPT tinha alguma capacidade de entender o jogo. No entanto, nos questionamos se ele já sabia jogar Zork, já que é um jogo bem conhecido.
Quando perguntamos sobre Zork I, o ChatGPT deu uma descrição básica, mas começou a misturar detalhes e criar cenários incorretos quando insistimos para ele fazer um guia completo do jogo. Isso indicou que, embora tivesse alguma compreensão, não pegava totalmente o jogo ou lembrava seus detalhes.
Aprendendo um Modelo de Mundo
Em seguida, queríamos descobrir se o ChatGPT poderia aprender um modelo de mundo lendo o guia correto de Zork. Modelos de Mundo são considerados chave para alcançar uma inteligência parecida com a humana.
Começamos alimentando o guia para o ChatGPT e pedimos que ele desenhasse um mapa do jogo com base nas informações. O ChatGPT se desculpou por não conseguir criar um mapa visual, mas se ofereceu para ajudar a acompanhar informações durante o jogo.
Conforme compartilhávamos mais detalhes sobre o jogo, começamos a fazer perguntas sobre as localizações e possíveis movimentos. Inicialmente, ele respondeu algumas perguntas corretamente. Para perguntas de um passo só, ele se saiu razoavelmente bem, mas quando era sobre perguntas mais complexas, de múltiplos passos, ele teve dificuldades.
Por exemplo, quando perguntamos sobre como chegar a destinos com base no mapa, ele muitas vezes se baseava em memorização simples ao invés de entender o layout do jogo.
Inferindo Metas
Também testamos se o ChatGPT conseguia inferir metas enquanto jogava. Em jogos, uma meta pode ser qualquer coisa, desde coletar tesouros até resolver quebra-cabeças. Os humanos geralmente descobrem essas metas facilmente enquanto exploram o jogo.
Quando perguntamos qual era a meta atual durante o jogo, o ChatGPT frequentemente fornecia ações imediatas em vez do objetivo mais amplo. Por exemplo, ele poderia sugerir examinar um objeto ao invés de dizer que o objetivo final é explorar e coletar itens.
Curiosamente, o ChatGPT achou difícil criar ideias significativas para metas à medida que o jogo avançava. Em muitas ocasiões, suas respostas eram mais sobre ações imediatas do que sobre o todo. Isso mostra uma limitação na sua capacidade de pensar sobre o jogo de forma estratégica.
Zork como um Laboratório
Depois da nossa investigação sobre Zork, ficou claro que esse jogo de texto serve como uma boa maneira de testar LLMs. Eles enfrentam desafios em jogar esse tipo de jogo, que exige melhorias na inteligência para ter sucesso.
Para comparar o ChatGPT com outros sistemas, configuramos para que ele jogasse Zork sob um método de comunicação estruturado, que facilitou as respostas apropriadas do ChatGPT. Nossos testes mostraram que o ChatGPT se saiu razoavelmente bem, mas ainda ficou atrás de sistemas mais avançados que foram especificamente treinados em Zork.
Em um experimento, o ChatGPT marcou 10, semelhante a um sistema básico que usou regras simples sem nenhum treinamento em interações de jogo. Sistemas mais avançados superaram o ChatGPT por uma margem significativa porque tinham a vantagem de ter jogado Zork milhares de vezes.
Mesmo com orientação, o ChatGPT às vezes teve dificuldade em escolher ações válidas e acabava fazendo comentários irrelevantes. No entanto, com lembretes sobre ações anteriores, seu desempenho melhorou um pouco, mas ainda estava longe do ideal.
O Futuro dos LLMs em Jogos de Texto
No geral, nossos testes mostram que, embora o ChatGPT consiga se comunicar bem e até jogar jogos até certo ponto, ele carece de algumas das características centrais da inteligência atualmente. Essas limitações levantam questões sobre o futuro dos LLMs à medida que se tornam maiores e mais avançados.
Como pesquisadores, estamos otimistas sobre o potencial de algumas propriedades de inteligência surgirem em futuros modelos. Estabelecer referências para avaliar essas capacidades ao longo do tempo ajudará a acompanhar os avanços na IA e sua habilidade de jogar jogos complexos.
À medida que os LLMs continuam a crescer, usar jogos de texto como Zork vai continuar sendo um método confiável para avaliar suas habilidades e ajudar no desenvolvimento de sistemas de IA melhores.
Título: Can Large Language Models Play Text Games Well? Current State-of-the-Art and Open Questions
Resumo: Large language models (LLMs) such as ChatGPT and GPT-4 have recently demonstrated their remarkable abilities of communicating with human users. In this technical report, we take an initiative to investigate their capacities of playing text games, in which a player has to understand the environment and respond to situations by having dialogues with the game world. Our experiments show that ChatGPT performs competitively compared to all the existing systems but still exhibits a low level of intelligence. Precisely, ChatGPT can not construct the world model by playing the game or even reading the game manual; it may fail to leverage the world knowledge that it already has; it cannot infer the goal of each step as the game progresses. Our results open up new research questions at the intersection of artificial intelligence, machine learning, and natural language processing.
Autores: Chen Feng Tsai, Xiaochen Zhou, Sierra S. Liu, Jing Li, Mo Yu, Hongyuan Mei
Última atualização: 2023-04-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.02868
Fonte PDF: https://arxiv.org/pdf/2304.02868
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/simple-noprev.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/chatgpt-know-zork.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/chatgpt-say-walkthrough.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/chatgpt-read-walkthrough.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/world-model-questions.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/navigation-questions.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/infer-goals.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/simple-prev.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/guidance-noprev.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/guidance-prev.pdf