GPT-4 Enfrenta o DOOM: Uma Nova Fronteira na IA de Jogos
O GPT-4 mostra que consegue interagir com o jogo clássico DOOM.
― 6 min ler
Índice
GPT-4, um modelo de linguagem criado pela OpenAI, consegue jogar o clássico jogo de vídeo DOOM de 1993. Esse modelo é esperto o suficiente pra rodar o jogo com só algumas instruções e olhando capturas de tela do gameplay. Com um pouco de orientação, o GPT-4 consegue abrir portas, lutar contra inimigos e se virar nos níveis.
Embora não jogue tão bem quanto outros sistemas feitos especialmente pra games, isso mostra que modelos de linguagem podem fazer mais do que só entender texto. Eles também conseguem interagir com jogos de vídeo.
Contexto sobre DOOM
DOOM é um jogo de tiro em primeira pessoa onde os jogadores exploram diferentes mapas, lutam contra monstros e coletam itens. O jogo foi lançado em 1993 e tem um estilo gráfico simples que facilita a execução em sistemas. Como o código-fonte tá disponível pra público, os pesquisadores podem fazer experiências com ele usando várias linguagens de programação como Python.
Essa exploração pra ver se o GPT-4 consegue rodar DOOM é importante. Permite que a gente meça quão bem modelos de linguagem podem planejar e tomar decisões em um ambiente de jogo.
Como o GPT-4 Joga DOOM
Pra fazer o GPT-4 jogar DOOM, os pesquisadores montaram um sistema onde uma parte analisa as imagens do jogo (chamada Visão), e outra parte toma decisões com base nessa análise (chamada Agente). A Visão tira fotos do jogo e descreve o que vê. O Agente então usa essas informações pra decidir quais ações tomar no jogo.
Os pesquisadores testaram diferentes abordagens pra ver como o modelo se sairia. Descobriram que, mudando a forma como pediam pro GPT-4 realizar as tarefas, podiam melhorar seu desempenho. Os melhores resultados vieram de instruções mais complexas que envolviam um Planejamento mais profundo.
Resultados do Experimento
Embora o GPT-4 não conseguisse terminar o jogo, ele se saiu razoavelmente bem. Conseguiu se mover entre os cômodos e derrotar alguns inimigos. Os pesquisadores observaram que, enquanto ele conseguia lidar com ações simples, tinha dificuldade com planejamento a longo prazo. Por exemplo, se um inimigo saísse de sua visão, o GPT-4 podia esquecer dele e não reagir da forma certa.
Os pesquisadores também notaram que, usando duas versões do modelo GPT-4, podiam ajudar ele a jogar melhor. Essa abordagem o tornava mais capaz de entender o que tava ao seu redor e executar instruções mais complexas.
Métricas de Desempenho
Pra medir como o GPT-4 jogou, os pesquisadores observaram quanto tempo ele levou pra passar pelos níveis do jogo e quantas vezes morreu. Eles criaram duas métricas principais:
- Tempo Médio em Mapas (TMAM): Isso mede o tempo levado pra completar cada área do jogo.
- TMAM Ponderado por Mortes (TPMAM): Isso também considera a quantidade de mortes durante o jogo.
Quando comparado a jogadores humanos médios, o GPT-4 teve dificuldades, mas ainda mostrou potencial nas suas habilidades. Quanto mais detalhadas as instruções dadas pra ele, melhor ele se saiu.
Estilo de Jogo
Durante o gameplay, o GPT-4 frequentemente seguia as bordas dos cômodos e tinha problemas com a mira. Às vezes ele atirava em paredes ou tomava decisões ruins, como entrar em áreas perigosas. No entanto, os comandos estruturados melhoraram sua habilidade de navegar pelo jogo, derrotar inimigos e encontrar itens.
A habilidade do modelo de planejar e agir com sucesso dependia muito das instruções que recebia e do contexto que tinha das ações anteriores. Os pesquisadores notaram que o modelo às vezes ficava preso ou confuso, mas conseguia eventualmente encontrar uma saída se tivesse tempo suficiente.
Desafios Enfrentados
Apesar do sucesso, o GPT-4 enfrentou muitos desafios enquanto jogava DOOM. Sua falta de memória fazia com que ele esquecesse inimigos que já não estavam visíveis. Isso levou a oportunidades perdidas em combate e resultou em mortes durante o gameplay. As habilidades de planejamento eram limitadas, especialmente para ações mais longas ou estratégias que iam além de alguns movimentos.
O modelo mostrou variabilidade em seus movimentos, o que frequentemente levava a um gameplay inconsistente. Os pesquisadores descobriram que ele cometia erros e às vezes interpretava mal as ações necessárias pra progredir no jogo.
Direções Futuras
Os pesquisadores acreditam que há espaço pra melhorar como modelos de linguagem como o GPT-4 podem jogar videogames. Uma forma de conseguir isso é refinando os comandos usados pra guiar o modelo. Instruções melhores poderiam ajudar ele a aprender com suas experiências de gameplay e melhorar suas habilidades de tomada de decisão.
O trabalho destacou a necessidade de um desempenho melhor em tarefas de planejamento e raciocínio ao usar modelos de linguagem em jogos. Pode haver valor em usar modelos menores que podem ser ajustados pra resultados melhores, já que o GPT-4 não pode ser treinado mais no momento.
Considerações Éticas
A habilidade do GPT-4 de interagir com um jogo como DOOM levanta questões éticas sobre o potencial uso indevido dessa tecnologia. O fato de que um modelo de linguagem pode aprender a operar dentro de um jogo de tiro em primeira pessoa sugere que capacidades semelhantes poderiam ser aplicadas em contextos mais sérios. Isso pede uma consideração cuidadosa e regulamentação sobre como esses modelos são desenvolvidos e usados.
Conclusão
Em resumo, o GPT-4 mostrou que consegue interagir com DOOM de forma eficaz, mesmo que não consiga completar o jogo. Sua habilidade de entender e agir dentro de um ambiente de jogo abre novas possibilidades pra desenvolver Agentes inteligentes em videogames. As descobertas dessa pesquisa podem contribuir pra modelos melhor projetados no futuro, com a esperança de criar sistemas que consigam aprender e jogar jogos como os humanos. No entanto, as limitações e implicações éticas dessas tecnologias precisam ser consideradas enquanto o campo da IA continua avançando.
Título: Will GPT-4 Run DOOM?
Resumo: We show that GPT-4's reasoning and planning capabilities extend to the 1993 first-person shooter Doom. This large language model (LLM) is able to run and play the game with only a few instructions, plus a textual description--generated by the model itself from screenshots--about the state of the game being observed. We find that GPT-4 can play the game to a passable degree: it is able to manipulate doors, combat enemies, and perform pathing. More complex prompting strategies involving multiple model calls provide better results. While further work is required to enable the LLM to play the game as well as its classical, reinforcement learning-based counterparts, we note that GPT-4 required no training, leaning instead on its own reasoning and observational capabilities. We hope our work pushes the boundaries on intelligent, LLM-based agents in video games. We conclude by discussing the ethical implications of our work.
Autores: Adrian de Wynter
Última atualização: 2024-03-08 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2403.05468
Fonte PDF: https://arxiv.org/pdf/2403.05468
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.