Treinando Agentes pra Competir no Pommerman
Os agentes aprendem a jogar Pommerman de forma estratégica através de um método de treinamento estruturado.
― 6 min ler
Índice
Pommerman é um jogo onde os jogadores controlam agentes em um ambiente tipo grade. Cada agente começa em um canto do tabuleiro. O jogo é legal porque permite que os jogadores trabalhem em equipe, levando a um jogo estratégico. Os jogadores podem se comunicar com seus colegas, adicionando uma camada extra de cooperação e estratégia.
Desafios no Pommerman
Jogar Pommerman não é simples. Existem vários desafios que os jogadores enfrentam:
Ações Delayed: Quando um agente coloca uma bomba, ela não explode imediatamente. Essa demora exige um timing e planejamento cuidadosos.
Recompensas escassas: Os agentes muitas vezes não recebem feedback sobre suas ações até que o jogo termine, o que dificulta aprender com os erros.
Recompensas Falsas: Às vezes, os agentes conseguem recompensas pelos erros dos outros, não pelas suas próprias ações, o que pode ser confuso.
Visão Limitada: Cada agente só consegue ver uma pequena parte do tabuleiro ao seu redor, o que torna difícil encontrar adversários ou se localizar.
Sistema de Treinamento em Múltiplas Fases
Para ajudar os agentes a aprenderem a jogar Pommerman de forma mais eficaz, foi desenvolvido um sistema de treinamento em duas partes.
1. Aprendizado Gradual
Nesta primeira fase, os agentes aprendem habilidades essenciais aos poucos. A ideia é começar fácil e aumentar a dificuldade passo a passo.
Fase 1: Os agentes praticam com um oponente básico e estacionário. Aqui, eles aprendem a explorar o mapa, coletar itens e destruir barreiras de madeira para criar caminhos.
Fase 2: Os agentes enfrentam um oponente em movimento que não usa bombas. Isso ajuda a desenvolver estratégias para colocar bombas de forma eficaz enquanto evitam ataques.
Fase 3: Por fim, os agentes encontram um oponente mais desafiador que também usa bombas. Essa fase é crucial para aprender estratégias defensivas enquanto tentam eliminar os rivais.
Cada fase continua até que um agente ganhe um número definido de jogos. Uma vez alcançado, eles podem passar para o próximo nível de complexidade.
Auto-jogo
2.Depois de completar o currículo, os agentes entram na fase de auto-jogo, onde enfrentam outros agentes treinados. O objetivo aqui é que os agentes melhorem ainda mais competindo uns contra os outros.
- Um grupo de agentes joga entre si, com os agentes mais fracos sendo substituídos ao longo do tempo por outros mais fortes que se saem melhor nas partidas.
Enfrentando Desafios
Dois desafios principais são enfrentados por meio deste sistema de treinamento:
Recompensas Escassas: Para incentivar a exploração e aprendizado, as recompensas são dadas com base no desempenho. No início, os agentes recebem mais incentivo para explorar ao invés de se concentrar apenas em ganhar. À medida que os agentes melhoram, o foco muda mais para vencer.
Correspondência Eficaz: Um sistema de correspondência é criado para emparelhar os agentes de forma eficaz. Com base no desempenho deles, os agentes mais fortes enfrentam os mais fracos para garantir que aprendam e evoluam.
Treinando os Agentes
Os agentes em Pommerman são treinados usando uma estratégia específica chamada algoritmo ator-crítico, que os ajuda a aprender com suas experiências. O treinamento envolve observar ações e resultados, melhorando gradualmente a tomada de decisões ao longo do tempo.
Dinâmica do Jogo
Em Pommerman, o tabuleiro mede 11 x 11 quadrados, com paredes de madeira criando barreiras. Os agentes podem colocar bombas que explodem depois de um tempo, criando chamas que podem eliminar os adversários. Durante o jogo, os jogadores podem coletar itens que permitem ganhar vantagens, como bombas extras ou maior alcance de explosão.
O jogo tem dois modos principais:
Modo Livre: Cada agente compete contra todos os outros, e o último a ficar de pé vence.
Modo Equipe: Aqui, os agentes são agrupados em duas equipes, trabalhando juntos para eliminar a equipe adversária.
Observando o Estado do Jogo
Cada agente recebe informações sobre seu entorno em um formato específico. Ele usa uma visão menor do tabuleiro (grade de 9 x 9) ao seu redor para tomar decisões. Essa limitação ajuda os agentes a se concentrarem nas ações próximas e reduz as distrações.
Sistema de Recompensa
O objetivo de Pommerman é eliminar os adversários. Os agentes ganham recompensas com base em seu desempenho, calculadas a partir de duas ações principais: explorar o tabuleiro e participar de combates.
Recompensas de Exploração: Dados quando os agentes realizam ações que ajudam a navegar e encontrar os oponentes.
Recompensas de Jogo: Dadas ao final de uma partida com base em se os agentes ganham, perdem ou empatam.
Arquitetura de Rede
Os agentes usam uma configuração específica para seu processo de aprendizado. A estrutura inclui várias camadas que ajudam a processar as informações do jogo, permitindo que os agentes reajam efetivamente às condições de jogo que mudam.
A rede de aprendizado consiste em:
Camadas Convolucionais: Essas ajudam os agentes a analisar o tabuleiro e reconhecer padrões, usando técnicas semelhantes às de processamento de imagem.
Camada de Memória: Uma camada adicional retém informações de ações anteriores, permitindo que os agentes tomem decisões melhores com base em experiências passadas.
Resultados Experimentais
Após o treinamento, os agentes são testados contra outras estratégias conhecidas para medir seu desempenho. Os resultados mostram que os agentes treinados superam muitas estratégias existentes, até mesmo aquelas conhecidas por seu bom desempenho.
Desempenho Contra Outros Agentes
As taxas de vitória são altas contra vários oponentes, incluindo agentes básicos e outras estratégias de aprendizado. Isso indica que o sistema de treinamento desenvolvido não só melhora as habilidades de jogo, mas também capacita os agentes com estratégias competitivas.
Conclusão
Treinar sistemas multi-agente para jogar Pommerman é um processo complexo, mas recompensador. A abordagem dupla de aprendizado gradual seguida de auto-jogo permite que os agentes desenvolvam uma variedade de habilidades aos poucos. Enfrentar desafios como recompensas escassas e correspondência aprimora ainda mais o aprendizado.
Por meio de um treinamento direcionado, os agentes conseguem aprender a se comunicar e cooperar efetivamente em um ambiente competitivo, levando a maiores sucessos no campo de batalha de Pommerman.
Título: Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach
Resumo: Pommerman is a multi-agent environment that has received considerable attention from researchers in recent years. This environment is an ideal benchmark for multi-agent training, providing a battleground for two teams with communication capabilities among allied agents. Pommerman presents significant challenges for model-free reinforcement learning due to delayed action effects, sparse rewards, and false positives, where opponent players can lose due to their own mistakes. This study introduces a system designed to train multi-agent systems to play Pommerman using a combination of curriculum learning and population-based self-play. We also tackle two challenging problems when deploying the multi-agent training system for competitive games: sparse reward and suitable matchmaking mechanism. Specifically, we propose an adaptive annealing factor based on agents' performance to adjust the dense exploration reward during training dynamically. Additionally, we implement a matchmaking mechanism utilizing the Elo rating system to pair agents effectively. Our experimental results demonstrate that our trained agent can outperform top learning agents without requiring communication among allied agents.
Autores: Nhat-Minh Huynh, Hoang-Giang Cao, I-Chen Wu
Última atualização: 2024-06-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.00662
Fonte PDF: https://arxiv.org/pdf/2407.00662
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.