Simple Science

La science de pointe expliquée simplement

# Informatique# Systèmes multi-agents# Intelligence artificielle

Former des agents pour concurrencer dans Pommerman

Les agents apprennent à jouer stratégiquement à Pommerman grâce à une méthode d'entraînement bien structurée.

― 6 min lire


Les agents s'affrontentLes agents s'affrontentdans Pommermanpour le gameplay stratégique.Découvre comment les agents sont formés
Table des matières

Pommerman est un jeu où les joueurs contrôlent des agents dans un environnement en grille. Chaque agent commence dans un coin du plateau. Le jeu est intéressant parce qu'il permet aux joueurs de travailler en équipes, ce qui mène à un gameplay stratégique. Les joueurs peuvent communiquer avec leurs coéquipiers, ajoutant une couche de coopération et de stratégie.

Défis dans Pommerman

Jouer à Pommerman c'est pas simple. Il y a plusieurs défis auxquels les joueurs font face :

  1. Actions Retardées : Quand un agent place une bombe, elle n'explose pas tout de suite. Ce délai exige un timing et une planification soignés.

  2. Récompenses Éparses : Les agents ne reçoivent souvent pas de retour sur leurs actions avant la fin du jeu, ce qui rend difficile l'apprentissage des erreurs.

  3. Récompenses Faux Positives : Parfois, les agents peuvent gagner des récompenses par les erreurs des autres, pas par leurs propres actions, ce qui peut être confus.

  4. Vision Limitée : Chaque agent ne peut voir qu'une petite partie du plateau autour de lui, ce qui rend difficile de trouver des adversaires ou de naviguer.

Système de Formation Multistage

Pour aider les agents à apprendre à jouer à Pommerman plus efficacement, un système de formation en deux parties a été développé.

1. Apprentissage Progressif

Dans cette première phase, les agents apprennent des compétences essentielles peu à peu. L'idée est de commencer facile et d'augmenter la difficulté petit à petit.

  • Phase 1 : Les agents s'exercent contre un adversaire basique et immobile. Ici, ils apprennent à explorer la carte, collecter des objets et détruire des barrières en bois pour créer des chemins.

  • Phase 2 : Les agents font face à un adversaire mobile qui n'utilise pas de bombes. Ça les aide à développer des stratégies pour poser des bombes efficacement tout en évitant les attaques.

  • Phase 3 : Enfin, les agents rencontrent un adversaire plus difficile qui utilise aussi des bombes. Cette phase est cruciale pour apprendre des stratégies défensives tout en essayant d'éliminer les rivaux.

Chaque phase se termine quand un agent gagne un certain nombre de parties. Une fois atteint, ils peuvent passer au niveau suivant de complexité.

2. Auto-Jouer

Après avoir terminé le programme, les agents entrent dans la phase d'auto-jouabilité, où ils font face à d'autres agents entraînés. L'objectif ici est que les agents s'améliorent encore en s'affrontant les uns contre les autres.

  • Un groupe d'agents joue les uns contre les autres, avec des agents plus faibles remplacés au fil du temps par des plus forts qui se débrouillent mieux lors des matchs.

Répondre aux Défis

Deux défis principaux sont abordés grâce à ce système de formation :

  1. Récompenses Éparses : Pour encourager l'exploration et l'apprentissage, les récompenses sont basées sur la performance. Au début, les agents reçoivent plus d'encouragements pour explorer plutôt que de juste se concentrer sur la victoire. À mesure que les agents s'améliorent, l'accent se déplace davantage vers la victoire.

  2. Appariement Efficace : Un système de matchmaking est créé pour apparier les agents efficacement. En fonction de leur performance, les agents plus forts affrontent les plus faibles pour s'assurer qu'ils apprennent et évoluent.

Former les Agents

Les agents de Pommerman sont formés en utilisant une stratégie spécifique appelée l'algorithme acteur-critique, qui les aide à apprendre de leurs expériences. La formation implique d'observer les actions et les résultats, améliorant progressivement leur prise de décision avec le temps.

Dynamique du Jeu

Dans Pommerman, le plateau mesure 11 x 11 cases, avec des murs en bois créant des barrières. Les agents peuvent poser des bombes qui explosent après un court délai, créant des flammes qui peuvent éliminer des adversaires. Pendant le jeu, les joueurs peuvent collecter des objets qui leur permettent de gagner des avantages, comme des bombes supplémentaires ou des portées d'explosion améliorées.

Le jeu a deux modes principaux :

  • Mode Chacun Pour Soi : Chaque agent s'affronte, et le dernier debout gagne.

  • Mode Équipe : Ici, les agents sont regroupés en deux équipes, travaillant ensemble pour éliminer l'équipe adverse.

Observer l'État du Jeu

Chaque agent reçoit des infos sur son environnement dans un format spécifique. Il utilise une vue plus petite du plateau (grille 9 x 9) autour de lui pour prendre des décisions. Cette limitation aide les agents à se concentrer sur les actions à proximité et réduit les distractions.

Système de Récompenses

L'objectif de Pommerman est d'éliminer les adversaires. Les agents gagnent des récompenses en fonction de leur performance, calculées à partir de deux actions principales : explorer le plateau et s'engager dans des combats.

  • Récompenses d'Exploration : Données quand les agents effectuent des actions qui les aident à naviguer et à trouver des adversaires.

  • Récompenses de Jeu : Données à la fin d'un match en fonction de si les agents gagnent, perdent ou font match nul.

Architecture du Réseau

Les agents utilisent une configuration spécifique pour leur processus d'apprentissage. La structure comprend plusieurs couches qui aident à traiter les informations du jeu, permettant aux agents de réagir aux conditions changeantes du jeu de manière efficace.

Le réseau d'apprentissage se compose de :

  • Couches Convulsives : Celles-ci aident les agents à analyser le plateau et à reconnaître des motifs, en utilisant des techniques similaires à celles du traitement d'images.

  • Couche Mémoire : Une couche supplémentaire conserve des informations des actions précédentes, permettant aux agents de prendre de meilleures décisions basées sur des expériences passées.

Résultats Expérimentaux

Après formation, les agents sont testés contre d'autres stratégies connues pour mesurer leurs performances. Les résultats montrent que les agents entraînés surpassent de nombreuses stratégies existantes, même celles réputées pour leurs bonnes performances.

Performance Contre D'autres Agents

Les taux de victoire sont élevés contre divers adversaires, y compris des agents basiques et d'autres stratégies d'apprentissage. Cela indique que le système de formation développé améliore non seulement les compétences de jeu mais équipe aussi les agents de stratégies compétitives.

Conclusion

Former des systèmes multi-agents à jouer à Pommerman est un processus complexe mais gratifiant. L'approche double de l'apprentissage progressif suivie de l'auto-jouabilité permet aux agents de développer progressivement une gamme de compétences. S'attaquer aux défis comme les récompenses éparses et le matchmaking améliore encore l'apprentissage.

Grâce à une formation ciblée, les agents peuvent apprendre à communiquer et à coopérer efficacement dans un environnement compétitif, menant finalement à de plus grands succès sur le champ de bataille de Pommerman.

Source originale

Titre: Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach

Résumé: Pommerman is a multi-agent environment that has received considerable attention from researchers in recent years. This environment is an ideal benchmark for multi-agent training, providing a battleground for two teams with communication capabilities among allied agents. Pommerman presents significant challenges for model-free reinforcement learning due to delayed action effects, sparse rewards, and false positives, where opponent players can lose due to their own mistakes. This study introduces a system designed to train multi-agent systems to play Pommerman using a combination of curriculum learning and population-based self-play. We also tackle two challenging problems when deploying the multi-agent training system for competitive games: sparse reward and suitable matchmaking mechanism. Specifically, we propose an adaptive annealing factor based on agents' performance to adjust the dense exploration reward during training dynamically. Additionally, we implement a matchmaking mechanism utilizing the Elo rating system to pair agents effectively. Our experimental results demonstrate that our trained agent can outperform top learning agents without requiring communication among allied agents.

Auteurs: Nhat-Minh Huynh, Hoang-Giang Cao, I-Chen Wu

Dernière mise à jour: 2024-06-30 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.00662

Source PDF: https://arxiv.org/pdf/2407.00662

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires