Présentation de Craftax : Un benchmark amélioré pour l'apprentissage par renforcement
Craftax propose un environnement challenging pour tester les algos RL de manière efficace.
― 9 min lire
Table des matières
- L'Importance des Benchmarks
- Craftax-Classic : Une Version Rapide de Crafter
- Craftax : Un Environnement Plus Difficile
- Plusieurs Niveaux
- Mécaniques de Combat
- Une Variété de Créatures
- Potions et Enchantements
- Compétences et Attributs
- Défis de Boss
- Apprentissage par Renforcement dans Craftax
- Espace d'Observation
- Espace d'Action
- Structure des Récompenses
- Cadre d'Évaluation
- Défi Craftax-1B
- Défi Craftax-1M
- Techniques d'Exploration
- Observations de Performance
- Conception d'Environnement Non Supervisée
- Résultats et Découvertes
- Conclusion
- Source originale
- Liens de référence
Les benchmarks sont des outils super importants pour tester et améliorer les algos en apprentissage par renforcement (RL). Ces benchmarks aident les chercheurs à voir comment leurs méthodes fonctionnent. Mais beaucoup de benchmarks existants pour l'apprentissage ouvert demandent soit trop de puissance de calcul, soit sont trop simples pour être vraiment intéressants.
Pour régler ça, on te présente Craftax-Classic, une version plus rapide du benchmark Crafter. C'est construit avec JAX, une bibliothèque de code qui booste les calculs. Avec Craftax-Classic, les chercheurs peuvent faire plein de tests en peu de temps. Par exemple, une méthode appelée PPO peut finir une tâche impliquant 1 milliard d'interactions en moins d'une heure avec un GPU, en atteignant presque toutes les récompenses désirées.
En plus de Craftax-Classic, on te montre le benchmark principal Craftax, qui ajoute plus de complexité aux mécaniques originales de Crafter. Ce nouveau benchmark inclut des idées d'un jeu super difficile appelé NetHack. Craftax demande aux joueurs d’explorer en profondeur, de penser à l'avance, de se souvenir et de s’adapter à de nouvelles situations en découvrant différentes parties du monde. Quand on a testé les méthodes existantes sur Craftax, elles n’ont pas bien marché, montrant que Craftax offre un vrai défi pour les chercheurs avec des ressources limitées.
L'Importance des Benchmarks
Les benchmarks sont clés pour faire avancer l'apprentissage par renforcement. Ils aident les chercheurs à comparer l’efficacité des différents algos. Des exemples de benchmarks réussis incluent des environnements comme l'Arcade Learning Environment pour le RL profond basé sur la valeur, Mujoco pour le contrôle continu, et le StarCraft Multi-Agent Challenge pour le RL multi-agent.
Alors que l'accent se déplace vers la création d'agents plus polyvalents, l'intérêt pour les benchmarks qui montrent des dynamiques ouvertes augmente. Ça inclut des éléments comme la génération procédurale de mondes, le développement de compétences et l'apprentissage au fil du temps. Des benchmarks existants comme MALMO (lié à Minecraft), l'Environnement d'Apprentissage NetHack, MiniHack, et Crafter ont contribué à cette tendance. Cependant, la lenteur de ces environnements les a rendus moins accessibles, limitant leur utilité en recherche.
Avec la montée des environnements basés sur JAX, les chercheurs commencent à reconnaître les avantages des pipelines RL plus rapides et plus efficaces. L’élimination des délais entre le CPU et le GPU, combinée avec une exécution parallèle efficace, permet des expériences qui étaient autrefois impraticables sur des machines standard.
Craftax combine ces deux idées. C'est un environnement basé sur JAX qui tourne beaucoup plus vite que d'autres benchmarks similaires tout en gardant des dynamiques complexes et ouvertes.
Craftax-Classic : Une Version Rapide de Crafter
Craftax-Classic est conçu pour ressembler de près à l'original Crafter mais fonctionne beaucoup plus rapidement. Les mécaniques et les fonctionnalités de Crafter sont préservées, mais des mises à jour techniques améliorent les performances.
Dans ce benchmark, les joueurs explorent un monde généré aléatoirement avec divers terrains et ressources. Ils doivent rassembler des matériaux, fabriquer des outils, gérer des ressources comme la faim et la soif, et combattre des ennemis. Les joueurs gagnent des récompenses en accomplissant des réalisations spécifiques, ce qui encourage l'exploration et l'interaction avec les mécaniques du jeu.
Craftax-Classic permet aux chercheurs de compléter des tests beaucoup plus vite qu'avant. Ça ouvre des opportunités pour mener des expériences plus vastes et rassembler des données en moins de temps.
Craftax : Un Environnement Plus Difficile
Pour créer un défi plus engageant, on a développé l'environnement principal Craftax, qui inclut plein de nouvelles fonctionnalités inspirées de NetHack et du genre Roguelike. Voici quelques aspects notables de Craftax :
Plusieurs Niveaux
Contrairement à Crafter, où les joueurs sont limités à une seule carte, Craftax a neuf niveaux uniques. Chaque niveau offre un ensemble de défis distincts, nécessitant que les joueurs adaptent leurs stratégies à mesure qu'ils avancent dans le jeu. Les joueurs peuvent voyager entre les niveaux en trouvant des échelles, rendant l'exploration essentielle.
Mécaniques de Combat
Le système de combat dans Craftax est plus complexe, avec différents types de dommages et de défense. Les joueurs peuvent fabriquer des armes et armures avancées, utiliser des attaques à distance, et apprendre des sorts. Cette variété encourage les joueurs à développer des stratégies basées sur les ressources qu'ils trouvent.
Une Variété de Créatures
Craftax présente 19 créatures différentes, chacune avec des comportements et faiblesses uniques. Les joueurs doivent apprendre à contrer efficacement différents types d'ennemis, ajoutant de la profondeur et du challenge au jeu.
Potions et Enchantements
À travers les niveaux, les joueurs peuvent trouver des potions qui ont des effets aléatoires à chaque partie. Ça encourage l'expérimentation quand les joueurs découvrent comment ces potions influencent leurs capacités. Les joueurs peuvent aussi améliorer leurs armes et armures avec des gemmes, ajoutant une autre couche de stratégie.
Compétences et Attributs
En progressant, les joueurs gagnent des points d'expérience qui peuvent améliorer leurs compétences. Ces améliorations peuvent changer la manière dont les joueurs abordent les défis, leur permettant d’adapter leurs tactiques à mesure qu'ils apprennent le jeu.
Défis de Boss
À la fin du jeu, les joueurs font face à un combat de boss difficile qui teste leur capacité à appliquer tout ce qu'ils ont appris tout au long de leur parcours. Les joueurs qui réussissent doivent adapter leurs stratégies précédentes pour ce défi final.
Dans l'ensemble, Craftax propose un niveau de difficulté équilibré, présentant un défi significatif tout en restant accessible à ceux qui sont prêts à investir du temps à explorer ses mécaniques.
Apprentissage par Renforcement dans Craftax
Craftax respecte l'interface Gymnax, ce qui facilite l'intégration avec les frameworks existants. L'Espace d'observation est constitué de représentations basées sur des pixels et symboliques, permettant une flexibilité sur la manière dont l'environnement est perçu.
Espace d'Observation
L'espace d'observation fournit une vue des environs du joueur et de ses stats actuelles. Les observations basées sur des pixels sont des images réduites du monde du jeu, tandis que les observations symboliques utilisent des tableaux pour transmettre des informations essentielles sur le statut et l'inventaire du joueur.
Espace d'Action
Les joueurs peuvent effectuer des actions basées sur un ensemble discret d'options, chacune correspondant à des interactions ou mouvements spécifiques dans le jeu. Ce design permet une large gamme de stratégies et d'approches pour résoudre les défis.
Structure des Récompenses
Craftax suit un système de récompense similaire à Crafter, où accomplir des réalisations octroie des points. Les réalisations sont catégorisées par difficulté, encourageant les joueurs à poursuivre des tâches de plus en plus difficiles.
Cadre d'Évaluation
Pour évaluer les performances dans Craftax, on propose deux benchmarks distincts :
Défi Craftax-1B
Ce défi permet un budget de 1 milliard d'interactions dans l'environnement Craftax-Symbolic. L'objectif est d'encourager l'exploration, l'apprentissage continu, et la planification à long terme. C'est conçu pour trouver un équilibre entre fournir assez d'interactions pour une exploration significative tout en restant gérable pour les chercheurs avec des ressources limitées.
Défi Craftax-1M
Ce benchmark permet seulement 1 million d'interactions, testant l'efficacité des échantillons. Bien que les contraintes soient plus strictes, le retour rapide des expériences augmente la vitesse à laquelle les chercheurs peuvent affiner leurs méthodes.
Techniques d'Exploration
Dans nos tests, différentes méthodes d'exploration ont été mises en œuvre en utilisant l'algorithme PPO. Cela incluait des méthodes de base, une curiosité intrinsèque pour encourager l'exploration, et d'autres stratégies visant à améliorer la performance des agents.
Observations de Performance
Les tests initiaux ont révélé que certains méthodes comme PPO et PPO-RNN apprenaient efficacement les réalisations de base, mais peinaient sur des tâches plus difficiles. Étrangement, certaines stratégies d'exploration plus avancées n'ont pas montré d'améliorations significatives, suggérant que la Structure de Récompense de base était suffisante pour les agents qui n'avaient pas besoin de récompenses intrinsèques supplémentaires.
Malgré quelques succès, les agents n'ont généralement pas bien progressé dans les réalisations plus difficiles, indiquant que les défis dans Craftax sont significatifs et nécessitent des avancées supplémentaires dans les techniques RL.
Conception d'Environnement Non Supervisée
En plus des stratégies d'exploration, on a exploré des méthodes de conception d'environnement non supervisée (UED). Ces techniques impliquent de générer des niveaux qui augmentent progressivement en difficulté en fonction des performances des agents.
Résultats et Découvertes
Différentes méthodes UED ont été testées, montrant des succès variés dans la génération d'environnements efficaces pour l'entraînement. Certaines méthodes ont mieux fonctionné que d'autres, avec une priorisation des niveaux basée sur la performance des agents prouvant particulièrement efficace.
Conclusion
Craftax représente un outil précieux pour les chercheurs cherchant à faire avancer le domaine de l'apprentissage par renforcement. En offrant un environnement complexe et engageant avec des tâches difficiles, on espère inspirer davantage d'exploration et d'innovation. Les benchmarks Craftax fournissent des opportunités d'étudier des éléments essentiels du RL comme l'exploration, l'apprentissage au fil du temps, et l'acquisition de compétences.
À l'avenir, on a hâte de voir comment la communauté de recherche utilise Craftax pour repousser les limites de ce qui est possible en apprentissage par renforcement.
Titre: Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning
Résumé: Benchmarks play a crucial role in the development and analysis of reinforcement learning (RL) algorithms. We identify that existing benchmarks used for research into open-ended learning fall into one of two categories. Either they are too slow for meaningful research to be performed without enormous computational resources, like Crafter, NetHack and Minecraft, or they are not complex enough to pose a significant challenge, like Minigrid and Procgen. To remedy this, we first present Craftax-Classic: a ground-up rewrite of Crafter in JAX that runs up to 250x faster than the Python-native original. A run of PPO using 1 billion environment interactions finishes in under an hour using only a single GPU and averages 90% of the optimal reward. To provide a more compelling challenge we present the main Craftax benchmark, a significant extension of the Crafter mechanics with elements inspired from NetHack. Solving Craftax requires deep exploration, long term planning and memory, as well as continual adaptation to novel situations as more of the world is discovered. We show that existing methods including global and episodic exploration, as well as unsupervised environment design fail to make material progress on the benchmark. We believe that Craftax can for the first time allow researchers to experiment in a complex, open-ended environment with limited computational resources.
Auteurs: Michael Matthews, Michael Beukman, Benjamin Ellis, Mikayel Samvelyan, Matthew Jackson, Samuel Coward, Jakob Foerster
Dernière mise à jour: 2024-06-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.16801
Source PDF: https://arxiv.org/pdf/2402.16801
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.