Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Intelligence artificielle

Former des agents dans des environnements 3D complexes

Une étude sur l'alignement des agents dans les jeux 3D pour améliorer leur comportement.

― 7 min lire


Aligner des agents pourAligner des agents pourdes jeux 3Dcomplexes.agents dans des environnements de jeuNouvelles méthodes pour entraîner des
Table des matières

Former des programmes informatiques, appelés agents, pour qu'ils se comportent d'une certaine manière dans des environnements 3D complexes peut être assez difficile. Ces agents recueillent des infos de leur environnement, qui peuvent être déroutants et compliqués. Une approche courante pour enseigner à ces agents est de copier le comportement humain. Cette méthode, appelée Apprentissage par imitation, aide à rendre l'agent sensible dans ses actions. Cependant, un agent formé de cette manière ne fait pas toujours ce qu'on veut vraiment, surtout dans un cadre de jeu réel.

Pour résoudre ce problème, on peut comparer les soucis avec les agents qui apprennent par imitation aux problèmes qu'on trouve dans les grands modèles de langage (LLMs), qui sont des systèmes conçus pour générer du texte. Les LLMs donnent parfois des réponses qui ne sont pas utiles ou appropriées, un peu comme les agents d'apprentissage par imitation qui imitent de mauvais comportements humains. On peut tirer des leçons de la manière dont on aligne les LLMs pour améliorer notre méthode d'Alignement des agents dans un environnement 3D.

Dans notre étude, on s'est concentré sur un aspect d'un jeu vidéo moderne où les joueurs peuvent agir de différentes manières. Notre but était de former l'agent à imiter juste un de ces comportements tout en ignorant les autres. On a découvert qu'on pouvait former l'agent avec succès à réaliser le comportement souhaité de manière constante. Cela incluait le partage de techniques et de conseils pour aider les autres à entraîner des agents de manière similaire.

Aperçu du jeu

Pour notre étude, on a utilisé un jeu vidéo appelé Bleeding Edge, qui est un jeu en équipe 4v4. Les joueurs choisissent parmi différents personnages, chacun ayant des compétences et des capacités uniques. Le jeu se joue en vue à la troisième personne, ce qui signifie que les joueurs voient leur personnage de derrière. L'environnement est réparti sur trois îles avec différents niveaux, et les joueurs doivent naviguer de leur point de départ vers des pads de saut qui les lancent vers d'autres zones.

Objectifs

Quand un jeu commence, les joueurs apparaissent à l'un des plusieurs points de lancement et doivent se rendre à un pad de saut. Selon quel pad de saut ils choisissent, ils atterriront dans différentes zones de l'île principale. Notre but était d'entraîner un agent à atteindre systématiquement un pad de saut spécifique. La tâche prend environ 10 secondes, ce qui en fait un bon test pour nos méthodes d'entraînement.

Entraîner l'agent

Apprentissage par imitation

La première étape de notre processus était de former l'agent en utilisant l'apprentissage par imitation. Cela impliquait d'utiliser un grand ensemble de données de gameplay humain, qui consistait en des milliers d'actions de joueurs individuelles sur de nombreux matchs. En formant l'agent avec ces données, il commence à repérer des schémas de comportement humain dans le jeu.

Ajustement fin

Une fois qu'on avait un agent de base qui pouvait bien performer, il nous fallait le peaufiner. Cela signifiait entraîner l'agent encore plus, mais cette fois avec un plus petit ensemble d'exemples de gameplay réussis qui étaient directement liés au comportement qu'on voulait. On a soigneusement sélectionné ces exemples pour s'assurer qu'ils représentaient les actions souhaitées.

Collecte de données de préférence

Une fois l'agent peaufiné, on l'a déployé dans le jeu pour recueillir des données sur ses actions. C'était similaire à la façon dont les LLMs sont incités à générer différentes réponses. On a généré un ensemble de trajectoires de gameplay que l'agent pouvait suivre, enregistrant ses performances. On a ensuite classé ces actions en fonction de leur succès à atteindre le pad de saut désiré.

Entraînement du Modèle de Récompense

Avec les données de préférence collectées, on a entraîné un modèle de récompense qui aiderait à guider le comportement de l'agent. Ce modèle prédisait les récompenses pour certaines actions en fonction des préférences qu'on avait établies. En utilisant ce modèle, l'agent apprendrait à privilégier les actions qui correspondaient à nos objectifs.

Alignement final

La dernière étape de notre processus était d'aligner l'agent peaufiné avec le modèle de récompense. On a fait tourner l'agent dans l'environnement et, après chaque tentative, on a utilisé le modèle de récompense pour donner du feedback à l'agent. Ce retour a aidé à renforcer les bonnes actions, menant à une performance améliorée au fil du temps.

Résultats et conclusions

Au cours de nos phases d'entraînement, on a démontré que nos méthodes fonctionnaient efficacement. L'agent pouvait atteindre avec succès le pad de saut ciblé de manière constante. On a aussi appris qu'avoir un modèle pré-entraîné faisait une énorme différence dans la performance globale, montrant la valeur d'un entraînement général initial avant le peaufiner sur des tâches spécifiques.

On a encore amélioré l'efficacité en introduisant une phase de peaufiner selon les préférences, qui a amélioré la rapidité avec laquelle l'agent apprenait à atteindre le pad de saut voulu. Quand on a comparé les agents formés avec nos méthodes à ceux formés sans pré-entraînement ou peaufiner, la différence de performance est devenue évidente.

Analyse d'observation

Tout au long du processus d'entraînement, on a fait de nombreuses observations sur le comportement de l'agent. L'agent initial affichait une vaste variété d'actions, capturant de nombreux comportements humains. Cependant, à mesure qu'on peaufinait l'agent, la gamme de comportements est devenue moins diverse, se concentrant davantage sur des routes directes vers les pads de saut. Ce changement montrait que, bien que le peaufiner améliore les performances, cela réduisait aussi la capacité de l'agent à naviguer dans des situations inattendues.

Défis liés au biais directionnel

Un défi intéressant qu'on a rencontré était lié à la direction d'où l'agent s'approchait du pad de saut. En alignant l'agent pour aller vers un pad de saut, on s'est rendu compte qu'il avait plus de mal quand on voulait qu'il aille dans la direction opposée. C'était en partie parce que la plupart des données d'entraînement étaient biaisées vers le pad de saut préféré, entraînant un déséquilibre dans les comportements appris.

Implications pour les travaux futurs

Notre travail démontre non seulement une méthode pour aligner les agents dans les jeux, mais ouvre aussi la porte à des recherches futures. Un domaine à explorer est comment réduire la dépendance à de grands ensembles de données humaines pour l'entraînement. À la place, on pourrait envisager d'utiliser un modèle de base qui a été entraîné sur plusieurs jeux pour fournir une base plus générale.

De plus, bien qu'on ait utilisé des préférences synthétiques, obtenir un retour humain réel pourrait encore améliorer l'entraînement de l'agent. Cependant, faire cela dans des environnements en temps réel peut être coûteux et gourmand en ressources.

Conclusion

Dans notre étude, on a montré avec succès qu'en établissant des parallèles entre l'entraînement des agents et l'alignement des grands modèles de langage, on pouvait créer une méthode qui enseigne efficacement aux agents à se comporter de la manière souhaitée dans des environnements 3D complexes. La combinaison de pré-entraînement, peaufiner, collecte de données de préférence, modélisation de récompense et apprentissage par renforcement en ligne s'est révélée être une approche puissante.

Alors que la communauté des jeux et la technologie AI continuent d'évoluer, nos méthodes pourraient aider à créer des agents plus intelligents et réactifs qui améliorent l'expérience utilisateur dans les jeux et potentiellement d'autres domaines comme la robotique et les simulations virtuelles. On espère que nos découvertes encourageront davantage de collaborations entre ces domaines, permettant un partage des connaissances et des avancées.

Source originale

Titre: Aligning Agents like Large Language Models

Résumé: Training agents to behave as desired in complex 3D environments from high-dimensional sensory information is challenging. Imitation learning from diverse human behavior provides a scalable approach for training an agent with a sensible behavioral prior, but such an agent may not perform the specific behaviors of interest when deployed. To address this issue, we draw an analogy between the undesirable behaviors of imitation learning agents and the unhelpful responses of unaligned large language models (LLMs). We then investigate how the procedure for aligning LLMs can be applied to aligning agents in a 3D environment from pixels. For our analysis, we utilize an academically illustrative part of a modern console game in which the human behavior distribution is multi-modal, but we want our agent to imitate a single mode of this behavior. We demonstrate that we can align our agent to consistently perform the desired mode, while providing insights and advice for successfully applying this approach to training agents. Project webpage at https://adamjelley.github.io/aligning-agents-like-llms .

Auteurs: Adam Jelley, Yuhan Cao, Dave Bignell, Sam Devlin, Tabish Rashid

Dernière mise à jour: 2024-06-06 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.04208

Source PDF: https://arxiv.org/pdf/2406.04208

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires