STARLING : Faire avancer l'apprentissage par renforcement basé sur le texte
STARLING crée des jeux textuels variés pour améliorer les capacités d'apprentissage des agents RL.
― 9 min lire
Table des matières
STARLING est un nouveau système qui vise à améliorer les agents d'Apprentissage par renforcement (RL) basés sur du texte en utilisant de grands modèles de langage. Ces agents sont conçus pour apprendre à partir de jeux textuels, qui sont un type de fiction interactive permettant aux joueurs d'explorer, de prendre des décisions et d'accomplir des tâches en utilisant un langage naturel. Les systèmes actuels pour ce genre de jeux ont souvent du mal à générer des scénarios de jeu diversifiés et complexes, ce qui rend difficile pour les agents de généraliser leurs compétences.
Les jeux de fiction interactive servent de plateforme pour aider les agents RL à améliorer leurs capacités. Dans ces jeux, les joueurs (ou agents) lisent des descriptions de situations et doivent choisir des actions basées sur le texte. Le but est que les agents apprennent à utiliser les compétences qu'ils ont acquises auparavant dans de nouvelles situations. Cependant, de nombreux environnements de jeu existants sont soit trop simples, soit trop centrés sur des tâches spécifiques, ce qui limite les opportunités d'apprentissage.
L'objectif principal de STARLING est de créer automatiquement une large gamme de jeux textuels avec un minimum d'intervention humaine, permettant aux agents RL de pratiquer leurs compétences dans divers scénarios. Ce système utilise des concepts de jeux existants et les combine avec des modèles de langage avancés pour produire de nouvelles expériences de jeu engageantes.
Le défi des jeux de fiction interactive
Les jeux textuels comme Zork demandent aux joueurs d'interagir avec l'environnement à travers le langage. Les joueurs doivent comprendre le texte qui leur est présenté et faire des choix en fonction de cela. La complexité de ces jeux vient du besoin de combiner différentes compétences et actions pour atteindre un but. Pour qu'un agent réussisse, il doit être capable d'appliquer ce qu'il a appris dans des expériences passées à de nouveaux défis.
Un problème avec les environnements de jeux textuels existants est leur portée limitée. Certains systèmes de jeux offrent des tâches simples qui ne nécessitent pas beaucoup de compétences, tandis que d'autres sont trop centrés sur des domaines spécifiques, rendant difficile pour les agents de transférer leur apprentissage à de nouveaux contextes. Créer des jeux divers et engageants à la main peut aussi être un processus long et laborieux, ce qui limite le nombre de scénarios d'entraînement disponibles pour les agents.
Qu'est-ce que STARLING ?
STARLING signifie Formation auto-supervisée d'agents d'apprentissage par renforcement basés sur du texte avec de grands modèles de langage. Il est conçu pour créer un environnement interactif pour les jeux textuels qui permet aux agents RL d'apprendre efficacement. En utilisant des modèles de langage bien connus comme GPT-3, STARLING peut générer une variété de scénarios de jeux sans nécessiter un effort humain extensif.
Ce système commence par utiliser des idées de jeux simples comme graines, à partir desquelles il crée des jeux complexes. Les jeux générés offrent une façon pour les agents de pratiquer des tâches essentielles - comme faire bouillir de l'eau ou cuisiner des pâtes - qui sont pertinentes dans la vie quotidienne. Ces tâches aident les agents à améliorer leurs compétences en les obligeant à suivre des séquences d'actions spécifiques basées sur les exigences du jeu.
Comment fonctionne STARLING
Le système STARLING fonctionne en utilisant une série d'étapes pour concevoir et générer des jeux textuels. Voici un aperçu de la façon dont il procède :
Génération de jeux
- Idées d'entrée : Le processus commence par une liste d'idées de jeux de base qui servent de fondation pour créer de nouveaux jeux.
- Interaction avec le modèle de langage : En utilisant un modèle de langage, comme GPT-3, le système génère du contenu de jeu basé sur ces idées initiales. Le modèle peut produire des récits, des tâches et des règles qui guident le gameplay.
- Structure du jeu : Le contenu généré est organisé en différentes composantes. Cela inclut la mise en place de l'environnement du jeu, la création d'objets, la définition d'actions et l'établissement de systèmes de récompenses pour atteindre les objectifs.
- Création de sortie : Une fois le jeu entièrement conçu, la sortie peut être convertie dans un format spécifique qui permet aux agents de jouer au jeu. Cela se fait via un langage de programmation appelé Inform7, qui est adapté pour créer de la fiction interactive.
Entraînement des agents
- Pré-entraînement : Une fois un ensemble de jeux généré, les agents RL subissent un pré-entraînement. Cela signifie qu'ils jouent à travers les jeux pour apprendre les compétences et actions nécessaires qui les aideront à réussir.
- Évaluation : Après le pré-entraînement, les agents sont testés dans divers environnements. Ces environnements peuvent varier de faciles à difficiles, fournissant différents niveaux de défi basés sur les compétences que les agents ont apprises.
- Métriques de performance : Les agents sont évalués en fonction de leur performance en termes de scores et du nombre d'étapes nécessaires pour accomplir des objectifs. Cela aide à évaluer leur capacité à appliquer les compétences acquises dans des scénarios en temps réel.
Avantages de STARLING
STARLING offre plusieurs avantages par rapport aux méthodes traditionnelles de génération de jeux textuels et d'entraînement des agents RL :
- Création de jeux automatisée : Le système peut produire rapidement et efficacement une gamme diversifiée de jeux sans intervention humaine importante. Cela permet d'économiser du temps et des ressources dans le développement de matériel d'entraînement.
- Développement de compétences : En se concentrant sur des tâches et des compétences du quotidien, STARLING aide les agents à apprendre d'une manière qui imite des scénarios de la vie réelle. Cela conduit à de meilleures performances lorsqu'ils rencontrent des tâches similaires dans des environnements inconnus.
- Opportunités de recherche : Les jeux générés peuvent servir d'outil de recherche pour explorer divers aspects de l'apprentissage par renforcement basé sur du texte. Les chercheurs peuvent étudier comment les agents s'adaptent, tant en termes d'application des compétences que de prise de décision.
- Scalabilité : Le système peut facilement être adapté pour créer des jeux dans de nouveaux domaines, élargissant les types de compétences que les agents peuvent apprendre et appliquer.
Défis et limitations
Malgré ses avantages, STARLING fait face à certains défis :
- Compétences de navigation : Bien que STARLING excelle dans la création de jeux impliquant des tâches simples, il a du mal avec des jeux plus complexes qui nécessitent navigation et planification. Les jeux de pré-entraînement manquent de la complexité nécessaire pour que les agents apprennent efficacement ces compétences.
- Dépendance aux modèles de langage : La sortie des modèles de langage peut ne pas toujours être parfaite. Les erreurs dans la génération de jeux peuvent entraîner des problèmes qui affectent le gameplay. Par conséquent, une certaine supervision humaine est encore nécessaire pour garantir que les jeux soient fonctionnels.
- Complexité limitée des jeux : Les jeux générés peuvent manquer de certains éléments, comme des intrigues profondes et des interactions riches, ce qui peut les rendre moins engageants pour les joueurs.
Applications dans le monde réel
Le développement de STARLING a des implications dans plusieurs domaines :
- Éducation : Les plateformes éducatives pourraient utiliser STARLING pour créer des expériences d'apprentissage interactives. Les étudiants peuvent s'engager avec des tâches sous un format ludique, rendant l'apprentissage plus agréable et efficace.
- Développement de jeux : Les développeurs de jeux peuvent utiliser le système de génération de jeux automatisé de STARLING pour prototyper des idées rapidement, permettant plus d'expérimentation dans la conception de jeux.
- Recherche en intelligence artificielle : Les chercheurs peuvent tirer parti de STARLING pour étudier le comportement de l'IA dans des environnements basés sur du texte, obtenant des insights sur les processus d'apprentissage et de prise de décision.
Directions futures
- Amélioration de la complexité des jeux : Des travaux en cours visent à améliorer la complexité des jeux générés, offrant aux agents l'occasion d'apprendre des compétences plus avancées, surtout celles liées à la navigation et à la planification.
- Améliorations de l'automatisation : Les futures versions de STARLING se concentreront sur la réduction du besoin d'intervention humaine lors de la création de jeux, rendant le processus encore plus fluide.
- Élargissement des ensembles de compétences : En élargissant les types de compétences enseignées à travers les jeux générés, STARLING peut permettre aux agents de relever un plus large éventail de tâches du monde réel.
- Exploration de nouveaux domaines : Les chercheurs et développeurs peuvent utiliser le système pour créer des jeux dans divers domaines, permettant une compréhension plus large de la façon dont les agents peuvent adapter leurs compétences dans différents contextes.
Conclusion
STARLING représente une avancée significative dans l'utilisation des modèles de langage pour créer des environnements de jeu textuels engageants pour former des agents RL. Sa capacité à générer des scénarios de jeu complexes avec un minimum d'intervention humaine fournit un outil précieux pour améliorer la performance des agents. En se concentrant sur des tâches du quotidien et en offrant diverses expériences de jeu, STARLING prépare les agents à appliquer leurs compétences efficacement dans une variété de situations.
Le développement et le perfectionnement continus de STARLING promettent d'en faire une ressource encore plus puissante pour les chercheurs, les développeurs de jeux et les éducateurs. Alors que nous continuons à apprendre des interactions entre les agents et les jeux générés, nous pouvons débloquer de nouvelles possibilités dans le domaine de l'intelligence artificielle et des interactions basées sur du texte.
Titre: STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models
Résumé: Interactive fiction games have emerged as an important application to improve the generalization capabilities of language-based reinforcement learning (RL) agents. Existing environments for interactive fiction games are domain-specific or time-consuming to generate and do not train the RL agents to master a specific set of skills. In this work, we introduce an interactive environment for self-supervised RL, STARLING, for text-based games that bootstraps the text-based RL agents with automatically generated games (based on the seed set of game ideas) to boost the performance and generalization capabilities to reach a goal of the target environment. These games let the agent hone their skills on a predefined set of tasks. We create and test an environment with 100 games, generated using this automated framework that uses large language models (GPT-3) and an interactive fiction game engine (based on Inform7) to provide the user with the ability to generate more games under minimal human supervision. Experimental results based on both the human participants and baseline text-based RL agents reveal that current state-of-the-art text-based RL agents cannot use previously learned skills in new situations at the level humans can. These results enforce STARLING's potential to serve as a sandbox environment for further research in self-supervised text-based RL.
Auteurs: Shreyas Basavatia, Keerthiram Murugesan, Shivam Ratnakar
Dernière mise à jour: 2024-06-09 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.05872
Source PDF: https://arxiv.org/pdf/2406.05872
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.