Améliorer le raisonnement stratégique en IA avec des modèles de langage
Cet article explore comment les modèles de langage améliorent le raisonnement stratégique de l'IA dans les jeux.
― 7 min lire
Table des matières
Le Raisonnement stratégique aide les agents à bosser ensemble, communiquer et se battre dans différentes situations. Les méthodes actuelles pour jouer à des jeux stratégiques dépendent d'un entraînement intensif, ce qui peut rendre difficile l'adaptation de ces agents à de nouveaux jeux sans réentraînement. Les grands modèles de langage (LLMs) peuvent comprendre et générer un langage complexe, ce qui les rend utiles pour le gameplay stratégique. Cet article présente une méthode qui utilise les LLMs pour améliorer le raisonnement stratégique des agents d'intelligence artificielle (IA). En utilisant des exemples de processus de pensée, on peut aider les LLMs à mieux comprendre comment interagir dans des jeux avec des règles et des objectifs différents.
Challenges in Game-Playing AI
Les avancées récentes en IA pour des jeux comme les échecs, le Go et le poker ont montré que des techniques comme l'apprentissage par imitation et la planification pouvaient conduire à des agents intelligents. Malgré ça, beaucoup de ces modèles ont du mal à s'adapter face à de nouvelles situations ou règles. Les humains peuvent facilement s'ajuster à des changements inattendus, mais la plupart des systèmes d'IA manquent de cette flexibilité. Cet article vise à explorer comment les modèles de langage peuvent être formés pour raisonner stratégiquement et anticiper les actions des autres joueurs tout en tenant compte des objectifs concurrents.
The Role of Language Models in Strategic Reasoning
Les grands modèles de langage ont montré du potentiel pour raisonner dans divers contextes. Ils peuvent saisir des idées nuancées et s'adapter à différentes tâches. Cependant, ils peuvent aussi avoir du mal avec la fiabilité et la cohérence, surtout quand il s'agit de contextes sociaux et d'interactions. Pour améliorer les capacités de raisonnement des LLMs, on propose un système qui les guide à travers la prise de décision stratégique en utilisant des invites structurées. Cette méthode peut aider les LLMs à naviguer dans les états, évaluer les actions et former des croyances sur les objectifs des autres agents.
Method Overview
Notre système vise à créer une approche structurée pour générer des invites qui aident les LLMs à raisonner stratégiquement. On se concentre sur trois éléments clés : explorer les états et les actions, attribuer des valeurs à ces actions, et suivre les croyances sur les intentions des autres agents. Pour montrer notre approche, on examine deux types de jeux : les jeux matriciels et les jeux de négociation.
Matrix Games
Les jeux matriciels sont des scénarios simples où les joueurs cherchent à maximiser leurs récompenses tout en tenant compte des choix des autres. Ces jeux offrent une structure claire pour comprendre le comportement rationnel dans des situations stratégiques. On peut manipuler divers facteurs dans les jeux matriciels, comme le nombre de joueurs, les actions disponibles et les récompenses impliquées.
Negotiation Games
Les jeux de négociation impliquent des joueurs qui essaient de partager des ressources basées sur des valeurs différentes. Dans ces jeux, chaque joueur veut maximiser sa part, mais doit prendre en compte les préférences de l'autre joueur. La structure des jeux de négociation présente des défis uniques qui nécessitent une réflexion soignée, car les joueurs doivent comprendre comment équilibrer leurs propres besoins avec ceux de leurs adversaires.
Prompt Compiler for Strategic Reasoning
On a développé un "compilateur d'invites" pour générer des exemples qui guident les LLMs dans le raisonnement stratégique. Le compilateur crée des démonstrations qui montrent comment chercher, attribuer des valeurs, et suivre les croyances. En décomposant les tâches en étapes gérables, les LLMs peuvent apprendre à raisonner à travers des scénarios complexes.
Search Strategy
Un aspect clé du raisonnement stratégique est la capacité de rechercher parmi les actions et les résultats possibles. Cela implique d'explorer les choix que d'autres joueurs pourraient faire et comment ces choix pourraient impacter les actions de l'agent. En utilisant des invites qui décrivent des actions potentielles, les LLMs peuvent effectuer des recherches qui mènent à des décisions optimales basées sur leurs objectifs et ceux de leurs adversaires.
Value Assignment
Attribuer des valeurs à différentes actions aide les LLMs à évaluer leurs options. En fournissant des explications en langage naturel sur la manière dont ces valeurs sont dérivées, on peut améliorer la compréhension du modèle. Cette compréhension est cruciale pour généraliser à de nouveaux objectifs et structures dans le jeu.
Belief Tracking
Le suivi des croyances implique d'estimer les intentions et les valeurs des autres joueurs en fonction de leurs actions. Dans les jeux où certaines informations sont cachées, comme les véritables préférences des adversaires, les LLMs doivent apprendre à former des croyances sur ce qui pourrait se passer. Ce processus nécessite une attention particulière aux preuves disponibles des interactions précédentes et aux actions prises par les autres.
Experiments and Results
On a réalisé une série d'expériences pour évaluer à quel point nos méthodes fonctionnent dans des situations stratégiques réelles. En utilisant des jeux matriciels et des jeux de négociation avec diverses complexités, on a testé les capacités des modèles à généraliser à travers différents contextes.
Matrix Games
Dans nos expériences avec des jeux matriciels, on s'est concentré sur la façon dont les LLMs pouvaient s'adapter à de nouvelles récompenses et objectifs. On a ajusté la structure du jeu et évalué à quel point les modèles prédisaient les meilleures actions.
Negotiation Games
Pour les jeux de négociation, on a mis en œuvre le format "Deal or No Deal", où les joueurs doivent proposer des divisions équitables d'objets. Dans ce contexte, on a évalué à quel point les LLMs pouvaient atteindre l'équité basée sur des valeurs différentes tout en suivant les croyances des autres joueurs.
Realistic Scenarios
En plus des expériences contrôlées, on a aussi évalué notre approche dans des settings réalistes, comme la création d'un agent de négociation qui se comporte comme un humain. En utilisant des exemples en contexte, on a appris au modèle à négocier sans avoir besoin d'un réentraînement intensif, menant à des interactions réussies avec des participants humains.
User Studies
Les participants ont donné leur avis sur leurs expériences avec l'agent de négociation. Ce retour nous a permis d'évaluer à quel point le comportement de l'agent était humain, ainsi que son efficacité dans divers contextes de négociation.
Conclusion
Ce travail démontre comment les modèles de langage peuvent être guidés à raisonner stratégiquement sur d'autres agents. En utilisant des invites structurées axées sur la recherche, l'attribution de valeurs et le suivi des croyances, on a montré que les LLMs peuvent s'adapter à de nouvelles règles de jeu et objectifs. La capacité de ces modèles à négocier efficacement confirme leur potentiel pour traiter des tâches complexes du monde réel sans entraînement intensif. Les recherches futures peuvent s'appuyer sur ces insights pour améliorer davantage la flexibilité et la fiabilité des modèles de langage dans des environnements multi-agents. En explorant différents cadres et en améliorant les méthodes d'entraînement, on peut débloquer un potentiel encore plus grand pour les agents d'IA afin d'assister et de collaborer avec les humains dans des interactions stratégiques.
Titre: Strategic Reasoning with Language Models
Résumé: Strategic reasoning enables agents to cooperate, communicate, and compete with other agents in diverse situations. Existing approaches to solving strategic games rely on extensive training, yielding strategies that do not generalize to new scenarios or games without retraining. Large Language Models (LLMs), with their ability to comprehend and generate complex, context-rich language, could prove powerful as tools for strategic gameplay. This paper introduces an approach that uses pretrained LLMs with few-shot chain-of-thought examples to enable strategic reasoning for AI agents. Our approach uses systematically generated demonstrations of reasoning about states, values, and beliefs to prompt the model. Using extensive variations of simple matrix games, we show that strategies that are derived based on systematically generated prompts generalize almost perfectly to new game structures, alternate objectives, and hidden information. Additionally, we demonstrate our approach can lead to human-like negotiation strategies in realistic scenarios without any extra training or fine-tuning. Our results highlight the ability of LLMs, guided by systematic reasoning demonstrations, to adapt and excel in diverse strategic scenarios.
Auteurs: Kanishk Gandhi, Dorsa Sadigh, Noah D. Goodman
Dernière mise à jour: 2023-05-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.19165
Source PDF: https://arxiv.org/pdf/2305.19165
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.