Analyser les agents linguistiques dans les jeux stratégiques
Une étude sur le comportement des agents linguistiques dans un jeu de déduction sociale.
― 5 min lire
Table des matières
- Description de l’environnement de jeu
- Mécanique du jeu
- Rôles et responsabilités
- Carte du jeu
- Phases du jeu
- Comportement des agents
- Personnalité et variation
- Évaluation des performances
- Évaluations contrôlées
- Évaluations de bout en bout
- Observations et insights
- Analyse des discours
- Conclusion
- Source originale
- Liens de référence
Les jeux de déduction sociale stratégiques aident les chercheurs à comprendre comment fonctionnent les modèles de langage, surtout en ce qui concerne leur compréhension des interactions sociales. Ce papier parle d'un jeu basé sur "Among Us," où les joueurs jouent le rôle de membres d'équipage sur un vaisseau spatial, essayant de démasquer les imposteurs parmi eux. Le but est d'analyser comment les agents de langage se comportent dans ce contexte.
Description de l’environnement de jeu
Dans notre jeu textuel, les joueurs se voient assigner des rôles de Crewmates ou d'Impostors. Les Crewmates doivent accomplir des tâches tout en identifiant les Impostors qui cherchent à saboter leurs efforts. Ce jeu offre une plateforme pour étudier le Comportement des agents de langage simulés pendant leurs interactions, ce qui nous permet d’évaluer leurs compétences en prise de décision.
Mécanique du jeu
Le jeu commence avec les joueurs prenant des rôles spécifiques. Les Crewmates accomplissent des tâches tout en essayant de découvrir l'identité des Impostors. Pendant ce temps, les Impostors travaillent discrètement pour éliminer les Crewmates sans se faire attraper. Le jeu alterne entre deux phases : la Phase de Tâche, où les joueurs s’occupent de leurs tâches, et la Phase de Réunion, où ils discutent et votent pour désigner l'imposteur suspect.
Rôles et responsabilités
Chaque joueur a un rôle défini. Les Crewmates ont des tâches spécifiques à accomplir et doivent collaborer pour démasquer les Impostors. Les Impostors doivent se fondre dans la masse tout en éliminant les Crewmates. La dynamique entre ces rôles crée des opportunités pour la réflexion stratégique et la prise de décision.
Carte du jeu
La carte du jeu est conçue pour ressembler à l'environnement du vaisseau spatial dans "Among Us," avec plusieurs pièces où les joueurs peuvent accomplir des tâches et interagir. Chaque pièce a des tâches pour les Crewmates, et les joueurs peuvent observer les actions dans les pièces proches grâce à des messages générés par le système.
Phases du jeu
Le jeu alterne entre deux phases clés :
Phase de Tâches : Les Crewmates accomplissent des tâches tout en cherchant des indices sur les imposteurs. Les Impostors peuvent soit faire semblant de travailler, soit éliminer des Crewmates.
Phase de Réunion : Lorsqu'un corps est découvert ou qu'une réunion d'urgence est convoquée, les joueurs discutent de leurs observations et votent pour les Impostors suspects. Cette phase est cruciale pour la déduction sociale et la mise en œuvre de stratégies.
Comportement des agents
On explore comment les agents de langage simulés agissent dans le jeu. Leur capacité à se souvenir des interactions passées et à adapter leurs stratégies est clé pour leur performance. La mémoire des agents joue un rôle significatif dans la prise de décision, leur permettant d’analyser les situations en cours et de faire des choix éclairés.
Personnalité et variation
Pour encourager des comportements variés chez les agents, on introduit un composant de personnalité. Chaque agent se voit attribuer un type de personnalité spécifique qui influence ses actions et décisions pendant le jeu. Par exemple, un agent prudent peut se comporter différemment qu’un agent plus agressif.
Évaluation des performances
On évalue la performance des agents par divers moyens, en examinant à quel point ils comprennent le jeu et respectent les règles établies. Cette évaluation inclut la comparaison de différentes configurations d'agents et la compréhension de l'impact de la personnalité sur leur jeu.
Évaluations contrôlées
Dans les évaluations contrôlées, on teste la conscience de soi, la mémoire et les capacités de raisonnement des agents. En posant des questions sur leurs rôles, actions et stratégies, on juge leur compréhension des dynamiques du jeu. Par exemple, on veut voir si un Impostor peut expliquer pourquoi il a réussi à passer inaperçu ou comment un Crewmate justifie ses soupçons.
Évaluations de bout en bout
Cette étape d'évaluation se penche sur les taux de succès globaux de différents agents. Tester diverses combinaisons de rôles et de stratégies fournit des aperçus sur la performance des agents sous différentes conditions. On évalue des variables comme la manière dont ils accomplissent des tâches et identifient les imposteurs.
Observations et insights
De nos expériences, on observe que les Crewmates surclassent généralement les Impostors dans certains domaines, comme la conscience de soi et la réflexion. Cela suggère qu'être un Crewmate pourrait nécessiter une meilleure compréhension des rôles et des responsabilités dans le jeu. Les Impostors, quant à eux, pourraient avoir besoin de compétences en planification plus solides pour réussir dans la tromperie.
Analyse des discours
Examiner les conversations entre les joueurs offre des aperçus sur leur réflexion stratégique. On classe le discours en différentes catégories, comme la tromperie, le fait de dire la vérité et le soupçon. Cette analyse révèle comment les joueurs communiquent leurs intentions et stratégies, enrichissant notre compréhension de leurs processus de décision.
Conclusion
L'étude montre comment les modèles de langage peuvent être testés dans un environnement de jeu de déduction sociale complexe. Les insights recueillis peuvent guider les recherches futures pour améliorer les systèmes d'IA pour des scénarios stratégiques interactifs. Notre travail fournit une base pour explorer les capacités des modèles de langage et leurs applications potentielles dans le jeu et au-delà.
Titre: AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game
Résumé: Strategic social deduction games serve as valuable testbeds for evaluating the understanding and inference skills of language models, offering crucial insights into social science, artificial intelligence, and strategic gaming. This paper focuses on creating proxies of human behavior in simulated environments, with Among Us utilized as a tool for studying simulated human behavior. The study introduces a text-based game environment, named AmongAgents, that mirrors the dynamics of Among Us. Players act as crew members aboard a spaceship, tasked with identifying impostors who are sabotaging the ship and eliminating the crew. Within this environment, the behavior of simulated language agents is analyzed. The experiments involve diverse game sequences featuring different configurations of Crewmates and Impostor personality archetypes. Our work demonstrates that state-of-the-art large language models (LLMs) can effectively grasp the game rules and make decisions based on the current context. This work aims to promote further exploration of LLMs in goal-oriented games with incomplete information and complex action spaces, as these settings offer valuable opportunities to assess language model performance in socially driven scenarios.
Auteurs: Yizhou Chi, Lingjun Mao, Zineng Tang
Dernière mise à jour: 2024-07-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.16521
Source PDF: https://arxiv.org/pdf/2407.16521
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.