Sprachagenten in strategischen Spielen analysieren
Eine Studie über das Verhalten von Sprachagenten in einem sozialen Deduktionsspiel.
― 4 min Lesedauer
Inhaltsverzeichnis
Strategische soziale Deduktionsspiele helfen Forschern zu verstehen, wie Sprachmodelle funktionieren, besonders in Bezug auf ihr Verständnis von sozialen Interaktionen. In diesem Papier geht's um ein Spiel, das auf "Among Us" basiert, wo die Spieler als Crewmitglieder auf einem Raumschiff agieren und versuchen, die Betrüger unter sich zu finden. Das Ziel ist es, das Verhalten von Sprachagenten in diesem Setting zu analysieren.
Beschreibung der Spielumgebung
In unserem textbasierten Spiel werden die Spieler entweder als Crewmates oder Impostors zugeteilt. Crewmates müssen Aufgaben erledigen, während sie die Impostors identifizieren, die versuchen, ihre Bemühungen zu sabotieren. Dieses Spiel bietet eine Plattform, um das Verhalten von simulierten Sprachagenten während ihrer Interaktionen zu studieren, damit wir ihre Entscheidungsfähigkeiten bewerten können.
Spielmechanik
Das Spiel beginnt damit, dass die Spieler bestimmte Rollen übernehmen. Crewmates erledigen Aufgaben, während sie versuchen, die Identität der Impostors aufzuklären. Die Impostors arbeiten heimlich daran, Crewmates zu beseitigen, ohne erwischt zu werden. Das Spiel wechselt zwischen zwei Phasen: der Aufgabenphase, in der die Spieler an ihren Aufgaben arbeiten, und der Besprechungsphase, in der sie diskutieren und abstimmen, wen sie für einen Betrüger halten.
Rollen und Verantwortlichkeiten
Jeder Spieler im Spiel hat eine definierte Rolle. Crewmates haben bestimmte Aufgaben zu erledigen und müssen zusammenarbeiten, um die Impostors zu identifizieren. Impostors müssen sich unter die Crewmates mischen, während sie versuchen, diese zu eliminieren. Die Dynamik der Spieler in diesen Rollen schafft Gelegenheit für strategisches Denken und Entscheidungsfindung.
Spielkarte
Die Spielkarte ist so gestaltet, dass sie die Raumschiffumgebung in "Among Us" widerspiegelt, und besteht aus verschiedenen Räumen, in denen die Spieler Aufgaben erledigen und interagieren können. Jeder Raum hat Aufgaben für Crewmates, und die Spieler können Aktionen in nahegelegenen Räumen durch systemgenerierte Hinweise beobachten.
Spielphasen
Das Spiel wechselt zwischen zwei wichtigen Phasen:
Aufgabenphase: Crewmates erledigen Aufgaben, während sie nach Hinweisen auf die Betrüger suchen. Impostors können so tun, als würden sie an Aufgaben arbeiten, oder Crewmates eliminieren.
Besprechungsphase: Wenn ein toter Körper entdeckt wird oder ein Notfallmeeting einberufen wird, diskutieren die Spieler ihre Beobachtungen und stimmen über verdächtige Impostors ab. Diese Phase ist entscheidend für soziale Deduktion und die Umsetzung von Strategien.
Agentenverhalten
Wir erforschen, wie simulierte Sprachagenten im Spiel agieren. Ihre Fähigkeit, vergangene Interaktionen zu erinnern und ihre Strategien anzupassen, ist entscheidend für ihre Leistung. Das Gedächtnis der Agenten spielt eine bedeutende Rolle bei der Entscheidungsfindung, da es ihnen ermöglicht, laufende Situationen zu analysieren und informierte Entscheidungen zu treffen.
Persönlichkeit und Variation
Um vielfältige Verhaltensweisen der Agenten zu fördern, führen wir eine Persönlichkeitskomponente ein. Jeder Agent erhält einen bestimmten Persönlichkeitstyp, der ihre Handlungen und Entscheidungen während des Spiels beeinflusst. Zum Beispiel könnte ein vorsichtiger Agent sich anders verhalten als ein aggressiver.
Leistungsbewertung
Wir bewerten die Leistung der Agenten durch verschiedene Methoden und prüfen, wie gut sie das Spiel verstehen und die festgelegten Regeln befolgen. Diese Bewertung umfasst den Vergleich verschiedener Agentenkonfigurationen und das Verständnis, wie die Persönlichkeit ihr Gameplay beeinflusst.
Kontrollierte Bewertungen
In kontrollierten Bewertungen testen wir das Selbstbewusstsein, das Gedächtnis und die Denkfähigkeiten der Agenten. Indem wir die Agenten nach ihren Rollen, Handlungen und Strategien fragen, messen wir ihr Verständnis der Dynamik des Spiels. Zum Beispiel wollen wir sehen, ob ein Impostor erklären kann, warum er nicht entdeckt wurde, oder wie ein Crewmate seine Verdächtigungen rechtfertigt.
End-to-End Bewertungen
Diese Evaluationsphase betrachtet die Gesamterfolgsraten verschiedener Agenten. Das Testen verschiedener Kombinationen von Rollen und Strategien gibt Einblicke, wie die Agenten unter unterschiedlichen Bedingungen abschneiden. Wir bewerten Variablen wie wie gut sie Aufgaben erledigen und Impostors identifizieren.
Beobachtungen und Einsichten
Aus unseren Experimenten beobachten wir, dass Crewmates in bestimmten Bereichen wie Selbstbewusstsein und Reflexion im Allgemeinen besser abschneiden als Impostors. Das deutet darauf hin, dass es als Crewmate vielleicht ein besseres Verständnis von Rollen und Verantwortlichkeiten im Spiel erfordert. Impostors hingegen benötigen möglicherweise stärkere Planungsfähigkeiten, um im Betrug erfolgreich zu sein.
Sprachanalyse
Die Untersuchung der Gespräche zwischen den Spielern bietet Einblicke in ihr strategisches Denken. Wir kategorisieren die Sprache in verschiedene Kategorien wie Täuschung, Wahrheit und Verdacht. Diese Analyse zeigt, wie die Spieler ihre Absichten und Strategien kommunizieren, was unser Verständnis ihrer Entscheidungsprozesse vertieft.
Fazit
Die Studie zeigt, wie Sprachmodelle in einer komplexen sozialen Deduktionsspielumgebung getestet werden können. Die gewonnenen Erkenntnisse können zukünftige Forschungen leiten, um KI-Systeme für interaktive strategische Szenarien zu verbessern. Unsere Arbeit bietet eine Grundlage für die Erforschung der Fähigkeiten von Sprachmodellen und ihrer potenziellen Anwendungen im Gaming und darüber hinaus.
Titel: AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game
Zusammenfassung: Strategic social deduction games serve as valuable testbeds for evaluating the understanding and inference skills of language models, offering crucial insights into social science, artificial intelligence, and strategic gaming. This paper focuses on creating proxies of human behavior in simulated environments, with Among Us utilized as a tool for studying simulated human behavior. The study introduces a text-based game environment, named AmongAgents, that mirrors the dynamics of Among Us. Players act as crew members aboard a spaceship, tasked with identifying impostors who are sabotaging the ship and eliminating the crew. Within this environment, the behavior of simulated language agents is analyzed. The experiments involve diverse game sequences featuring different configurations of Crewmates and Impostor personality archetypes. Our work demonstrates that state-of-the-art large language models (LLMs) can effectively grasp the game rules and make decisions based on the current context. This work aims to promote further exploration of LLMs in goal-oriented games with incomplete information and complex action spaces, as these settings offer valuable opportunities to assess language model performance in socially driven scenarios.
Autoren: Yizhou Chi, Lingjun Mao, Zineng Tang
Letzte Aktualisierung: 2024-07-24 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.16521
Quell-PDF: https://arxiv.org/pdf/2407.16521
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.