戦略ゲームにおける言語エージェントの分析
ソーシャルデダクションゲームにおける言語エージェントの行動に関する研究。
― 1 分で読む
目次
戦略的なソーシャルデダクションゲームは、研究者が言語モデルの働きを理解するのに役立つよ、特に社会的なやりとりの理解に関してね。この論文では「Among Us」を基にしたゲームセットアップについて話すんだけど、プレイヤーは宇宙船のクルーメンバーとして行動し、その中にいるインポスターを見つけようとするんだ。目的は、この環境で言語エージェントがどう振る舞うかを分析すること。
ゲーム環境の説明
テキストベースのゲームでは、プレイヤーがクルーメイトかインポスターの役割を割り当てられる。クルーメイトはタスクを遂行しながら、彼らの努力を妨害しようとするインポスターを特定する必要があるんだ。このゲームは、シミュレートされた言語エージェントが相互作用中にどんな行動をとるかを研究するプラットフォームを提供し、彼らの意思決定スキルを評価することができる。
ゲームメカニクス
ゲームはプレイヤーが特定の役割を担うところから始まる。クルーメイトはタスクを完了しながら、インポスターの正体を暴こうとする。一方で、インポスターはこっそりとクルーメイトを排除しようとする。このゲームは、タスクフェーズとミーティングフェーズの二つのフェーズが交互に行われる。タスクフェーズではプレイヤーがタスクに取り組み、ミーティングフェーズでは怪しい相手について話し合い、投票を行う。
役割と責任
各ゲームプレイヤーには定義された役割がある。クルーメイトは特定のタスクを完了し、インポスターを見つけるために協力しなきゃいけない。インポスターはクルーメイトに溶け込む必要があるし、排除しなきゃいけない。この役割のプレイヤーダイナミクスは、戦略的思考や意思決定の機会を生み出すんだ。
ゲームマップ
ゲームマップは「Among Us」の宇宙船環境に似せてデザインされてる。プレイヤーはタスクを完了したり、相互作用したりするための様々な部屋がある。各部屋にはクルーメイトができるタスクがあり、プレイヤーはシステム生成されたプロンプトを通じて近くの部屋での行動を観察できる。
ゲームフェーズ
ゲームは二つの重要なフェーズを交互に行う:
タスクフェーズ:クルーメイトはタスクを完了しながらインポスターに関する手がかりを探す。インポスターはタスクをしているふりをしたり、クルーメイトを排除したりするかも。
ミーティングフェーズ:死体が発見されたり緊急ミーティングが呼ばれた時、プレイヤーは観察したことを話し合い、怪しいインポスターに投票する。このフェーズはソーシャルデダクションと戦略の実装にとって重要なんだ。
エージェントの行動
シミュレートされた言語エージェントがゲーム内でどう行動するかを探るよ。彼らの過去の相互作用を覚えていて、戦略を適応させる能力がパフォーマンスにとって重要なんだ。エージェントの記憶は意思決定に大きな役割を果たし、進行中の状況を分析して情報に基づいた選択をさせる。
パーソナリティとバリエーション
多様なエージェントの行動を促すために、パーソナリティの要素を取り入れたよ。各エージェントには特定のパーソナリティタイプが割り当てられていて、それがゲーム中の行動や意思決定に影響を与えるんだ。例えば、慎重なエージェントはもっと攻撃的なエージェントとは違う行動をするかも。
パフォーマンスの評価
エージェントのパフォーマンスを様々な方法で評価するよ。ゲームの理解度や規則の遵守を見ていく。この評価には異なるエージェントの構成を比較したり、パーソナリティがゲームプレイに与える影響を理解することが含まれるんだ。
コントロール評価
コントロール評価では、エージェントの自己認識、記憶、推論能力をテストする。エージェントに役割や行動、戦略について尋ねて、ゲームのダイナミクスを理解しているかを測るんだ。例えば、インポスターがなぜ見つからなかったかを説明できるか、クルーメイトが自分の疑念をどう正当化するかを知りたい。
エンドツーエンド評価
この評価段階では、異なるエージェントの全体的な成功率を見ていくよ。様々な役割や戦略の組み合わせをテストすることで、エージェントが異なる条件下でどうパフォーマンスを発揮するかを知ることができる。タスクの達成度やインポスターの特定能力などの変数を評価するんだ。
観察と洞察
実験から、クルーメイトが自己認識や反省の面でインポスターよりも一般的に優れていることが分かる。これって、クルーメイトでいることがゲーム内の役割や責任をよりよく理解することを必要とするかもしれないってことを示唆してる。逆に、インポスターは欺瞞に成功するためにはもっと計画力を必要とするかも。
スピーチ分析
プレイヤー間の会話を調査することで、彼らの戦略的思考についての洞察が得られるよ。会話を欺瞞、真実、疑いなどのカテゴリーに分けて分析する。この分析は、プレイヤーが意図や戦略をどのようにコミュニケーションするかを明らかにし、意思決定プロセスの理解を深めることになる。
結論
この研究は、複雑なソーシャルデダクションゲーム環境で言語モデルをテストする方法を示してる。得られた洞察は、インタラクティブな戦略シナリオのためにAIシステムを改善する未来の研究を導くことができるよ。私たちの仕事は、言語モデルの能力やゲームやその先への潜在的な応用を探るための基盤を提供しているんだ。
タイトル: AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game
概要: Strategic social deduction games serve as valuable testbeds for evaluating the understanding and inference skills of language models, offering crucial insights into social science, artificial intelligence, and strategic gaming. This paper focuses on creating proxies of human behavior in simulated environments, with Among Us utilized as a tool for studying simulated human behavior. The study introduces a text-based game environment, named AmongAgents, that mirrors the dynamics of Among Us. Players act as crew members aboard a spaceship, tasked with identifying impostors who are sabotaging the ship and eliminating the crew. Within this environment, the behavior of simulated language agents is analyzed. The experiments involve diverse game sequences featuring different configurations of Crewmates and Impostor personality archetypes. Our work demonstrates that state-of-the-art large language models (LLMs) can effectively grasp the game rules and make decisions based on the current context. This work aims to promote further exploration of LLMs in goal-oriented games with incomplete information and complex action spaces, as these settings offer valuable opportunities to assess language model performance in socially driven scenarios.
著者: Yizhou Chi, Lingjun Mao, Zineng Tang
最終更新: 2024-07-24 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.16521
ソースPDF: https://arxiv.org/pdf/2407.16521
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。