言語モデルを使ったAIの戦略的推論の向上
この記事では、言語モデルがゲームにおけるAIの戦略的推論をどう強化するかを探ります。
― 1 分で読む
戦略的推論は、エージェントが協力し合ったり、コミュニケーションを取ったり、異なる状況で競争したりするのを助ける。現在の戦略ゲームをプレイする方法は、広範なトレーニングに依存しているから、新しいゲームに適応するのが難しくなることがある。大規模言語モデル(LLM)は複雑な言語を理解し生成できるから、戦略的なゲームプレイに役立つ。この記事では、LLMを使ってAIエージェントの戦略的推論を改善する方法を紹介する。思考プロセスの例を使うことで、LLMが異なるルールや目的を持つゲームでのインタラクションをよりよく理解できるようにする。
ゲームプレイAIの課題
最近のチェスや囲碁、ポーカーなどのゲームにおけるAIの進展は、模倣学習やプランニングなどの技術が賢いエージェントにつながることを示している。それでも、多くのモデルは新しい状況やルールに直面すると適応が難しい。人間は予期しない変化に簡単に対応できるけど、ほとんどのAIシステムはその柔軟性がない。この論文では、言語モデルが戦略的に推論し、他のプレイヤーの行動を予測する方法を探ることを目指す。
戦略的推論における言語モデルの役割
大規模言語モデルは、さまざまなコンテキスト内での推論において可能性を示している。微妙なアイデアを理解し、異なるタスクに適応することができる。ただ、社会的なコンテキストやインタラクションに関しては信頼性や一貫性に欠けることがある。LLMの推論能力を高めるために、構造化されたプロンプトを使って戦略的意思決定を促すシステムを提案する。この方法で、LLMは状態をナビゲートし、アクションを評価し、他のエージェントの目標についての信念を形成できる。
方法の概要
私たちのシステムは、LLMが戦略的に推論するのを助けるためのプロンプトを生成する構造化されたアプローチを作り出すことを目指している。3つの主要な要素に焦点を当てている:状態とアクションを探すこと、アクションに値を割り当てること、他のエージェントの意図についての信念を追跡すること。私たちのアプローチを示すために、行列ゲームと交渉ゲームの2種類のゲームを検討する。
行列ゲーム
行列ゲームは、プレイヤーが他の選択肢を考慮しながら報酬を最大化することを目指すシンプルなシナリオだ。これらのゲームは、戦略的な状況における合理的な行動を理解するための明確な構造を提供する。プレイヤーの数、利用可能なアクション、関わる報酬など、さまざまな要素を操作できる。
交渉ゲーム
交渉ゲームでは、プレイヤーが異なる価値に基づいてリソースを分割するために協力する。各プレイヤーは自分の取り分を最大化したいけど、他のプレイヤーの好みも考慮しなきゃいけない。交渉ゲームの構造には、プレイヤーが相手のニーズとのバランスを取る必要があるため、独自の課題がある。
戦略的推論のためのプロンプトコンパイラ
私たちは、LLMが戦略的推論を行うための例を生成する「プロンプトコンパイラ」を開発した。このコンパイラは、検索、値の割り当て、信念の追跡を示すデモを作成する。タスクを管理可能なステップに分解することで、LLMは複雑なシナリオを推論できるようになる。
サーチ戦略
戦略的推論の重要な側面は、可能なアクションと結果を探す能力だ。これは、他のプレイヤーがどの選択をするか、そしてその選択がエージェントのアクションにどのように影響するかを探ることを含む。プロンプトを使って潜在的なアクションを概説することで、LLMは目標や相手の目標に基づいて最適な決定を導く検索を行える。
値の割り当て
異なるアクションに値を割り当てることは、LLMが選択肢を評価するのを助ける。これらの値がどのように導出されるかを自然言語で説明することで、モデルの理解を深めることができる。この理解は、新しい目標やゲームの構造に一般化するために重要だ。
信念の追跡
信念の追跡は、他のプレイヤーの意図や価値を彼らの行動に基づいて推定することを含む。情報が隠されているゲームでは、LLMは何が起こっている可能性があるかについての信念を形成しなきゃいけない。このプロセスは、以前のインタラクションからの利用可能な証拠や他の人の行動を慎重に考慮する必要がある。
実験と結果
私たちは、実際の戦略的状況で私たちの方法がどれだけ機能するかを評価するために一連の実験を行った。さまざまな複雑さの行列ゲームと交渉ゲームを使って、モデルが異なる設定で一般化する能力をテストした。
行列ゲーム
行列ゲームの実験では、LLMが新しい報酬や目的に適応できるかに焦点を当てた。ゲームの構造を調整し、モデルが最良のアクションを予測できるかを評価した。
交渉ゲーム
交渉ゲームでは、「ディール・オア・ノーディール」形式を実施し、プレイヤーがアイテムの公正な分割を提案しなきゃいけない。この文脈で、LLMが異なる価値に基づいて公平を達成できるかを評価した。
現実的なシナリオ
制御された実験に加えて、リアルな設定でもアプローチを評価した。人間に似た振る舞いをする交渉エージェントを作成することで、モデルが広範な再トレーニングなしに交渉できるように教え、成功した人間参加者とのインタラクションにつながった。
ユーザー調査
参加者は交渉エージェントとのインタラクションについてフィードバックを提供した。このフィードバックにより、エージェントの行動がどれだけ人間に似ているか、さまざまな交渉コンテキストでの効果について評価できた。
結論
この研究は、言語モデルが他のエージェントについて戦略的に推論するように指導できることを示している。検索、値の割り当て、信念追跡に焦点を当てた構造化されたプロンプトを用いることで、LLMが新しいゲームルールや目的に適応できることを示した。これらのモデルが効果的に交渉できる能力は、広範なトレーニングなしで複雑で現実的なタスクに取り組む可能性を確認する。将来の研究は、これらの洞察を基にして、マルチエージェント環境における言語モデルの柔軟性と信頼性をさらに高めることができる。さまざまな設定を探求し、トレーニング方法を改善することで、AIエージェントが戦略的なインタラクションにおいて人間を支援し、協力するためのより大きな可能性を引き出せる。
タイトル: Strategic Reasoning with Language Models
概要: Strategic reasoning enables agents to cooperate, communicate, and compete with other agents in diverse situations. Existing approaches to solving strategic games rely on extensive training, yielding strategies that do not generalize to new scenarios or games without retraining. Large Language Models (LLMs), with their ability to comprehend and generate complex, context-rich language, could prove powerful as tools for strategic gameplay. This paper introduces an approach that uses pretrained LLMs with few-shot chain-of-thought examples to enable strategic reasoning for AI agents. Our approach uses systematically generated demonstrations of reasoning about states, values, and beliefs to prompt the model. Using extensive variations of simple matrix games, we show that strategies that are derived based on systematically generated prompts generalize almost perfectly to new game structures, alternate objectives, and hidden information. Additionally, we demonstrate our approach can lead to human-like negotiation strategies in realistic scenarios without any extra training or fine-tuning. Our results highlight the ability of LLMs, guided by systematic reasoning demonstrations, to adapt and excel in diverse strategic scenarios.
著者: Kanishk Gandhi, Dorsa Sadigh, Noah D. Goodman
最終更新: 2023-05-30 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.19165
ソースPDF: https://arxiv.org/pdf/2305.19165
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。