ChatGPTのテキストゲームでのパフォーマンス評価
クラシックなテキストゲーム「ゾーク」を通してChatGPTの能力をテストすると、重要な限界が見えてくる。
― 1 分で読む
最近、ChatGPTみたいな大規模言語モデル(LLM)が人間ととても上手に会話できることが分かったんだ。でも、テキストゲームをプレイする能力はどうなのか見てみたかったんだ。このゲームでは、プレイヤーが周囲を理解して、テキストを通じてさまざまな状況に反応する必要があるよ。
テストの結果、ChatGPTは古いシステムよりは良いけど、テキストゲームをプレイする時の知能はそれほど高くないことが分かった。例えば、ゲームやそのマニュアルを元に世界モデルを作るのが苦手で、既に持っている知識をうまく使えなかったり、ゲームが進むにつれて各ステップの目標を見つけるのが難しいみたい。
ゲームがAIにとって重要な理由
ゲームは多くの点で現実を反映している。目標を設定したり、決定を下したり、課題を克服したり、世界と対話したりすることが含まれているんだ。こうした類似点から、ゲームは人工知能(AI)の進捗をテストするのに最適なんだ。AIシステムがゲームで人間プレイヤーに対してどう機能するかを比較することで、研究者はこれらのシステムの能力を意味のある形で評価できる。
AIの歴史の中には、ゲームに関連した多くの重要な瞬間があった。最も有名なのは、1997年にIBMのDeep Blueチェスプログラムが世界チャンピオンのガリー・カスパロフに勝ったこと。この試合は、コンピュータが標準タイムコントロールで人間の世界チャンピオンに勝った初めての例なんだ。
もう一つ重要な瞬間は、2016年にGoogle DeepMindのAlphaGoがプロの囲碁プレイヤー李世乭に勝ったこと。これは、コンピュータが何のアドバンテージもなしにトップレベルのプレイヤーを倒した初めてのケースだった。ポーカーやDota 2みたいなゲームもAIによって攻略されて、能力が成長しているのがよく分かるね。
最近、ChatGPTやGPT-4みたいなモデルが研究コミュニティでの議論を引き起こしている。ある人はこれらのモデルが一般的な人工知能(AGI)に近づけると思うし、他の人はただ言語を模倣してるだけで本当の理解はないと思ってる。この議論は私たちにLLMをテストしてテキストゲームでの限界を見ていく動機を与えたんだ。
ケーススタディ:ChatGPTがZorkをプレイする
さらに調べるために、私たちはクラシックなテキストゲームZork IでChatGPTをテストすることにした。これは1970年代にリリースされ、架空の地下世界を探検して宝物を見つけるゲームだよ。プレイヤーはテキストコマンドを使って場所を移動したり、オブジェクトと対話したりするんだ。ゲームはプレイヤーが見るものや決定に基づいて何が起こるかを説明するよ。
テストでは、人間のプレイヤーがChatGPTとゲームの間をつなぐ役割を果たした。プレイヤーはゲームの現在の状態をChatGPTに伝え、合法的なアクションを取るよう頼んで、ChatGPTのアクションをゲームに返したんだ。
最初、ゲームは周囲の説明をしてくれて、例えば「家の西にいる」みたいな感じだ。そこからプレイヤーは「郵便受けを開く」「北に行く」「南に行く」「西に行く」などの選択肢から選べるよ。
ChatGPTにどのアクションを取るべきか聞いたら、郵便受けを開くことを提案してきたけど、これは良い選択だった。これでChatGPTがゲームを理解する能力があることが分かった。ただ、すでにZorkのプレイ方法を知っていたのか疑問だったんだ。このゲームは有名だからね。
Zork Iについて聞くと、ChatGPTは基本的な説明をしてくれたけど、全体のウォークスルーを求めると詳細が混ざったり、間違ったシナリオを作ったりした。これは、少し理解はあるものの、ゲームを完全には把握しておらず、詳細を覚えていないことを示しているね。
世界モデルを学ぶ
次に、ChatGPTがZorkの正しいウォークスルーを読み取って世界モデルを学べるか知りたかった。世界モデルは人間のような知能を達成するための鍵だと考えられている。
まず、ウォークスルーをChatGPTに読み込ませて、情報に基づいてゲームの地図を描くように頼んだ。ChatGPTは視覚的な地図を作れないと謝ったけど、ゲームプレイ中に情報を追跡する手助けをすると提案してきた。
ゲームの詳細を共有するにつれて、場所や可能な動きについてChatGPTに質問し始めた。最初は、いくつかの質問には正しく答えたけど、一歩だけの質問にはまあまあの出来だったけど、もっと複雑な多段階の質問には苦労してた。
例えば、地図に基づいて目的地に到達する方法を尋ねると、しばしばレイアウトを理解するのではなく、簡単な記憶に頼ることが多かった。
目標を推測する
次に、ChatGPTがゲームをプレイする中で目標を推測できるかどうかもテストした。ゲームでは、目標は宝物を集めたり、パズルを解いたりすることがあり得る。人間は通常、ゲームを探検しながらそれらの目標を簡単に見つけるんだ。
ゲーム中に現在の目標を尋ねると、ChatGPTは広い目標よりも即座のアクションを提供することが多かった。例えば、物体を調べることを提案するかもしれないけど、最終的な目標は探検してアイテムを集めることだとは言わないんだ。
興味深いことに、ChatGPTはゲームが進むにつれて意味のある目標を考え出すのが難しかった。多くの場合、その反応は即座のアクションに関するもので、より大きな絵について考える能力には限界があったね。
Zorkをテストベッドとして
Zorkの調査を終えて、このテキストゲームがLLMをテストする良い方法であることが明らかになった。LLMはこうしたゲームをプレイするのが難しくて、成功するためには知能の向上が必要だ。
ChatGPTを他のシステムと比較するために、構造化されたコミュニケーション方法でZorkをプレイするように設定した。これでChatGPTが適切に反応しやすくなった。テストの結果、ChatGPTはまあまあ良いパフォーマンスを示したけど、特にZorkに特化して訓練されたより高度なシステムにはまだ劣っていた。
ある実験では、ChatGPTは10点を獲得したけど、これはゲームのやり取りに関するトレーニングが全くない基本的なシステムと同じスコアだった。より高度なシステムは、Zorkを何千回もプレイしてきたというアドバンテージがあったから、ChatGPTよりも大きく上回った。
ガイドがあっても、ChatGPTは有効なアクションを選ぶのが難しいことがあったり、無関係なコメントをしたりすることもあった。ただ、以前のアクションについて思い出させると、そのパフォーマンスが少し向上したけど、理想的にはまだ遠かったね。
テキストゲームにおけるLLMの未来
全体として、私たちのテストは、ChatGPTがコミュニケーションにおいては上手で、ある程度ゲームもプレイできる一方で、現在の知能のコア機能のいくつかが欠けていることを示している。これらの限界は、LLMの未来について疑問を投げかけているんだ。
研究者として、私たちは将来のモデルにおいて知能の特性が現れる可能性に楽観的だよ。これらの能力を評価するためのベンチマークを確立することで、AIの進歩や複雑なゲームをプレイする能力を追跡するのに役立つだろう。
LLMが成長し続ける中で、Zorkのようなテキストゲームを使うことは、そのスキルを評価したり、より良いAIシステムの開発に役立ったりする信頼できる方法であり続けるだろう。
タイトル: Can Large Language Models Play Text Games Well? Current State-of-the-Art and Open Questions
概要: Large language models (LLMs) such as ChatGPT and GPT-4 have recently demonstrated their remarkable abilities of communicating with human users. In this technical report, we take an initiative to investigate their capacities of playing text games, in which a player has to understand the environment and respond to situations by having dialogues with the game world. Our experiments show that ChatGPT performs competitively compared to all the existing systems but still exhibits a low level of intelligence. Precisely, ChatGPT can not construct the world model by playing the game or even reading the game manual; it may fail to leverage the world knowledge that it already has; it cannot infer the goal of each step as the game progresses. Our results open up new research questions at the intersection of artificial intelligence, machine learning, and natural language processing.
著者: Chen Feng Tsai, Xiaochen Zhou, Sierra S. Liu, Jing Li, Mo Yu, Hongyuan Mei
最終更新: 2023-04-06 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.02868
ソースPDF: https://arxiv.org/pdf/2304.02868
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/simple-noprev.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/chatgpt-know-zork.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/chatgpt-say-walkthrough.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/chatgpt-read-walkthrough.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/world-model-questions.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/navigation-questions.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/infer-goals.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/simple-prev.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/guidance-noprev.pdf
- https://github.com/hongyuanmei/chatgpt-play-zork/blob/main/chats/guidance-prev.pdf