言語モデルにおけるマインド理論の向上
AI言語モデルの社交スキルを向上させる新しい方法を探ってる。
― 1 分で読む
目次
マインド理論(ToM)は、私たちの社会スキルにおいて重要な部分だよ。他の人が何を信じ、何を望み、何を感じているかを考えることができるからね。テクノロジーが進化しても、多くの高度な言語モデルは基本的なToMタスクに苦労してる。つまり、物語や会話の中で異なるキャラクターが何を考えているのかを簡単に理解できないんだ。
単に言語モデルを大きくするだけじゃToMを理解するのに役立たないよ。ToMは複雑で、シンボルや隠れた意味を理解することが必要だからね。代わりに、物語の中の異なるキャラクターの信念を追跡できる新しいアルゴリズムで、これらのモデルを改善できるか探ってみよう。
キャラクターの理解を深める必要性
読書の中で、私たちはしばしばキャラクターが何を信じているのか、そしてその信念が行動にどう影響するのかを理解する必要があるよ。例えば、キャラクターがある物体が1つの場所にあると考えているけど、実際にはそこにない場合、彼らは間違った場所を探すことになる。
私たちのモデル、いわばプラグアンドプレイアプローチは、これらの信念を明確なシンボリック表現を使って追跡できるんだ。これによって、モデルは各キャラクターの周りの世界についての信念に集中できて、読書タスクでより良くて分かりやすい答えを出せるようになる。
言語モデルの以前の制限
既存の言語モデルは基本的な読書タスクには対応できるけど、キャラクターの思考や信念を理解するのは苦手なんだ。特に、新しいタイプの物語に遭遇したり、物語に関する質問が少し変わったりすると、特にそうなる。
多くの以前の試みは、監視された方法に頼っていて、大量のラベル付きデータが必要だったんだ。しかし、現在のToMスキル評価のための読解力テストは非常に簡素で、あまり多くの範囲をカバーしていない。これでは、あまり多才でなく、異なるタイプの物語や質問に直面するとしばしば使い物にならなくなるモデルができてしまう。
新しいアプローチ:シンボリック表現
私たちの方法は、大規模な言語モデルのToM能力を高めるための新しい推論時アプローチを導入するよ。それぞれのキャラクターが何を考えているかの明確なシンボリックなグラフィカル表現を使うんだ。従来の専門的なトレーニングが必要だった学習方法とは異なり、私たちのアプローチは問題を小さな部分に分けて解決するんだ。
物語が与えられると、モデルは各キャラクターの信念のグラフィカルな表現を構築する。次に、物語に関する質問に答えるとき、関連する文をこのグラフから引っ張ってきて、迅速かつ正確な回答を提供できる。この方法は推論プロセスをより明確にし、キャラクターが何を信じているのかを考えるより整理された方法を可能にする。
アプローチの仕組み
信念グラフの構築:最初のステップは、各キャラクターが何を信じているのかを示すグラフを作成すること。物語の各キャラクターやオブジェクトは、グラフのノードとして表され、彼らの関係はエッジとして示される。
信念の更新:物語が進むにつれて、モデルは新しい行動や情報に基づいてキャラクターの信念を更新する。このプロセスは順次行われ、各キャラクターの信念の最新の状態が正確に表現されるようにする。
質問への回答:物語に関する質問がされると、モデルは信念グラフを使って関連情報を見つける。特定の質問に効果的に答えるために、どのキャラクターの視点が必要かを判断できるんだ。
マインド理論の実例
ToMが読解理解でどう機能するかを説明するために、アリスとボブというキャラクターが物体と対話するシンプルな物語を考えてみて。もしアリスが物体がある場所にいると思っているけど、ボブがそれを別の場所に移動させていたら、この違いを理解するのが重要だよ。
例えば、「アリスはその物体をどこで探すの?」という質問があった場合、モデルはアリスが最後に見た場所を探すことを認識しなければならないんだ。これが第一階のToM推論を反映している。
もし質問が「ボブはアリスが何をすると思っているの?」だったら、モデルはアリスの行動についてのボブの信念を認識する必要がある。これは第二階のToM推論の例で、もっと複雑だよ。
評価における頑健性の重要性
私たちの仕事では、モデルが異なるタイプの物語にどれだけうまく対応できるかを確認しているよ。既存の評価方法はしばしば弱いモデルを生み出していて、1つのデータセットからの特定にあまりにも依存しすぎているんだ。私たちの新しい方法はさまざまな物語の種類でうまく機能し、複雑さの範囲を扱いながらも正確な回答を提供できることを示している。
アプローチのテスト
私たちの方法がどれだけ効果的か証明するために、ToMiなどの利用可能なデータセットから異なるタイプの物語を使ってテストを行ったよ。私たちは、言語モデルが新しい方法を使った場合と使わなかった場合のパフォーマンスを測定した。
テストでは、私たちのアプローチを使ったモデルがToMiのオプションだけでトレーニングされたモデルよりもかなり優れていたんだ。例えば、あるモデルは私たちの方法を使ったことで精度が30ポイント以上上がったよ。これは既存の能力に強い強化を与えることを証明している。
既存データセットの潜在的な問題
ToMスキルをテストするための多くの現在のデータセットは、シンプルなシナリオに焦点を当てているんだ。彼らはしばしば、他の人の信念を理解する子供の能力を測るために一般的に使用されるサリー・アンテストを模倣している。でも、こんなふうに物語を作ると、挑戦的な評価に必要な複雑さや深さが限られてしまうんだ。
テストされた多様なインタラクションが不足していて、たくさんのモデルがキャラクターの信念を誤解することにつながっているんだ。モデルのToM理解を向上させるためには、より現実的な相互作用と社会理解の複雑さを示すリッチなデータセットが必要だよ。
将来の方向性
今後、私たちのアプローチは言語モデルのToMを評価する新しい道を開くよ。現実の人間のインタラクションを反映するデータセットを作成する必要がある。いろんな社会的な手がかりや感情を含めることで、モデルが人々の信念や意図の微妙な違いをもっとよく学べるようにできるんだ。
この研究を続けて洗練させる中で、ダイアログシステムやチュータリングプログラムなど、他の領域に私たちの方法を適用できるかも探っていきたいんだ。そこで他人の信念を理解することが効果的なコミュニケーションのために重要だからさ。
結論
私たちの研究結果は、モダンな言語モデルとシンボリック推論を組み合わせて、社会的インタラクションの理解を改善する重要性を強調しているよ。マインド理論は社会理解の基本的な側面であり、この分野のモデル能力を強化することで、より意味のある効果的なAIシステムに繋がる可能性があるんだ。
信念のグラフィカルな表現を使い、キャラクターの推論プロセスに焦点を当てることで、標準的なタスクでうまく機能するだけでなく、現実の多様なシナリオにも適応できるモデルを作ることができる。このアプローチは、人間と効果的にコミュニケーションできるAIの開発に向けた重要なステップを示すものだよ。
タイトル: Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker
概要: Theory of Mind (ToM)$\unicode{x2014}$the ability to reason about the mental states of other people$\unicode{x2014}$is a key element of our social intelligence. Yet, despite their ever more impressive performance, large-scale neural language models still lack basic theory of mind capabilities out-of-the-box. We posit that simply scaling up models will not imbue them with theory of mind due to the inherently symbolic and implicit nature of the phenomenon, and instead investigate an alternative: can we design a decoding-time algorithm that enhances theory of mind of off-the-shelf neural language models without explicit supervision? We present SymbolicToM, a plug-and-play approach to reason about the belief states of multiple characters in reading comprehension tasks via explicit symbolic representation. More concretely, our approach tracks each entity's beliefs, their estimation of other entities' beliefs, and higher-order levels of reasoning, all through graphical representations, allowing for more precise and interpretable reasoning than previous approaches. Empirical results on the well-known ToMi benchmark (Le et al., 2019) demonstrate that SymbolicToM dramatically enhances off-the-shelf neural networks' theory of mind in a zero-shot setting while showing robust out-of-distribution performance compared to supervised baselines. Our work also reveals spurious patterns in existing theory of mind benchmarks, emphasizing the importance of out-of-distribution evaluation and methods that do not overfit a particular dataset.
著者: Melanie Sclar, Sachin Kumar, Peter West, Alane Suhr, Yejin Choi, Yulia Tsvetkov
最終更新: 2023-06-01 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2306.00924
ソースPDF: https://arxiv.org/pdf/2306.00924
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。