Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータ科学とゲーム理論# 人工知能

大規模言語モデルと人間みたいな意思決定

この研究は、言語モデルが戦略的な状況で人間のように意思決定をするかどうかを調べてるよ。

― 1 分で読む


言語モデルは人間の選択を真言語モデルは人間の選択を真似る思決定を再現するんだって。研究によると、言語モデルは人間のような意
目次

この研究では、大規模言語モデル(LLM)が戦略的な状況で人間に似た選択をするかどうかを見てみるよ。これらのモデルを実際の人々の行動と比較してみたんだ。SolarやMistralというモデルが、囚人のジレンマや旅行者のジレンマといったよく知られた状況で、人間の好みと一致することが分かったよ。また、モデルのサイズがこれらの好みにどう影響するかも見て、大きいモデルは一般的に安定した決定をするのが得意だって分かった。さらに、これらのモデルがどのようにさまざまな要因に基づいて好みをランク付けするかを知る新しい方法も紹介してる。

背景

SolarやMistralみたいなLLMは登場以来、幅広いタスクをこなすのにすごく成功してる。でも、これらのモデルに関する研究は伝統的なテストタスクに偏りがちで、実際に人間のように考えたり行動したりすることに関してはあまり調べられていないんだ。こういう分析は、人間とのインタラクションがあるアプリケーションにLLMを統合するために重要だよ。

例を挙げると、重い箱を持っている人が誰かに助けを求める場面を考えてみて。助ける側は、どのように力を入れるのがベストかを基にすぐに決めるんだ。助けを求める人は、助ける側があまり詳細を必要とせずに良い選択ができることに頼っているよ。

今のところ、ロボットは明確な好みをプログラムされていないと、最適な戦略を選ぶのが難しいんだ。将来的には、LLMを使って人間とロボットのコミュニケーションを改善したいと思っているよ。そうするには、LLMの好みが人間の好みに似ている必要があるんだ。

さらに、人間とのインタラクションが必要なアプリケーションでは、状況が少し変わってもLLMの振る舞いが安定していることが求められる。最近の研究では、いくつかの言語モデルが小さな変化に対して一貫した反応を示さないことがわかっているから、その改善のためにPopulationLMという方法を使ってモデルのグループを作成するんだ。

この論文の目的

この論文の目的は、オープンソースの言語モデルが安定した人間のような好みを示すかどうかを探ることだよ。異なるモデルのグループを作成して、さまざまな状況での意思決定能力をテストするんだ。オープンソースのモデルを使うことで、他の人が私たちの発見を再現できるし、クローズドソースのモデルは予期せぬ変化をすることがあるから、早期の結果が信頼できなくなることもあるんだ。

まず、言語モデルが選択に対して与えられた値に基づいて好みを持っているかを確認するよ。そこから、さらなる検討に値するモデルを見つけて、囚人のジレンマの高リスク版と低リスク版の2つでテストするんだ。そして、異なる罰金サイズでの旅行者のジレンマに関連するシナリオでも評価するよ。

私たちの主な発見は:

  1. SolarとMistralという幾つかのLLMが、人間の決定に似た安定した好みを示すこと。
  2. 小さいモデルは表面的な手掛かりに基づいて選択することが多いこと。
  3. 大きいモデルはそういった表面的情報にあまり頼らないこと。
  4. 安定した好みを示す大きなモデルでも、まだ一貫性がないことがあるということ。
  5. 旅行者のジレンマにおいて、人間が期待される均衡から逸脱する理由を説明する手がかりを得たこと。

研究の一環として、各シナリオのために新しいデータセットを作成し、LLMのグループから好みを特定する方法も紹介したよ。

関連研究

以前の研究では、GPT-3.5やGPT-4を使って囚人のジレンマなどの多数のゲームに取り組んできた。これらのモデルは裏切りに対して厳しい反応を示すが、初めは協力的だったんだ。裏切られると、再度協力する選択をしなくなるってわかったよ。

さらに研究では、GPT-3.5やGPT-4が信念を一貫させるのが難しいため、社会科学実験にはあまり適していないことが示されている。他の研究では、GPT-4やClaudeのようなモデルが誤情報のある社会的ゲームにおいて、複雑な状況で推論するのを助ける方法を利用している。

多くの研究者がゲームでのLLMの振る舞いを調べているけど、私たちの焦点はそれとは違う。私たちの研究は、モデルの好みの安定性と、それが賭けや罰金の変化にどのように影響されるかに特に興味があるんだ。さらに、私はオープンソースモデルだけを使って、クローズドモデルを使った研究よりも好みの測定がより信頼できるようにしているよ。

LLMは価値に基づいた戦略を好むのか?

研究によると、GPT-3.5やGPT-4は高い価値の戦略を好む傾向がある。でも、他のモデルが同様に振る舞うかは不明なんだ。もしモデルが価値に基づいた好みを示すなら、さまざまな状況でその好みがどれくらい信頼できるかを知りたい。だから、LLMは戦略に割り当てられた価値に基づいて好みを持つ傾向があるのかを尋ねるよ。

実験方法

この質問に答えるために、A1、A2、A3という3つの戦略を持つプロンプトを作り、それぞれ5、10、20ポイントの値を割り当てるよ。モデルに一貫した評価単語に基づいて各戦略の確率評価を提供してもらうんだ。さまざまな好みを捉えるために、異なるプロンプトでこれを繰り返して、36のユニークなプロンプトと108のモデルの問い合わせを得るよ。

また、価値に基づいた好みを持つモデルが、ポジティブな評価単語とネガティブな評価単語の両方で一貫性を示すかどうかも評価するんだ。

モデルの好みに対する変動の影響をチェックするために、PopulationLMを使って、アーキテクチャ、サイズ、トレーニングによって異なるモデルのグループを作成するよ。これにより、好みの振る舞いがさまざまなバリエーション間で一貫しているかどうかを評価できる。

最後に、モデルのサイズが価値に基づいた好みにどう影響するか、また小さいモデルが表面的な手掛かりに傾くかを調べるよ。

結果:価値に基づく好み

実験の結果、安定した価値に基づく好みを示すモデルはごくわずかだよ。良好な結果を示したモデルの中では、SolarとMistralが評価確率と戦略価値の間に最も強い相関を示した。GemmaやLlama-2のようなモデルも相関はあったけど、一貫した好みは示さなかったんだ。

モデルのサイズの影響

分析の結果、大きいモデルは高い価値の戦略を好む傾向があることがわかった。モデルのサイズと、価値に基づいた好みを学習する能力との関連があるようだけど、サイズだけではこの能力を保証できないみたいだ。

小さなモデルは表面的な手掛かりに基づいて戦略を決めることが多く、大きなモデルはそういった手掛かりに対する感度が低下する傾向がある。さらに、モデルのグループは基準モデルに比べて表面的なラベルに頼ることが少なくなるようだ。

SolarとMistralはどうして壊れないの?

私たちの研究から、Solarは他のモデルを上回って安定した価値に基づく好みの判断ができていることがわかった。Mistralもそれに続いているね。GemmaやLlama-2のようなモデルも似たような価値に基づく好みを示すが、壊れやすい傾向があって、わずかな変化でパフォーマンスが大きく変わることがある。

これらのモデルのトレーニングの過程が少し手掛かりを提供してくれる。MistralはLlama-2のアーキテクチャを基にして設計されていて、パフォーマンスが向上している。Solarはさらにこれを進めて、層を増やして強力なパフォーマンスを実現しているんだ。

一方で、GemmaはLlama-2よりも多くのトークンでトレーニングされたけど、安定性に関しては苦戦している。私たちは、特に使われた注意メカニズムのようなユニークなトレーニングアプローチがモデルのパフォーマンスに重要な役割を果たしていると仮定しているよ。

LLMは囚人のジレンマで人間のような好みを持つのか?

いくつかのLLMが安定した価値ベースの好みを示しているので、これらの好みが囚人のジレンマのような古典的なゲーム状況における人間の決定を反映しているかどうかを知りたい。囚人のジレンマでは、プレイヤーは協力と裏切りのどちらかを選ぶんだけど、それぞれの選択には特定の結果があるんだ。

以前の研究では、人間は特に賭けが低いと協力を選ぶことが多く、高い賭けでは裏切ることが多いと示されている。

実験方法

これを評価するために、低リスクバージョンと高リスクバージョンの囚人のジレンマを設計して、関連するシナリオにフレームを当てるよ。両方のシナリオのためにプロンプトを作成し、先に説明した反事実プロンプトを使って類似の評価を行うんだ。

結果:囚人のジレンマにおけるLLMの好み

結果として、低リスクのシナリオでは、Solar、Mistral、Llama-2が協力的な戦略を好むことがわかった。ただし、高リスクのシナリオでは、全てのモデルが裏切りを少し好む傾向があるけど、自己利益を完全には受け入れないようだ。

興味深いことに、Gemmaモデルは低リスクのバージョンで好みに不確実性を示した。

全体として、安定したLLMは価値に基づく好みを持っていて、人間の好みに非常に近いことが示された。特に賭けのサイズの影響についてだね。

LLMは旅行者のジレンマで人間のような好みを持つのか?

次に、旅行者のジレンマを見てみるよ。このゲームは、人間がゲーム理論の標準的な予測から外れることが多いことを強調するために設計されているんだ。このシナリオでは、2人の見知らぬ人が同じアイテムを持っていて、壊れたアイテムの補償を請求するときにオーバービディングに対する罰があるんだ。

ナッシュ均衡からの人間の逸脱

ゲーム理論は、合理的なプレイヤーがこの文脈で特定の数字を選ぶと通常提案する。しかし、研究では、人々が予想されるよりも低い値を選ぶことが多いと示されていて、インセンティブが違ったとしても、より協力的な好みを示していることがわかっている。

実験方法

モデルグループを使って再度反事実プロンプトを実施し、異なる罰の条件下でナッシュ均衡に近い引用に焦点を当てるよ。

結果:旅行者のジレンマにおけるLLMの好み

罰の影響を調べると、SolarとMistralは低い罰の場合、2つの選択肢に対して無関心な状態だった。しかし、罰が増えるにつれて、彼らの好みは低い方の値に傾き始めるんだ。

結果から、非壊れやすいモデルで価値に基づいた好みが、旅行者のジレンマにおける罰のサイズに対して感度を示すことがわかった。これは人間の行動でも見られた結果と一致しているよ。

結論

要するに、この研究はLLMが割り当てられた値に基づいて戦略を選ぶ際の好みを評価し、表面的なヒューリスティックスをコントロールしている。私たちは安定した好みとモデルのサイズ、トレーニングトークンの数の関連性を発見した。SolarとMistralは、人間の行動に密接に一致した戦略的好みをモデル化できるので、人間とのインタラクションに関するアプリケーションの強力な候補として浮かび上がっているよ。

この研究は、LLMの戦略的な状況での振る舞いを明るみに出すのに役立つけど、すべてのシナリオが人間のような好みを生むわけではないことも認識している。しかし、ここで得られた洞察は、現実の状況におけるLLMの応用に向けたさらなる研究の道を切り開くものだよ。

今後の研究

今後の研究では、結果に対するフレーミングの潜在的な影響や、好みの関係の非推移性について考慮するべきだね。これらのニュアンスを理解することで、人間のような意思決定を理解する必要があるアプリケーションでのLLMの取り扱いが向上するよ。

最終的には、調査を続けることで、これらのモデルが戦略的な場面でどのように学び、振る舞うかのさらなる複雑さを明らかにできるかもしれない。これが、人間中心の領域への統合に向けた貴重な洞察を提供することになるんだ。

オリジナルソース

タイトル: Do Large Language Models Learn Human-Like Strategic Preferences?

概要: In this paper, we evaluate whether LLMs learn to make human-like preference judgements in strategic scenarios as compared with known empirical results. Solar and Mistral are shown to exhibit stable value-based preference consistent with humans and exhibit human-like preference for cooperation in the prisoner's dilemma (including stake-size effect) and traveler's dilemma (including penalty-size effect). We establish a relationship between model size, value-based preference, and superficiality. Finally, results here show that models tending to be less brittle have relied on sliding window attention suggesting a potential link. Additionally, we contribute a novel method for constructing preference relations from arbitrary LLMs and support for a hypothesis regarding human behavior in the traveler's dilemma.

著者: Jesse Roberts, Kyle Moore, Doug Fisher

最終更新: 2024-10-02 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2404.08710

ソースPDF: https://arxiv.org/pdf/2404.08710

ライセンス: https://creativecommons.org/licenses/by-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事