Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能

AI言語モデルの認知限界を調べる

この研究は、LLMの乳児の行動に似た認知タスクのパフォーマンスを調査しているよ。

Pengrui Han, Peiyang Song, Haofei Yu, Jiaxuan You

― 1 分で読む


AI言語モデルと認知エラーAI言語モデルと認知エラータスクに苦しんでいるらしい。研究によると、AIは赤ちゃんのように推論
目次

最近の人工知能の進歩により、人間のような作業を真似る大規模言語モデル(LLM)が開発された。とはいえ、これらのモデルはまだいくつかの分野で限られた認知能力を示している。その一つがA-Not-Bエラーで、これは赤ちゃんに見られる行動だ。この状況では、赤ちゃんはおもちゃが新しい場所に移動したのを見たにもかかわらず、間違った場所で探す。これは、習慣や衝動的な行動を止める能力が限られていることを反映している。

私たちの研究は、LLMがA-Not-Bの状況に似たタスクでどのようにパフォーマンスを発揮するかを調査することを目的としている。テキストベースの質問応答テストを作成して、文脈が少し変わるとLLMが以前の反応パターンに抵抗できるかを調べた。私たちは、最も優れたLLMでさえ、設定が変わると多くの間違いを犯すことを発見した。これは、赤ちゃんがこうした状況で行動するのと似ている。

A-Not-Bエラーとは?

A-Not-Bエラーは認知心理学の古典的な実験だ。このタスクでは、おもちゃがボックスAの下に何度も置かれ、赤ちゃんがそれを見ている。おもちゃがボックスBに移動されると、赤ちゃんはまだボックスAの下を探し、新しい場所でおもちゃがどこにあるのかを理解できない。これは、幼い子供たちが新しい情報に基づいて反応や行動を制御する能力をまだ発達させていないことを示している。

一方で、大人は環境の変化に基づいて行動を適応させることを学んでいる。たとえば、大人はコーヒーマグが移動されたことを覚えていて、新しい場所で探す。こうした抑制的制御の発達は、人間の認知成長における重要なマイルストーンだ。

認知タスクにおけるLLM

大規模言語モデルは、さまざまな認知タスクでの可能性を示している。彼らは人間のようにある程度の推論ができるが、基本的なタスクにはまだ苦労している。たとえば、空間推論や複雑な問題の理解などの分野で失敗することがある。これらの失敗は、LLMが人間と同じレベルの認知スキルを持っていないことを示している。

私たちは、LLMがA-Not-Bエラーを扱えるかを調べた。この概念をテキストベースのフレームワークに適応させ、LLMが赤ちゃんと同じようにテストされる形にした。私たちの主な目標は、LLMが変わる文脈で学習した反応に抵抗できるかを確認することだった。

研究方法

LLMの抑制的制御を研究するために、A-Not-Bエラーに触発されたテストを設計した。モデルに選択肢のある質問を提示し、最初に常に同じ正しい答えを提供することでパターンを確立した。そして、正しい答えが前の答えと異なる質問を出した。このセットアップはA-Not-Bプロンプティングと呼ばれた。

もしLLMが良い抑制的制御を持っていれば、同じ答えを繰り返し示されても正しい答えを選ぶはずだと期待していた。しかし、Geminiのような高度なモデルでも、新しい設定の下で正しく選ぶことができないことが多かった。これは、彼らの推論能力が私たちの期待したほど強くないことを示唆している。

実験からの洞察

実験を通じて、新しい質問が提示されたとき、LLMの正確性が急激に低下するのを観察した。たとえば、文脈が一貫しているときは一部のモデルがうまくいったが、文脈が少し変わると大きく苦しむことが多かった。

LLMは新しい答えに適応する必要があるとき、平均83.3%の正確性の低下を示した。これは、非常に幼い子供たちと同様に、彼らの認知能力に深刻な制限があることを示している。

パフォーマンスに影響を与える要因

いくつかの要因が、LLMのタスクにおけるパフォーマンスに影響を与えた:

  1. モデルのサイズ:大きなモデルは一般的にA-Not-Bプロンプトをよりよく扱うことができた。小さなモデルは、正確性が大きく低下する傾向があった。これは、より多くのパラメータと質を持つことで、LLMが誤ったパターンに抵抗できる可能性が示唆される。

  2. 例の数:提供される例が多ければ多いほど、LLMは新しい正しい答えを認識するのに失敗する可能性が高くなった。これは、Aの答えの強化が彼らにとって反応を切り替えるのを難しくしたことを意味する。

  3. 推論タスクの種類:異なる推論タスクはパフォーマンスにさまざまな影響を与えた。複雑な推論を要するタスクは、A-Not-Bプロンプトを使用するときにより多くのエラーを引き起こす傾向があった。

LLMのエラー分析

私たちの調査では、これらのエラーが発生する理由にも注目した。モデルのサイズやトレーニングデータの質が性能に重要な役割を果たしていることを発見した。大きなモデルは、より良いトレーニングデータを持つことで、A-Not-Bエラーが少なかった。

また、モデルに推論を説明するよう求める自己説明のような戦略でも、問題が完全には解決しなかったことがわかった。モデルはまだエラーを起こしており、彼らの認知プロセスが人間とは根本的に異なるという考えを強化している。

人間とLLMの比較

人間とLLMの違いを理解するために、大学生を対象にした研究を行った。彼らは同じタスクを完了して、A-Not-Bエラーを回避できるかを確認した。私たちの結果は、人間がLLMよりもはるかに優れたパフォーマンスを示し、新しい情報に基づいて反応を制御する強い能力を持っていることを明らかにした。

この比較は、LLMの明確な弱点を強調している。人間は時間とともに学び適応できるが、LLMは少しの変化に直面すると反応を調整するのが苦手だ。

今後の研究への影響

LLMに見られる制限は、さらなる調査の重要な機会を提供する。LLMの抑制的制御を強化する方法を理解することは、彼らの改善や人間の推論との整合性にとって重要かもしれない。

探求に値するいくつかの領域がある:

  1. モデルのトレーニング:モデルが推論能力をより効果的に強化するようなトレーニング方法の開発に焦点を当てたさらなる研究が有益かもしれない。

  2. 異なる分野:さまざまな推論タスクを含むように研究を拡張することで、LLMの能力についてのさらなる洞察が得られる。

  3. エラーへの対処:LLMのA-Not-Bエラーを特定して減少させる方法を見つけることで、実用的なアプリケーションにより信頼性の高いモデルが生まれる可能性がある。

結論

私たちの発見は、LLMが進歩してもなお、認知能力に大きな制限を示していることを明らかにしている。彼らは、学習した反応の抑制を要求されるタスクで苦労しており、まるでA-Not-Bエラーに直面している赤ちゃんのようだ。これらの洞察は、LLMの推論能力を向上させ、さまざまなアプリケーションでより信頼できるものにするための今後の研究の扉を開く。

LLMの改善に向けたさらなる探求を促し、彼らの変化する文脈への適応能力や新しい情報への正確な反応を発展させることに焦点を当てるべきだ。これらのモデルの認知的制限を理解することで、より洗練された信頼できるAIシステムの構築へとつながるだろう。

オリジナルソース

タイトル: In-Context Learning May Not Elicit Trustworthy Reasoning: A-Not-B Errors in Pretrained Language Models

概要: Recent advancements in artificial intelligence have led to the creation of highly capable large language models (LLMs) that can perform tasks in a human-like manner. However, LLMs exhibit only infant-level cognitive abilities in certain areas. One such area is the A-Not-B error, a phenomenon seen in infants where they repeat a previously rewarded behavior despite well-observed changed conditions. This highlights their lack of inhibitory control -- the ability to stop a habitual or impulsive response. In our work, we design a text-based multi-choice QA scenario similar to the A-Not-B experimental settings to systematically test the inhibitory control abilities of LLMs. We found that state-of-the-art LLMs (like Llama3-8b) perform consistently well with in-context learning (ICL) but make errors and show a significant drop of as many as 83.3% in reasoning tasks when the context changes trivially. This suggests that LLMs only have inhibitory control abilities on par with human infants in this regard, often failing to suppress the previously established response pattern during ICL.

著者: Pengrui Han, Peiyang Song, Haofei Yu, Jiaxuan You

最終更新: 2024-09-23 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2409.15454

ソースPDF: https://arxiv.org/pdf/2409.15454

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事

機械学習言語モデルにおける推論時技術の新しいフレームワーク

この記事では、言語モデルの推論時間技術を強化するための新しいフレームワークを紹介します。

Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan

― 1 分で読む