Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 機械学習# 人工知能# 計算と言語

LLMは基本的な推論タスクで苦しんでるんだ。

最近のテストで、LLMは高いベンチマークスコアを持ってるのに、シンプルな推論で弱点があることがわかったんだ。

― 1 分で読む


LLMは簡単な推論に失敗すLLMは簡単な推論に失敗す陥があるね。言語モデルは基本的な推論能力に明らかな欠
目次

大きな言語モデル(LLM)、例えばGPT-3.5やGPT-4、Claudeなどは、人間のようなテキストを理解したり生成したりする能力が高く評価されてるけど、最近の研究では、基本的な常識を必要とするシンプルな推論タスクに苦労することがあるってわかったんだ。この記事では、これらのモデルをテストするために設計された特定の問題を見て、推論能力の大きな弱点を明らかにするよ。

問題

ここで話してる問題は、こういうふうに設定されてる:

「アリスにはX人の兄弟とY人の姉妹がいます。アリスの兄弟には何人の姉妹がいるでしょうか?」

一見すると、この質問は簡単そうに見えるね。アリスや彼女の兄弟、姉妹が関わるシナリオで、アリスの兄弟が何人の姉妹を持っているかを尋ねてるわけ。これを解決するには、ほとんどの大人や子供が簡単に扱える基本的な推論スキルが必要だよ。

正しい答えは、アリスの姉妹の数、つまりアリスが持っている姉妹の数そのものだ。すべての兄弟姉妹が同じ親を持つからね。

セットアップ:モデルのテスト

現在のLLMがこのシンプルな問題をどれくらいうまく扱えるかを見てみるために、いろんなモデルをテストしたよ。クローズドモデルには、OpenAIのGPT-4やAnthropicのClaudeなどのメインストリームのバージョンを含んでる。オープンソースモデルには、LLaMaやMistralのバリエーションがあったよ。

XとYの値を変えて元の問題の異なるバージョンを作成して、各モデルがさまざまな条件下で質問にどれだけうまく応答できるかを評価したんだ。

結果

テストの結果、ほとんどのモデルがAIW問題に直面したときに驚くべき失敗を示したんだ。多くのモデルが、何度も促しても正しい答えを生成できなかったり、回答を再考するように指示されても苦労してた。

パフォーマンス比較

  1. クローズドモデル:GPT-4のような一部のクローズドモデルは、時々合理的な推論を元に正しい答えを提供してたけど、常にうまくいくわけではなかった。例えば、GPT-4のパフォーマンスは大きく変動してて、正しい答えを提供する時もあればしない時もあったんだ。

  2. オープンソースモデル:LLaMaやMistralのようなオープンソースのモデルは、正しく答えられないことが多かった。これらのモデルは、回答の一貫性が大きく欠けていて、間違った答えや意味のある答えすら出せないことがあったよ。

難しいバージョンの問題

さらにモデルをテストするために、AIW問題のより複雑なバージョンを作成した。この新しい問題には、もっと多くの家族のメンバーが含まれてて、いとこの数も聞いてくる。この新しい問題は、基本的な推論だけでなく、もう少し論理的な推論や計算も必要としたんだ。

この難しい問題をモデルに提示したとき、結果はさらに悪かった。ほとんどのモデルが正しい答えを提供できず、なんとか正しい答えを出したモデルでも、自信過剰な間違った回答を示すことが多かった。

自信過剰と混合

テスト中に気づいた顕著な問題は、モデルの回答に対する自信過剰だった。モデルが間違った回答を生成したときでも、自分の推論に自信を持ってることが多かった。例えば、いくつかのモデルは、自分の論理が正しいとか、問題を正しく分析したと言い張ってたけど、明らかにそうじゃなかった。

この現象は「混合」として知られていて、モデルがもっともらしい感じの推論を提供するけど、最終的には間違ってたり関係ないことになるんだ。この虚偽の自信と誤った推論の性質は、ユーザーを誤解させて、モデルが実際よりも良いパフォーマンスをしていると信じ込ませることがあるよ。

結果の意味

観察された失敗は、現代のLLMの主張されている能力について深刻な疑問を提起するよ。これらのモデルは、さまざまな標準化テストに基づいて高く評価されてるけど、シンプルな推論タスクをこなす能力には疑問があるね。

標準化ベンチマークの役割

テストされた多くのモデルは、標準化された推論ベンチマークで高いスコアを誇ってて、強い推論能力を持っていることを示唆してる。でも、AIW問題でのパフォーマンスの悪さは、これらのベンチマークがモデルの真の推論スキルを十分に測っていないことを示してる。

このギャップは、標準化テストが推論のすべての側面をカバーしていない可能性があることを示唆してる。科学界は、これらのベンチマークがどのように構築されているか、そして何を本当に測っているのかを再評価することが有益かもしれないね。

今後の方向性

AIW問題を通じて特定された限界を考えると、今後の作業は言語モデルの推論能力を向上させることに焦点を当てる必要があるね。

  1. より良いベンチマークの作成:今後のベンチマークは、常識的な推論を必要とするシンプルな日常問題を取り入れるべきだ。このタスクは、そうでなければ気づかれない推論スキルの弱点を明らかにするように設計されるべきだよ。

  2. モデルのトレーニングの改善:事実の暗記よりも推論を重視するトレーニング方法が必要だ。これには、概念の間の関係や論理的なつながりを理解することを促す多様なデータセットを使用することが含まれるよ。

  3. ユーザーフィードバックの取り入れ:今後のLLMのバージョンは、特に複数回の会話でユーザーのやり取りから学ぶメカニズムを持つと良いかもしれないね。

結論

テストされたLLMは、シンプルな問題に直面したときに推論が重大に崩れちゃってる。標準化ベンチマークでの高スコアは、日常的な質問を解決する能力とは相関してないことを示してて、改善のための重要な領域を強調してる。AIの進展が続く中で、これらのモデルの限界と能力を理解することは、彼らの可能性を最大限に引き出したり、実際のアプリケーションでの安全な展開を確保するために重要だよ。

オリジナルソース

タイトル: Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

概要: Large Language Models (LLMs) are often described as being instances of foundation models - that is, models that transfer strongly across various tasks and conditions in few-show or zero-shot manner, while exhibiting scaling laws that predict function improvement when increasing the pre-training scale. These claims of excelling in different functions and tasks rely on measurements taken across various sets of standardized benchmarks showing high scores for such models. We demonstrate here a dramatic breakdown of function and reasoning capabilities of state-of-the-art models trained at the largest available scales which claim strong function, using a simple, short, conventional common sense problem (AIW problem) formulated in concise natural language, easily solvable by humans. The breakdown is dramatic, as models show strong fluctuations across even slight problem variations that should not affect problem solving, also expressing strong overconfidence in the wrong solutions, often backed up by plausible sounding explanation-like confabulations. Various standard interventions in an attempt to get the right solution, like various type of enhanced prompting, or urging the models to reconsider the wrong solutions again by multi step re-evaluation, fail. We take these initial observations to the scientific and technological community to stimulate urgent re-assessment of the claimed capabilities of current generation of LLMs. Such re-assessment also requires common action to create standardized benchmarks that would allow proper detection of such basic reasoning deficits that obviously manage to remain undiscovered by current state-of-the-art evaluation procedures and benchmarks. Code for reproducing experiments in the paper and raw experiments data can be found at https://github.com/LAION-AI/AIW

著者: Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, Jenia Jitsev

最終更新: 2024-07-13 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2406.02061

ソースPDF: https://arxiv.org/pdf/2406.02061

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事