Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能# 機械学習

チェーン・オブ・ソート・ハブ:言語モデルにおける推論の評価

大規模言語モデルの多段階推論能力を評価するツール。

― 1 分で読む


言語モデルの推論を評価する言語モデルの推論を評価するール。AIモデルの多段階推論を測定するためのツ
目次

大きな言語モデル(LLM)が進化し続ける中で、どれだけ効果的に機能するかを理解することがますます重要になってきてる。特に複雑な推論が必要なタスクに関してはね。そこで「Chain-of-Thought Hub」っていう、これらのモデルがマルチステップの推論をどれだけ上手く処理できるかを評価するのに役立つ無料のツールを紹介するよ。

なぜ推論に注目するの?

異なるモデルがどうパフォーマンスを発揮するかに興味がある理由は二つ。まず、複雑な推論をこなせる能力が強いモデルと弱いモデルの違いを分けるポイントだってこと。次に、LLMが新しいアプリケーションの基盤として機能すると思ってるから。そうなるためには、言語と論理を組み合わせた複雑なタスクを効果的にこなす必要があるんだ。

アプローチ

LLMが推論タスクでどれくらいのパフォーマンスを発揮しているかを追跡するために、さまざまな難しいベンチマークを集めた。これまでの発見からは、いくつかの重要なポイントが浮かび上がってきてる:

  1. 大きなモデルは推論タスクでより良いパフォーマンスを出す傾向がある。
  2. 2023年5月時点で、Claude-v1.3とPaLM-2の2つのモデルだけがGPT-4と競争力があるが、オープンソースモデルはまだ遅れを取っている。
  3. LLaMA-65Bというオープンソースモデルは、強い別のモデルであるcode-davinci-002と似たようなパフォーマンスを示すことができ、このモデルがさらなる開発で改善する可能性があることを示唆している。

我々の発見は、オープンソースコミュニティがより良いベースモデルを構築し、人間のフィードバックからの強化学習(RLHF)に焦点を当てることでメリットを得られることを示している。

AIの現状

LLMの進展はみんなの注目を集めている。これらのモデルはいろいろなタスクをこなすことができるけど、その評価は依然として課題だ。ベースモデルをチャットボットに調整するのは簡単だけど、さまざまなモデルが深い会話でどうパフォーマンスするかを理解するのはもっと複雑。カジュアルなチャットではモデルが似ているように見えるけど、タスクが複雑になると違いがはっきりしてくる。

パフォーマンスの背後にある理由を評価する

推論能力を見ると、大きなモデル、つまりGPT-4やClaudeが小さなモデルよりも良いパフォーマンスを示すことが目立つ。この推論能力は、さまざまなアプリケーションで役立つツールとしてこれらのモデルが機能するために重要なんだ。

例えば、LangChainは開発者がLLMを使ってアプリケーションを構築する取り組み。このアプリケーションは通常、モデルに複雑なタスクをこなすことを要求する。このビジョンが、LLMの推論能力を測定する努力を促し、Chain-of-Thought Hubを作るきっかけになった。

Chain-of-Thought Hubって?

Chain-of-Thought Hubは、多くの大規模言語モデルの推論能力を追跡する継続的な無料リソース。GPT、Claude、PaLM、LLaMAなどの人気モデルを含め、さまざまなモデルの比較ができる。特定のベンチマークとタスクでのパフォーマンスを評価してるよ。

現在、6つのベンチマークで19の主要モデルからのデータを持っていて、100以上のタスクが含まれてる。これからもどんどんモデルやデータセットを追加していくつもり。

CoT Hubからの重要な観察点

  1. モデルのサイズと推論能力に明確な関連がある。
  2. 2023年5月時点で、PaLMとClaudeだけがGPTモデルファミリーに匹敵するが、少し劣る。
  3. LLaMA-65BはGPT-3.5ファミリーのベースモデルに近い強いパフォーマンスを示していて、成長の可能性を示唆している。

この情報がコミュニティのより良いモデルの開発に役立つことを期待してるよ。

評価のためのデータ収集

テストが効果的であることを保証するために、我々はLLMの実世界での使用を反映した高品質のデータセットを集めることに焦点を当てた。目指すのは、強いモデルと弱いモデルのパフォーマンスの違いを明確に示すデータセットを選ぶこと。

評価には、少数ショットの連鎖思考プロンプティングを使用している。この方法では、他の評価が答えだけのプロンプトに頼るのに対して、モデルにいくつかの例を与えて応答をガイドすることができる。少数ショットのプロンプティングを使うことで、事前学習済みモデルと指示調整されたモデルの両方の能力をより良く評価できる。

他の評価スイートとの比較

LLMのための素晴らしい評価プラットフォームがすでにいくつかある、例えばHeLM、Chatbot Arena、Open LLM Leaderboardなど。我々のハブの違いは、特に推論タスクに焦点を当てているところで、他のプラットフォームはより広範なタスクやユーザーの好みに対応しているかもしれない。

推論能力の測定

評価するほとんどのデータセットは、モデルが最終的な答えに至るまでのさまざまなステップを考え出すことを要求する、数学問題の場合は数字だったり、コーディングタスクの場合は特定の出力だったり。この最終的な答えの正確さに焦点を当てているのは、一般的にモデルが最終的な答えで正しければ、その中間ステップも合理的である傾向があるからなんだ。

モデルパフォーマンスの概要

観察から、GPT、Claude、PaLMのようなトップモデルとLLaMAやFlanT5のようなオープンソースモデルの間にパフォーマンスのギャップがあることに気づいた。トップモデルはしばしばRLHFを経ていて、オープンソースモデルがこの技術を使って向上する機会を示している。

モデルのサイズと推論パフォーマンスの関係も注目に値する。サイズを開示しないモデルは、開示するモデルよりもパフォーマンスが良いことが多く、オープンソースとプロプライエタリモデルの間にはまだ埋めるべきギャップがあることを示している。

LLaMA-65Bの可能性

LLaMA-65Bは、code-davinci-002と比較してタスクで素晴らしい結果を示している。数学のタスクなどいくつかの分野では遅れを取っているものの、他のオープンソースモデルよりはやっぱり良いパフォーマンスを発揮してる。これからの調整次第で、LLaMA-65Bは最終的にChatGPTに近いパフォーマンスレベルに達するかもしれない。

結論と今後の作業

まとめると、我々は大規模言語モデルの推論能力を継続的に測定するためにChain-of-Thought Hubを開発した。発見は、さまざまなモデル間のパフォーマンスの違いを強調していて、オープンソースモデルを強化するための二つの主要な方向性を示している:より良いベースモデルとRLHFに関するさらなる研究。

今後は、常識的な推論や数学問題解決といった側面をカバーする推論データセットをもっと追加していく予定。また、LLaMAや他の指示調整モデルに基づくモデルの評価も検討していくつもり。数学のスキルやAPIコールを必要とするような難しいデータセットに挑戦する方法を探ることも焦点にしていくよ。

我々の作業は、オープンソースLLMの開発を導くことを目指し、人工知能の未来に貢献していくんだ。

オリジナルソース

タイトル: Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance

概要: As large language models (LLMs) are continuously being developed, their evaluation becomes increasingly important yet challenging. This work proposes Chain-of-Thought Hub, an open-source evaluation suite on the multi-step reasoning capabilities of large language models. We are interested in this setting for two reasons: (1) from the behavior of GPT and PaLM model family, we observe that complex reasoning is likely to be a key differentiator between weaker and stronger LLMs; (2) we envisage large language models to become the next-generation computational platform and foster an ecosystem of LLM-based new applications, this naturally requires the foundation models to perform complex tasks that often involve the composition of linguistic and logical operations. Our approach is to compile a suite of challenging reasoning benchmarks to track the progress of LLMs. Our current results show that: (1) model scale clearly correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and PaLM-2 are the only two models that are comparable with GPT-4, while open-sourced models still lag behind; (3) LLaMA-65B performs closely to code-davinci-002, indicating that with successful further development such as reinforcement learning from human feedback (RLHF), it has great potential to be close to GPT-3.5-Turbo. Our results also suggest that for the open-source efforts to catch up, the community may focus more on building better base models and exploring RLHF.

著者: Yao Fu, Litu Ou, Mingyu Chen, Yuhao Wan, Hao Peng, Tushar Khot

最終更新: 2023-05-26 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.17306

ソースPDF: https://arxiv.org/pdf/2305.17306

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事