Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 機械学習# 人工知能

サンプルの繰り返しで言語モデルのパフォーマンスを向上させる

推論中にサンプルを増やすと、言語モデルの問題解決率がかなり上がるよ。

― 1 分で読む


AIの問題解決成功を高めるAIの問題解決成功を高めるよ。ーマンスがいろんなタスクで劇的に向上する繰り返しサンプリングすると、AIのパフォ
目次

最近、巨大な言語モデルのトレーニングが進んで、さまざまなタスクを解決する能力が大幅に向上してる。でも、これらのモデルを使って回答や解決策を生成するとき、だいたい一回しか試せないことが多い。この論文では、推論中に生成されるサンプルの数を増やすことで、これらのモデルのパフォーマンスがどう改善されるかを調べてる。

推論の計算とサンプリング

ビッグな言語モデルのトレーニングに使われる計算は、彼らをすごく有能にしてる。でも、推論の場合、たいてい一つの解しか生成されない。この論文では、問題ごとに複数のサンプルを生成することで推論をスケールアップできるかを検討してる。サンプルの数を増やすことで、問題解決の可能性がかなり上がることが分かった。

例えば、DeepSeek-V2-Coder-Instructっていうモデルを特定のコーディングタスクに使った場合、解決した問題の割合は、1サンプルだと15.9%から、250サンプルだと56%に跳ね上がる。これは、少ない試行で43%を解決できる現在の最高の方法よりもいい成績だ。

繰り返しサンプリングのコスト効果

DeepSeekみたいなより手頃な選択で5サンプルを使うと、GPT-4oやClaude 3.5 Sonnetのような強力なモデルを使うよりもかなり安く済む。解決できる問題の割合の改善は、複数のサンプルを生成することが効果的でコスト効率も高いことを示してる。250サンプルのアプローチでは、カバレッジを増やすことでいくつかのタスクでパフォーマンスが向上することがわかった。

コーディングや形式証明のタスクでは、すべての回答が自動的に検証できるから、より多くの問題を解決できることで結果が直接的に改善される。

サンプルの影響を探る

モデルをいろんなタスクでテストすると、カバレッジ、つまり生成されたサンプルで解決できる問題の割合が、サンプルの数を増やすとともに増加することがわかる。すべての回答が検証できるシナリオ、例えばユニットテスト付きのコーディングタスクでは、カバレッジを改善するとパフォーマンスも良くなる。

例えば、いくつかのモデルを使って大量のサンプルを与えると、パフォーマンスがどんどん向上する。別のコンテキストでは、数学の文問題に取り組んだ場合、特定のモデルでは10,000サンプルでカバレッジが95%を超える。

解決策の検証の課題

しかし、サンプルから正しい解を選ぶ一般的な方法、例えば多数決や報酬モデルを使うものは、数百のサンプルを超えるとあまりうまくスケールしない。これは、自動的な検証がない分野では特に大きな課題となる。生成された多くの中から正しいサンプルを見つけることは、今後の研究の重要な焦点になる。

いくつかのタスクでは、モデルが正しい最終回答を識別するのに苦労することがあって、解決した問題の数とこれらの回答を選ぶ方法のパフォーマンスの間にギャップが生じる。

実験のセットアップ

この研究では、GSM8KやMATHのようなさまざまな問題に焦点をあてる。サンプルの数を増やすことによってカバレッジが大幅に向上する。各モデルは、問題を解決しようとする際に複数の候補解を生成する。このプロセスの成功は、さまざまな問題に対して正しい回答を生成する能力と、生成された多くのサンプルからその正しい回答を特定する能力に大きく依存する。

自動検証があるタスク、例えばコーディングチャレンジや形式証明を評価すると、カバレッジが直接的に改善されて結果率を向上させる。

実験で使ったモデルにはLlama-3やGemmaモデルが含まれていて、各タスクで繰り返しサンプリングがどのようにカバレッジと問題解決の成功を向上させるかを観察した。

繰り返しサンプリングの結果

すべてのタスクにおいて、生成されるサンプルの数が増えるとカバレッジも上がる。繰り返しサンプリングを使うことで、コーディングタスクの解決率が15.9%から56%に上昇する。サンプルサイズを増やすことで他の数学的問題セットでも似たような効果が見られる。

特に、小さめのモデルでも繰り返しサンプリング手法を適用することでカバレッジが驚くほど向上する。例えば、ある小さめのモデルでは、サンプルの数を1から10,000に増やすだけで特定のタスクで300倍のカバレッジを達成する。

モデルの解が自動的に検証されるシナリオでは、カバレッジの増加がパフォーマンスの向上に直結し、少ない試行でより強力なモデルを上回ることができる。

スケーリングの財務面

繰り返しサンプリングのコスト効果も目立つ。推論のFLOPs数を一定に保ちながら、異なるモデルがカバレッジをより効率的に最大化するか、タスクに応じてより良い結果を出すのを観察した。我々の比較では、サンプル数を増やすことが、コストが低いモデルでもカバレッジと成功率を向上させることが多いと示してる。

例えば、繰り返しサンプリングを使ったDeepSeek-V2-Coder-Instructでは、より高価なモデルからの単一試行よりも優れた問題解決率を達成して、パフォーマンス向上のための実現可能で経済的なアプローチを提示してる。

サンプル検証の重要性

我々の研究の重要な考慮点は、正しい回答を特定する際に検証方法が果たす役割だ。自動検証が欠如しているタスクでは、伝統的な方法、例えば多数決はしばしば頭打ちになってサンプル数を増やしても効果が薄い。これがパフォーマンスのギャップを生むから、こうした状況で頑丈な検証システムが必要だって強調してる。

数学の文問題の解を検証する際、サンプル数が急激に増加するとカバレッジが目に見えて改善される。しかし、最終回答を選ぶための方法はそれに追いつかず、さらなる開発が必要な領域を浮き彫りにしてる。

今後の方向性

これからは、繰り返しサンプリングのアプローチを洗練させれば、さらに良い結果が得られると信じてる。これは解の多様性を高めたり、モデルが以前の試行から学べるようにすることを含む。実行からのフィードバックを提供することで、より高品質な解につながり、繰り返しサンプリング全体の効果を改善できるかもしれない。

特に複雑で創造的なタスクのために、より良い検証ツールを開発する必要性も強調したい。これにより、実際のアプリケーションで繰り返しサンプリングの能力を十分に活用できるようになる。

結論

要するに、我々の研究は、繰り返しサンプリングを通じて推論の計算をスケールアップすることで、さまざまなタスクにわたって大規模な言語モデルのパフォーマンスを大幅に向上できることを示してる。このメソッドは、パフォーマンスを改善するために、より強力なモデルを超えて、あまり強力でないモデルを効果的に活用するのを可能にする。我々の観察は、サンプリング数とカバレッジ率のしっかりした関係を示していて、繰り返しサンプリングが複雑な問題解決タスクに言語モデルを展開する一般的な手法になる未来を指し示してる。

オリジナルソース

タイトル: Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

概要: Scaling the amount of compute used to train language models has dramatically improved their capabilities. However, when it comes to inference, we often limit models to making only one attempt at a problem. Here, we explore inference compute as another axis for scaling, using the simple technique of repeatedly sampling candidate solutions from a model. Across multiple tasks and models, we observe that coverage -- the fraction of problems that are solved by any generated sample -- scales with the number of samples over four orders of magnitude. Interestingly, the relationship between coverage and the number of samples is often log-linear and can be modelled with an exponentiated power law, suggesting the existence of inference-time scaling laws. In domains like coding and formal proofs, where answers can be automatically verified, these increases in coverage directly translate into improved performance. When we apply repeated sampling to SWE-bench Lite, the fraction of issues solved with DeepSeek-Coder-V2-Instruct increases from 15.9% with one sample to 56% with 250 samples, outperforming the single-sample state-of-the-art of 43%. In domains without automatic verifiers, we find that common methods for picking from a sample collection (majority voting and reward models) plateau beyond several hundred samples and fail to fully scale with the sample budget.

著者: Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher Ré, Azalia Mirhoseini

最終更新: 2024-12-30 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2407.21787

ソースPDF: https://arxiv.org/pdf/2407.21787

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事