言語モデルのベンチマークにおける分散の測定
この記事では、言語モデル評価ベンチマークのばらつきを評価する方法について検討します。
― 1 分で読む
目次
評価ベンチマークは、大規模言語モデル(LLMs)の性能を測るために重要で、これらのモデルの改善状況を示すためにも欠かせないものだ。最初は、これらのベンチマークが完全に準備されたモデルの強みや弱みを示すために使われていたが、今ではトレーニング方法についての意思決定にも役立っている。広く使われているにも関わらず、これらのベンチマークにどれくらいの変動があるかを測ることはめったにないけど、結果の違いが重要かどうかを知るためには大事なことなんだ。
この記事では、評価ベンチマークの変動を測るさまざまな方法について話するよ。モデルの初期化で異なるシードによって引き起こされる変動や、時間に対するトレーニングの安定性を見ていく。多くのモデルをテストすることで、いくつかは公開されていて、いくつかはゼロからトレーニングされたもので、異なる変動測定の実用的な推定値を提供するし、より良い実践のための提案もする。連続的なパフォーマンス測定と離散的なものの利点と欠点も検討して、変動を理解し減少させる方法についても提案するね。
ベンチマークの役割
ベンチマーク評価データセットは、大規模言語モデルの進歩を証明するために不可欠だ。新しいモデルがリリースされると、通常、古いモデルと比べるための共通のベンチマークからのスコアが付いてくる。これらのベンチマークは、進展を主張し、「最先端」のタイトルを得るために重要な役割を果たす。多くの開発の選択は、これらの重要なベンチマークにどのように影響を与えるかに基づいていて、その重要性が強調されている。
でも、その重要性にも関わらず、ベンチマークのスコアはしばしば一つの数字として扱われ、スコアについて深く掘り下げることはめったにない。スコアは質問の表現方法や回答の分布、さらには選択肢のシンボルの使い方によって影響を受けることがよくわかっているのに、大抵の研究はベンチマークごとに一つのスコアしか報告せず、どうやって取得したか説明しないことが多い。加えて、重要性の統計が公開されることも少なく、評価結果を信頼するのが難しい。この透明性の欠如は、開発中にモデルを効果的に比較するのを難しくしている。
ベンチマークの変動
この問題に取り組むために、私たちは従来の研究よりも大規模にベンチマークスコアの変動を調べる。280モデルのパフォーマンスデータを含む13のベンチマークデータセットを分析し、完全にトレーニングされた公的モデルとランダムシードでのみ異なるゼロからトレーニングされたセットを比較するんだ。
私たちの目指すこと
私たちの研究は、3つの主な目標を達成することを目指している:
- 異なる条件下での異なるベンチマークに期待される変動のレベルについて詳細なガイドを提供する。
- 特に重要な選択タスクに取り組む小規模モデルのための変動を減らすための実用的なアドバイスを提供する。
- 人間の標準テストからの手法、例えば項目分析を使用することに警告する、なぜならそれが変動を減らすのに効果がないことを私たちは見つけたからだ。
この研究は、しばしば無視されがちなベンチマークの変動の問題を強調し、その影響を定量化し、管理するための実用的な方法を示すものだ。
分析したモデルとベンチマーク
私たちの研究では、異なる条件下でトレーニングされた多数のモデルのベンチマーク結果を比較する。Llama-2-7Bアーキテクチャに基づく10モデルを含む280以上のモデルを分析した。これらは特定の前処理データのミクスチャーでゼロからトレーニングされ、初期化に使ったシード以外はすべて同じ条件で実行された。
各モデルは2100億トークンでトレーニングされ、すべてのモデルに対して21のトレーニングスナップショットが保存された。また、Llama-1とLlama-2アーキテクチャに基づく41の中間および完全トレーニングされたモデルも含めて、同じデータミクスチャーでトレーニングされている。最後に、32の公的なモデルを利用して、さまざまなモデルのアーキテクチャとサイズの多様性を作り出した。
ベンチマークに関しては、一般的な知識から複雑な推論、コーディングまでさまざまなタスクをカバーする13の大規模で確立されたNLPベンチマークを使用した。このアプローチにより、異なるモデル間でのパフォーマンススコアの変動を探るためのしっかりした基盤が得られた。
変動の測定
最初に、異なるモデルやデータセット間でどれくらいの変動があるかに焦点を当てる。この変動を定量化するためのさまざまな指標を開発する。たとえば、似たようなセッティングの中でモデルのシードの変更によって引き起こされる変動について調べる。これにより、パフォーマンスの向上がより良いトレーニングデータセットによるものなのか、それとも単なるランダムシードの違いによるものなのかを区別できるようになる。
主要な指標
以下の指標を計算する:
- シード平均:トレーニング後のモデルのパフォーマンスの平均。
- シード変動:モデルのパフォーマンススコアの広がりを、シードによって定義されたもので示す。
- 信頼区間:真のパフォーマンススコアがどの範囲にあると予想されるかを示す手段。
- 単調性:トレーニング中にスコアがどれくらい一貫して改善されるかを測る。
これらの指標を使うことで、異なるベンチマークにおける変動の様子がより明確になる。
変動の観察
私たちはシードモデルの観察された変動について深く掘り下げる。異なるベンチマークにおける発見によると、トレーニングを行ったにもかかわらず、スコアがランダムなチャンスに近いこともある。いくつかのベンチマークは、テストサンプルが限られているために高い変動を示し、他のものは低い変動を示すが、モデルを比較する際には慎重な解釈が依然として必要だ。
興味深いことに、タスクのフレーミングを少し変更するだけで、特に小規模なモデルの変動を大幅に減らすことができることがわかった。たとえば、選択タスクを完了タスクとして扱うと、より安定した結果が得られる。一方で、人テストから借りた手法は、言語モデルの評価の変動を減らすのに効果的ではないことがわかった。
離散的な測定と連続的な測定の比較
私たちの分析中に、連続的な指標と離散的なものを比較する。連続的な指標は、より高い信号対雑音比(SNR)を持つ傾向があり、異なるモデルを対比するのにより信頼できることを示唆している。この観察は、連続的な測定を使用することでモデルの評価中により明確な洞察が得られる可能性があり、下流タスクのためのより良いスケーリング法則を構築するのに役立つかもしれない。
MMLUチャレンジ
Multiple-choice Language Understanding Benchmark(MMLU)を探求して、確立されたベンチマークの問題を浮き彫りにする。MMLUに対する2つのアプローチ(標準とクロージョン)を比較することで、クロージョン形式が低いシード変動と高い安定性につながることがわかった。これは、非従来型の方法がモデルの初期トレーニング中により良い洞察を得られる可能性があることを示唆している。
項目分析による変動への対処
変動を減少させるために、標準化テストで個々の質問の効果を評価するために使われるアイテム分析の概念を適用する。このアプローチにより、アイテムの難易度や識別力などの特定の指標を見ることができる。
アイテムの難易度は、モデルがさまざまな項目でどれだけうまく機能するかを示し、アイテムの識別力は、個々の項目がモデルのパフォーマンスをどれだけうまく区別できるかを評価する。このフレームワークは評価のための枠組みを提供するものの、アイテムの識別力スコアは言語モデルの評価にあまり役立つ情報を提供しないことがわかった。
アイテム応答理論の限界
私たちはまた、元々は人間のテストスコアに焦点を当てた統計的アプローチであるアイテム応答理論(IRT)を調べた。最近の応用では、この方法がモデルの評価サンプルを分析しクラスタリングするのに役立つことを示唆している。しかし、私たちの発見は、IRTの手法を使用すると変動が増加し、モデル間の比較を難しくする可能性があることを示している。
関連研究
多くの研究がベンチマーク評価のギャップを指摘し、改善のためのさまざまな提案をしている。この研究は、複数の側面での変動を定量化する重要性を強調し、それを軽減するための技術を提案することで、先行研究に基づいている。
実用的な推奨
私たちの発見に基づいて、研究者や実務者には以下を勧める:
- 変動を考慮する:モデルをベンチマークと評価する際には、常に変動を考慮すること。
- 連続的な指標を使用する:より良い比較のために、連続的なパフォーマンス測定に傾くこと。
- 代替形式を試す:可能な限り、ノイズを減少させるかもしれない非従来型の方法でタスクを設定すること。
- 標準化テスト手法には注意する:人間の標準化テストからの手法は、言語モデルの評価にうまく適用できない場合がある。
結論
大規模言語モデルが普及するにつれて、評価ベンチマークを通じてその能力を理解することがますます重要になっている。この記事は、ベンチマークスコアにおける変動を測定することの重要性を強調する。さまざまなアプローチを分析し、効果的な実践を特定することで、モデルの評価と比較の信頼性を向上させ、最終的にはモデルの開発と展開におけるより情報に基づいた意思決定に寄与することを目指している。
この研究を通じて、変動を減少させる戦略への関心と研究を促進し、言語モデルの全体的な評価を改善し、この分野の効果的で信頼性のある進展につながることを願っている。
タイトル: Quantifying Variance in Evaluation Benchmarks
概要: Evaluation benchmarks are the cornerstone of measuring capabilities of large language models (LLMs), as well as driving progress in said capabilities. Originally designed to make claims about capabilities (or lack thereof) in fully pretrained models, evaluation benchmarks are now also extensively used to decide between various training choices. Despite this widespread usage, we rarely quantify the variance in our evaluation benchmarks, which dictates whether differences in performance are meaningful. Here, we define and measure a range of metrics geared towards measuring variance in evaluation benchmarks, including seed variance across initialisations, and monotonicity during training. By studying a large number of models -- both openly available and pretrained from scratch -- we provide empirical estimates for a variety of variance metrics, with considerations and recommendations for practitioners. We also evaluate the utility and tradeoffs of continuous versus discrete performance measures and explore options for better understanding and reducing this variance. We find that simple changes, such as framing choice tasks (like MMLU) as completion tasks, can often reduce variance for smaller scale ($\sim$7B) models, while more involved methods inspired from human testing literature (such as item analysis and item response theory) struggle to meaningfully reduce variance. Overall, our work provides insights into variance in evaluation benchmarks, suggests LM-specific techniques to reduce variance, and more generally encourages practitioners to carefully factor in variance when comparing models.
著者: Lovish Madaan, Aaditya K. Singh, Rylan Schaeffer, Andrew Poulton, Sanmi Koyejo, Pontus Stenetorp, Sharan Narang, Dieuwke Hupkes
最終更新: 2024-06-14 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.10229
ソースPDF: https://arxiv.org/pdf/2406.10229
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。