Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 機械学習# 人工知能

多様な出力のための言語モデルの改善

新しいアプローチが言語モデルの応答を改善し、オーバーフィッティングを減らす。

― 1 分で読む


言語モデルの新しい方法言語モデルの新しい方法ルのエラーを減らすよ。新しい技術が出力の多様性を向上させ、モデ
目次

大規模言語モデル(LLM)は、質問に答えたり、ストーリーを書いたり、コードを生成したりするための重要なツールになってる。これらのモデルを効果的にするために、スーパーバイズド・ファインチューニング(SFT)っていうプロセスを経ることが多い。このプロセスは、高品質な例に基づいてモデルを調整することで、より良い応答を提供できるようにするんだ。ただ、従来の調整方法だと、オーバーフィッティングや生成される出力の多様性の欠如みたいな問題が起きることがある。

オーバーフィッティングは、モデルがトレーニングデータから学びすぎて、新しいデータに対してパフォーマンスが悪くなること。多様性の欠如は、モデルが幅広い答えを生成できなくなることを意味していて、クリエイティブなタスクには重要な要素なんだ。これらの問題に対処するために、出力の多様性を改善し、オーバーフィッティングを減らすことに焦点を当てた新しい方法を提案するよ。

従来の方法の問題点

ほとんどのLLMは、最初に大量のテキストで言語パターンを理解するためにトレーニングされる。その後、特定のタスクに対してラベル付きデータを使ってSFTが行われる。ファインチューニングの一般的なアプローチはクロスエントロピー(CE)損失で、モデルの予測を実際の答えにできるだけ近づけることを目的としているんだけど、効果的である一方で大きな欠点もある。

オーバーフィッティング

CE損失を使うと、モデルはトレーニングデータにあまりにもこだわることがあり、柔軟性が失われる。このこだわりがオーバーフィッティングを引き起こし、モデルがトレーニングデータに対して過剰に依存して、新しい見えないデータの変化を処理するのが難しくなる。クリエイティブさや異なる解釈が求められるタスクでは特に問題になるよね。モデルは似たような応答を生成しやすくなるんだ。

多様性の欠如

オーバーフィッティングに加え、CE損失は出力の多様性も制限してしまう。モデルが観察されたデータの可能性を最大化するようにトレーニングされると、よくある答えを好むようになる。結果として、応答にはバリエーションが欠けて、特定の文脈ではあまり面白くなかったり役立たなかったりすることがある。たとえば、ストーリーを書くように頼むと、CEでトレーニングされたモデルは似たようなプロットを生成するかもしれない。

提案する解決策

これらの問題に対処するために、ジェネレーティブエントロピー正則化マッチング(GEM)という新しい方法を提案する。このアプローチは、単にトレーニングデータを模倣するのではなく、例やモデルが生成した応答からも積極的に学ぶことに焦点を当てる。そうすることで、特定のタスクでより良いパフォーマンスを発揮し、より多様な応答を生成できるモデルを目指すんだ。

2つの重要な原則

私たちの方法は、2つの主要な原則に基づいている。

  1. ジェネレーティブ学習: 提供された答えから学ぶだけでなく、モデルが自分の試行錯誤からも学ぶことを促す。つまり、モデルは自分が生成した出力を貴重なデータとして考慮し、時間をかけて間違いを認識し修正していく。

  2. バランスの取れた確率割り当て: モデルは、特定の答えに過度に依存しないように、確率をより均等に割り当てるべきだ。このアプローチは、オーバーフィッティングを防ぎつつ、出力の多様性を維持するのに役立つ。

実装の詳細

GEMは、トレーニング中の損失を最小化するために異なる技術を適用し、特に分布マッチングの形式に焦点を当てる。この修正により、モデルは生成した出力からより良く学ぶことができ、異なる応答に対して割り当てられる確率のバランスを取ることに特に焦点を当てている。

アルゴリズムの概要

GEMは、オーバーフィッティングと出力の多様性の課題に対処しながらトレーニングプロセスを簡素化する。プロセスは次のようになる。

  • 再パラメータ化: このステップは、モデルが学習プロセスに基づいて予測を調整しやすくする。

  • 直接的なエントロピー正則化: 出力の多様性を直接調整することで、さまざまな可能な応答のバランスを維持できる。このアプローチは、モデルが特定の答えを過度に暗記することを防ぎ、異なる可能性を探ることを促す。

実験の設定

提案する方法を評価するために、Llama-3-8Bという大規模言語モデルを使用して一連の実験を行った。このモデルは、一般的な指示に従うことに焦点を当てたデータセットと、コード生成および数学的推論タスクに特化したデータセットの2種類でファインチューニングされた。

使用したデータセット

  1. UltraFeedbackデータセット: このデータセットは、異なるモデルによって生成されたプロンプトとそれに対応する応答で構成されている。指示に従うタスクの広範な例を提供する。

  2. ドメイン特化型データセット: 数学的推論とコード生成タスクに特化したデータセットも使用した。これらのデータセットは、特化したコンテキストにおける提案手法の効果を測るのに役立つ。

一般目的のファインチューニング

指示に従う

最初の評価セットでは、モデルがプロンプトで与えられた指示にどれだけうまく従えるかに焦点を当てた。モデルの効果を測定するために、さまざまなタイプの指示が含まれるIFEvalベンチマークを使用した。結果は、GEMでファインチューニングされたモデルが従来のCE損失を使用したモデルよりもパフォーマンスが良かったことを示している。

創造的なライティングにおける出力の多様性

詩やストーリーなどの創造的なコンテンツを生成する能力も評価した。結果は、GEMでファインチューニングされたモデルが、従来の技術でトレーニングされたモデルよりも明らかに多様な出力を生成したことを示している。

高度な生成技術

応答の多様性を活かすために、Best-Of-N(BON)やMajority Voting(MV)などの高度な生成戦略を適用した。これらの技術により、モデルは複数の応答を生成し、特定の基準に基づいて最も適切なものを選択できるようになる。

チャット

さまざまな質問に対してモデルが応答するシナリオでのパフォーマンスも評価した。ここでもGEMは優れた結果を示し、CE損失に比べて高い勝率を達成した。

数学的推論とコード生成

GSM8Kベンチマークを使用した数学的推論タスクにおいて、GEMは従来の方法に比べて顕著な改善を示した。さらに、HumanEvalやMBPPベンチマークで評価されたコード生成タスクでも、GEMを使用したモデルはCE損失でトレーニングされたモデルを一貫して上回った。

ドメイン特化型ファインチューニング

数学的推論とコード生成タスクに特化したデータセットでGEMをテストした。この評価でも、GEMはさまざまなベンチマークでCE損失を上回り、特化したアプリケーションにおける効果を確認した。

結論

この記事では、大規模言語モデルのファインチューニングに対する新しいアプローチを提案し、オーバーフィッティングや出力の多様性の限界といった重要な課題に対処した。生成的分布マッチングとエントロピー正則化を導入することで、私たちの方法はタスクのパフォーマンスと応答の多様性を向上させたことが評価を通じて示された。

言語モデルがさまざまなアプリケーションでますます重要な役割を果たす中で、私たちのアプローチは、柔軟で有用なコンテンツを生成できるようにする手助けができると考えている。今後、この方法の可能性をさらに探求し、強化学習や合成データ生成の向上における応用も検討するつもりだ。

要するに、私たちの提案した方法は、モデルが指示に従う能力を向上させるだけでなく、生成されるコンテンツにおける創造的で多様な出力の機会も広げる。これは、言語モデルの発展とその応用における重要な一歩を示している。

オリジナルソース

タイトル: Entropic Distribution Matching in Supervised Fine-tuning of LLMs: Less Overfitting and Better Diversity

概要: Large language models rely on Supervised Fine-Tuning (SFT) to specialize in downstream tasks. Cross Entropy (CE) loss is the de facto choice in SFT, but it often leads to overfitting and limited output diversity due to its aggressive updates to the data distribution. This paper aim to address these issues by introducing the maximum entropy principle, which favors models with flatter distributions that still effectively capture the data. Specifically, we develop a new distribution matching method called GEM, which solves reverse Kullback-Leibler divergence minimization with an entropy regularizer. For the SFT of Llama-3-8B models, GEM outperforms CE in several aspects. First, when applied to the UltraFeedback dataset to develop general instruction-following abilities, GEM exhibits reduced overfitting, evidenced by lower perplexity and better performance on the IFEval benchmark. Furthermore, GEM enhances output diversity, leading to performance gains of up to 7 points on math reasoning and code generation tasks using best-of-n sampling, even without domain-specific data. Second, when fine-tuning with domain-specific datasets for math reasoning and code generation, GEM also shows less overfitting and improvements of up to 10 points compared with CE.

著者: Ziniu Li, Congliang Chen, Tian Xu, Zeyu Qin, Jiancong Xiao, Ruoyu Sun, Zhi-Quan Luo

最終更新: Aug 29, 2024

言語: English

ソースURL: https://arxiv.org/abs/2408.16673

ソースPDF: https://arxiv.org/pdf/2408.16673

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事