MRPOで大規模言語モデルを改善する
新しい方法で、複数の参照を使って言語モデルの整合性が向上するんだ。
― 1 分で読む
目次
大規模言語モデル(LLM)は、人間みたいなテキストを書いたり理解したりできる。でも、これらのモデルに人間の価値観や意図をちゃんと反映させるのはかなり難しいんだ。一般的な方法として、モデルの出力に関する人間の好みを集めて、そのフィードバックに基づいてLLMを微調整することがある。これによって、更新が参照モデルからあまり逸脱しないようにするんだ。
これまで、強化学習の最適化みたいな技術が使われてきたけど、そんな方法は遅くて不安定なことが多い。最近のアプローチである直接好み最適化(DPO)は、複雑な強化学習プロセスを必要としない明確な監視損失を使って、もっと安定して速い代替手段を提供してくれる。
DPOがもたらす改善がある一方で、大きな欠点もある。それは、主にたった一つの参照モデルに依存していること。つまり、多くの事前学習モデルを一緒に使うことから得られる強みを活かせてないんだ。この問題を解決するために、マルチリファレンス好み最適化(MRPO)という方法を紹介する。この方法は、複数の参照モデルを使ってより多くの知識を集めて、好み学習を改善するんだ。私たちの研究結果は、MRPOで微調整されたLLMが、データが限られていても好ましい出力を理解し生成するのが得意だと示している。さらに、MRPOはさまざまな自然言語処理タスクで強い結果を出しているよ。
アラインメントの課題
GPTみたいなLLMは、人間が書いたように見えるテキストを生成できる。でも、こうしたモデルを本当に人間の価値観や好みに沿わせるのは複雑なんだ。目的は、慎重に選ばれた人間のフィードバックに基づいて、その応答を形作ること。
このための人気のある方法は、人間のフィードバックからの強化学習(RLHF)だ。このアプローチでは、人間の評価を使って報酬モデルを作り、LLMの応答を最適化するのを助けている。このプロセスでは、モデルがこれらの評価にどれだけ一致しているかを最大化しつつ、初期の参照モデルからの変化を最小限に抑えるんだ。
RLHFはある程度の成功を収めているけど、しばしば複雑でリソースを多く消費する。最近の進展、特にDPOは、これを簡素化しようとしている。DPOは、好みに基づいた負の対数尤度損失を最小化することでモデルを直接最適化する。しかし、DPOは単一の参照モデルに依存しているため、複数のモデルの潜在的な利点を活かせていないんだ。
複数の参照を使う価値
多くの参照モデルを使うことで、学習プロセスが大いに強化される。いろんなモデルがメインのモデルを評価して情報を提供することで、最終的な出力が幅広い視点を反映し、結果がより信頼できるものになる。これは、コミュニティが多様なデータセットを使って様々な事前学習モデルを開発・リリースし続けている中で、非常に重要なんだ。
利点があるものの、以前の試みでは、最適化プロセスで複数の参照モデルを効果的に活用できていなかった。解決しなければならない3つの大きな課題がある。
非線形性の複雑さ:複数の参照モデルを含むシンプルなソリューションを作るのは難しく、計算が複雑で非線形になっちゃう。
出力の不一致:異なる参照モデルが同じ入力に対して異なる出力を生成することがあり、これが学習プロセス中に混乱を引き起こし、不安定なトレーニングにつながる。
貢献度の決定:トレーニング中に各参照モデルがどれだけ貢献しているかを判断するのは難しく、たくさんの調整が必要になることが多い。
マルチリファレンス好み最適化(MRPO)の紹介
上記の課題を克服するために、MRPOを提案する。この方法は、様々な参照モデルの洞察を一つのフレームワークにまとめることを可能にする下限を最大化することで、最適化プロセスを簡素化するんだ。
非線形性への対処
計算の複雑さに対処するため、簡単な代替下限を提案する。この下限は、複数の参照モデルを活用したしっかりした閉形式の解を見つける手助けをする。私たちの解の理論的な裏付けと性能は、単に複数のDPO損失を組み合わせるよりも良いことを証明しているよ。
安定したトレーニングの確保
異なる参照モデルからの出力の不一致は不安定さにつながる。これを解決するために、クリップドトラストリージョン最適化(CTRO)という手法を導入する。この方法は、メインモデルの出力確率を選ばれた参照モデルの出力に密接に合わせることを維持するんだ。ログ確率をクリッピングすることで、違いを最小限に抑え、トレーニングプロセスを安定させるのが狙い。
さらに、クリッピング率はデータの予測される尤度に基づいて変更できる。もし参照モデルが特定の入力に対して出力に自信を持っているなら、小さなクリッピング範囲を使って、メインモデルがこの信頼できる出力からしっかり学べるようにする。逆に、参照モデルがあまり自信を持てない場合は、もう少し大きなクリッピング範囲で少し探ることができるんだ。
動的貢献重み付け
トレーニング中に各参照モデルがどれだけ影響を持つかを決定するのも重要。各モデルの信頼レベルに基づいて貢献度の重みを計算する動的なメカニズムを導入する。モデルが二つの出力の区別をどれだけ自信を持ってできるかを観察することで、適切な重みを適応的に割り当てられる。
実験結果
MRPOを、DPOや単純なDPO損失の組み合わせのような従来の方法と比較するために、多くの評価を行った。
限られたデータでの性能
多くの状況で、人間のフィードバックは少ない。MRPOを小さな好みデータセットでテストしたところ、DPOや複数のDPO損失の素朴な組み合わせを常に上回る結果が得られた。特に、トレーニングデータが限られているときに、改善が顕著だったよ。
大規模データセットでの性能
MRPOがより大規模で複雑なデータセットも扱えるかを確認するため、HelpSteerやUltrafeedback、Nectarといった実世界のデータセットでテストした。これらのテストでも、MRPOは再びDPOを大きく上回り、大きなデータセットでうまくスケールし、より包括的な人間の入力から効果的に学べることを示した。
一般的な言語理解タスクでの性能
MRPOの言語理解の標準ベンチマーク、GSM8K、MMLU、TruthfulQAでの性能も見た。結果は、MRPOがモデルの基本性能を改善するだけでなく、DPO手法を上回る顕著な向上を達成したことを示している。
強いモデルから弱いモデルへの蒸留
MRPOの興味深い側面の一つは、強い大きなLLMから小さなモデルへの学習を移転できること。これは、小さなモデルが必要なモバイルデバイスやリソースが限られた状況で特に役立つかもしれない。TinyLlamaやMistralを参照モデルとして使ってテストしたところ、MRPOはDPOに対してわずかに優れた性能を示し、小さなモデルでもその効果を再確認したんだ。
クリップドトラストリージョン最適化(CTRO)の重要性
CTROはMRPOの精度と安定性を確保する上で重要な役割を果たしている。実験を通じて、CTROなしではトレーニングが不安定になる可能性があることが確認された、特に異なる参照モデル同士が大きく異なる場合にはね。
適応的重み付けの必要性
私たちのテストでも、各モデルの貢献度を重み付けする際に適応的アプローチを使うことの重要性が強調された。固定的なアプローチよりも、各モデルの性能に基づいて動的に重みを調整する方が効果的だと示されたんだ。
結論
この研究では、複数の参照モデルを使って大規模言語モデルの好み学習を改善する新しい方法、MRPOを紹介した。理論的な基盤と実際の結果は、様々な好みデータセットに対する一般化を向上させる効果を示しているよ。
MRPOには素晴らしい可能性がある一方で、参照モデルの数やサイズに関する制限もある。今後の研究では、MRPOのスケーリングに取り組み、より大規模なモデルや多様なデータセットでどのように有益に働くかを理解することを目指す。
幅広い影響
私たちは公開されているデータセットを使って実験を行った。目標は、LLMを人間の価値観や好みによりよく合わせること。でも、このアプローチは誤用される可能性があること、つまり人間のデータから学ぶシステムにはリスクがつきまとうことも認識しているんだ。
要するに、MRPOはLLMを改善し、ユーザーのニーズや価値により密接に合わせるための大きな前進を示しているし、関連する好ましい出力を効果的に生成できることを確保しているんだ。
タイトル: Multi-Reference Preference Optimization for Large Language Models
概要: How can Large Language Models (LLMs) be aligned with human intentions and values? A typical solution is to gather human preference on model outputs and finetune the LLMs accordingly while ensuring that updates do not deviate too far from a reference model. Recent approaches, such as direct preference optimization (DPO), have eliminated the need for unstable and sluggish reinforcement learning optimization by introducing close-formed supervised losses. However, a significant limitation of the current approach is its design for a single reference model only, neglecting to leverage the collective power of numerous pretrained LLMs. To overcome this limitation, we introduce a novel closed-form formulation for direct preference optimization using multiple reference models. The resulting algorithm, Multi-Reference Preference Optimization (MRPO), leverages broader prior knowledge from diverse reference models, substantially enhancing preference learning capabilities compared to the single-reference DPO. Our experiments demonstrate that LLMs finetuned with MRPO generalize better in various preference data, regardless of data scarcity or abundance. Furthermore, MRPO effectively finetunes LLMs to exhibit superior performance in several downstream natural language processing tasks such as GSM8K and TruthfulQA.
著者: Hung Le, Quan Tran, Dung Nguyen, Kien Do, Saloni Mittal, Kelechi Ogueji, Svetha Venkatesh
最終更新: 2024-05-25 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2405.16388
ソースPDF: https://arxiv.org/pdf/2405.16388
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/hiyouga/LLaMA-Factory
- https://huggingface.co/
- https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
- https://huggingface.co/teknium/OpenHermes-2.5-Mistral-7B
- https://huggingface.co/Qwen/Qwen1.5-7B-Chat
- https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0
- https://huggingface.co/datasets
- https://www.lyx.org/