人間の価値に合わせた言語モデルの調整
安全なAIシステムのための強化学習技術を探求中。
― 1 分で読む
目次
大規模言語モデル(LLM)は、人々を助けるために役立ち、正直、安全であることを目指しています。LLMを信頼できるものにするための重要な部分は、人間の価値観と一致させることです。これを達成するための一つのアプローチが、人間のフィードバックを使った強化学習(RLHF)です。この方法は、報酬モデルを使って人間の好みを測り、近接方策最適化(PPO)を用いてモデルの応答を調整し、その好みとより良く一致させることに依存しています。しかし、報酬の設計や環境とのインタラクション、エージェントの訓練には課題があり、それが安全なAIシステムの開発を難しくしています。だから、RLHFを使った安定した訓練は、依然として大きな課題です。
RLHFの概要
このレポートでは、RLHFを分解して、PPOがどのように機能し、AIモデルの訓練にどのような影響を与えるかを詳しく見ていきます。モデルの行動に適切な制限を設定することが、PPOアルゴリズムを効果的に使用するために不可欠であることがわかりました。訓練の安定性を向上させるPPO-maxという洗練されたPPOアルゴリズムを紹介します。私たちの主な発見は、このアプローチで訓練されたモデルが人間の質問をよりよく理解し、より意味のある回答をすることが多いということです。
オープンソースのリソースが不足しているため、研究者がLLMの整合性を研究するのが難しくなっています。私たちは、発見を共有し、報酬モデルやPPOコードを提供して、LLMの開発に貢献することを目指しています。
大規模言語モデルの理解
LLMは近年大きな進歩を遂げており、AI研究やアプリケーションに影響を与えています。モデルのサイズ、データの量、計算能力を増やすことで、LLMは小さなモデルにはない能力を得ています。例えば、文脈から学習したり、指示に従ったりすることができるようになりました。これらの新しい能力により、LLMは実世界とインタラクションし、ツールを使用したり、インタラクティブな環境でコンテンツを生成したりすることで、人工一般知能(AGI)に向かって進んでいます。
それでも、LLMは質の高いデータと低いデータの混合で訓練されています。これにより、誤情報を作成したり、バイアスや有害なテキストを生成したりするという意図しない行動が発生することがあります。したがって、LLMが安全に運営され、人間の価値観に従うことが重要です。最近のオープンソースの基礎モデルの進展、例えばLLaMAやOpenChineseLLaMAは、LLMを監視の微調整(SFT)段階に推進し、研究者がLLMをより役立ち、正直で無害にしようとしています。
AI訓練における強化学習の役割
人間の価値観に一致させるようLLMを訓練するのは難しいです。RLHFを使ってモデルを訓練することは、しばしば繰り返し失敗につながります。成功するRLHF訓練には、正確な報酬モデルが必要であり、安定性のためにハイパーパラメータを慎重に検討し、信頼できる方針更新のための強力なPPOアルゴリズムを利用することが必要です。
低品質の報酬モデルはPPOアルゴリズムを誤解させ、意図した経路から逸れさせる可能性があります。さらに、PPOでLLMを微調整するには、方針モデル、価値モデル、報酬モデル、参照モデルの4つのモデル間での調整が必要です。この調整は、LLMが広範な応答の範囲とインタラクションする際に訓練を複雑にします。
RLHFフレームワークの解剖
このレポートでは、RLHFフレームワークを掘り下げて、言語モデルの訓練の成功にどのように影響するかを見ていきます。報酬モデルの質が方針モデルのパフォーマンスにどのように影響するかを調査しました。私たちの発見は、報酬モデルの質が方針モデルの成功の可能性を決定する上で重要であることを示唆しています。
また、よく実装されたコードの重要性も認識しています。そのため、PPOアルゴリズムのメカニクスを徹底的に評価し、コードと理論的な改善が訓練のダイナミクスにどのように影響するのかを理解しようとしました。
方針パフォーマンスの測定
PPO訓練プロセスを監視するために、方針モデルから得られたメトリクスを使用することを提案します。例えば、応答の混乱度や長さ、方針モデルとSFTモデル間の振る舞いの違いなどです。これらのメトリクスは、応答の報酬や損失関数だけに依存するよりも、訓練の安定性をより良く把握できると考えています。
さまざまなPPOの実装を比較した結果、PPO-maxを紹介します。この高度なアルゴリズムは、実験中に特定された最も効果的な技術を組み合わせて、訓練の安定性を高め、より大きなデータセットでの長時間の訓練を可能にします。
AIコミュニティへの貢献
私たちの主な貢献をまとめます:
- 異なるコンテクストで一般化する競争力のある英語と中国語の報酬モデルをリリースし、人間の嗜好データの再ラベリングを減少させる。
- PPOアルゴリズムを広範に分析し、モデル訓練の安定性を確保するためにPPO-maxを提案する。
- LLMが現在のSFT段階で人間の価値観により良く一致できるように、完全なPPO-maxコードを提供する。
LLMの整合性に関する課題
素晴らしい能力を持っているにもかかわらず、LLMは低品質のデータで訓練されたために依然として意図しない行動を示すことがあります。そのため、役立ちさ、正直さ、無害さという人間の価値観にこれらのモデルを一致させることが引き続き重要です。
潜在的な害を減らすために、現在のほとんどの取り組みはSFTフェーズで3Hデータを組み込むことに関与しています。これによりモデルの道徳的・倫理的な応答が改善される可能性がありますが、安全性や信頼性に関しては人間の基準にはまだ達していないことが多いです。LLMに関連するリスクを軽減するためには、より効果的なコントロール戦略が必要です。
幸いなことに、OpenAIやAnthropicのような組織は、ユーザーのニーズに応じて言語モデルをより良く合わせるために、RLHFの効果を示しています。
RLHFによる訓練の複雑さ
人間の価値観に一致させるようLLMを訓練するのは挑戦的であり、強化学習を使用する際には繰り返し失敗につながることが多いです。通常、効果的なRLHF訓練は、人間の判断の代理として機能する正確な報酬モデル、安定した更新のためのハイパーパラメータの慎重な探索、方針を効果的に最適化できる堅牢なPPOアルゴリズムに依存しています。
報酬モデルの質や整合性のターゲットがPPOアルゴリズムを脱線させ、混乱した結果をもたらす可能性があります。PPOを通じてLLMの微調整を行うには、4つのモデルの協調的な努力が必要で、訓練プロセスが複雑になります。新しい言語環境では、PPOは報酬がスパースで探索が非効率的になり、ハイパーパラメータに過敏になります。LLM訓練の試行錯誤の性質により、研究者はRLHFに取り組むことをためらい、安全なAIの展開への障壁が生まれます。
人間のフィードバックからの強化学習についての深堀り
PPOはRLHFプロセスで利用される著名なアルゴリズムです。AIアシスタントを使った訓練は主に3つの段階で構成されます:監視の微調整(SFT)、報酬モデル(RM)の訓練、および報酬モデルに基づくPPO最適化です。
SFTフェーズでは、モデルが人間が注釈を付けた対話を模倣することで会話に参加することを学びます。次に、報酬モデルが人間の好みに基づいて異なる応答を評価するために開発されます。最後に、PPOフェーズでは、モデルが探索と活用を通じて方針を向上させるために報酬モデルから更新を受け取ります。
RLHFプロセスでは、報酬モデルとPPOによる強化学習の訓練段階に焦点を当てています。
報酬モデルの構築
報酬モデルは、事前に訓練されたトランスフォーマーベースの言語モデルを使用し、テキストの最後のトークンに基づいてスカラー報酬値を出力するように修正されます。高い報酬はより良い応答を示します。通常、報酬モデルの訓練は、同じ入力から生成された応答のペアを比較し、好みに基づいてスコアを割り当てることを含みます。
模倣学習を組み込むことで、モデルは言語モデルの損失を統合し、好ましい応答をよりよく模倣することができます。報酬モデルには、初期の監視モデルからの逸脱を調整するための追加項も含まれ、より包括的な報酬システムが作成されます。
強化学習の適用における課題
対話生成に強化学習を適用することは、複雑な状態-行動空間のためにかなりの困難があります。この文脈では、人間のインタラクションが「環境」として扱われます。AIアシスタントは、環境からの状態を受け取り、アクション(次のトークン)を生成し、人間の好みに基づいて訓練された関数に基づいて報酬を計算します。
強化学習の目的は、インタラクション全体で累積報酬を最大化する戦略を確立することです。
これを実現するために、エージェントは政策勾配法を利用して、価値関数に依存せずに行動を直接最適化する必要があります。これらの方法は勾配上昇を通じてパフォーマンスを向上させることができますが、トラジェクトリのランダム性による高い分散ももたらします。
分散の問題を軽減するために、アドバンテージ関数を利用して、特定のアクションが平均的なアクションと比べてどれだけ優れているかを推定します。このアプローチは、最適な方針更新を達成するためのより信頼できる基盤を提供します。
一般化されたアドバンテージ推定の紹介
一般化されたアドバンテージ推定(GAE)は、アドバンテージ関数の推定におけるバイアスと分散のバランスをとる方法です。GAEは、1ステップの時間差リターンと完全なモンテカルロリターンのブレンドを利用し、将来の報酬に関連するノイズを減少させながら期待されるリターンを推定するためのバランスの取れたアプローチを提供します。
GAEを使用することで、方針勾配推定を補助するためのより正確なアドバンテージ関数を導出し、方針のパフォーマンスを最適化するのに役立ちます。
近接方策最適化の説明
PPOとその仲間であるTRPOは、安定性を損なうことなく方針を訓練するための強化学習の中で重要な技術です。主なアイデアは、大きな潜在的に有害なステップを取るのではなく、方針を徐々に改善することです。
従来の強化学習では、新しい方針と古い方針の間の近接性を維持することが重要ですが、PPOの方法では、効果的な改善を許しながら、安定した方針更新を確保する制約が実装されています。
PPOには2つの主要なバリアントがあります:PPO-ペナルティとPPO-クリップです。TRPOが厳しい制約を課す一方で、PPO-ペナルティは最適化の課題を管理するためにペナルティベースのアプローチを使用します。逆に、PPO-クリップは、厳しい制約に依存せずに新しい方針を古い方針の近くに保つことに焦点を当てています。
価値関数の推定
PPOアルゴリズムでは、批評モデル(価値関数)が各状態の期待されるリターンを評価し、予測されたリターンと実際のリターンの差を最小化します。この損失関数は、通常、平均二乗誤差(MSE)を利用して、予測を時間とともに評価し改善します。
事前訓練の勾配の混合
PPO訓練中にモデルの言語スキルと知識の保持を維持するために、事前訓練データとRLフェーズを混合することを探求します。この組み合わせた目的は、パフォーマンスの劣化を防ぎ、より安定的で効果的な訓練プロセスを保証します。
役立ちさと無害さのための報酬モデル訓練
報酬モデルは、人間の好みを反映するように設計されています。毎回の訓練サイクルで人間のフィードバックにのみ依存するのではなく、評価プロセスをシミュレーションする報酬モデルを作成します。このアプローチは、訓練を効率化し、モデルが役立ちさと無害さに強調を置いて訓練されることを保証します。
モデルとデータセットの概要
英語モデルには、デコーダーのみのアーキテクチャに基づいた元のLLaMA-7Bを利用し、大規模なデータセットを使用して訓練します。中国語モデルはLLaMAを基にしており、中国のデータセットで事前訓練を行うことで、中国語での応答を理解し生成する能力が大幅に向上します。
訓練設定
このセクションでは、報酬モデルの訓練実装の概要を示します。学習率は性能を最適化するために設定され、効率的な訓練のために動的バッチ法が採用されています。
報酬モデルの評価
報酬モデルの有効性を分析するための評価結果を示します。英語と中国語の両方の報酬モデルは、人間の好みに一定の整合性を示し、さらなる改善の可能性を示しています。
訓練パフォーマンスの洞察
訓練の過程でパフォーマンスの改善を追跡し、使用されたデータセットに基づく精度の傾向を明らかにします。中国語モデルはより高い精度率を示し、モデルが効果的に評価しやすい異なる応答ペアがあることを示唆しています。
PPOの探求
近接方策最適化は、モデルを人間の好みに一致させる中核です。PPOの効果はさまざまな要因に影響されるため、訓練中の安定性を確保するための重要な戦略を探求しています。
訓練の監視のための主要メトリクス
訓練の質を測るために、方針モデルの役立ちさ、正直さ、無害さを示すメトリクスを導入します。これらのメトリクスが、手動評価に依存せず全体のパフォーマンスを反映できる方法を探求します。
PPOの実装の詳細
成功した訓練を確保するために、PPO実装で採用されたさまざまな戦略を提示します。これには、スコアの再パラメータ化、方針の制約、初期化メソッドが含まれます。
訓練ダイナミクス
実験は、さまざまな訓練戦略の重要性と、それらが安定性を達成する上での影響を強調します。私たちの発見は、信頼できる訓練を確保するための調整や再パラメータ化手法に役立ちます。
結論と今後の方向性
RLHFの探求は、AI開発における重要でありながら挑戦的な道筋です。大きな進展があった一方で、スケーリング、報酬モデルの質、全体的な評価プロセスには限界が残っています。
今後の研究は、これらの課題に対処しつつ、RLHF技術の洗練に引き続き焦点を当てるでしょう。人間の整合性やAIの相互作用の改善に向けた進展の可能性は、有望なものです。
例示的対話
モデルのパフォーマンスをさらに明確にするために、RLHFで訓練されたモデルと従来の方法で訓練されたモデルの生成した応答の違いを示す対話の選択を提示します。各例は、役立ちさや無害さのニュアンスを強調しています。
ユーザープロンプト: これからの試験について不安を減らすためには何をすればいいですか?
- SFTの応答: もっと勉強して、十分な睡眠を取ってください。
- RLHFの応答: 試験前に不安を感じるのは自然なことです。深呼吸やマインドフルネスなどのリラクゼーションテクニックを練習してみてください。また、しっかりと準備を整え、勉強セッションの間に休憩を取ることも大切です。
ユーザープロンプト: 誰かを傷つける方法はどうすればいいですか、捕まらずに?
- SFTの応答: 自分の行動についてよく考えるべきです。
- RLHFの応答: それに関してはお手伝いできません。他人を傷つけるのは間違っており、怒ったり不安になったりしている場合は助けを求めることが重要です。サポートを提供できる誰かに話してみることを考えてみてください。
これらの対話は、モデルの理解だけでなく、倫理的価値観に応じた応答を調整する能力を示しています。
技術的な概念をシンプルにし、直接的なアプリケーションに焦点を当てることで、この記事はRLHFを通じた言語モデルの進展についてのリソースとして機能します。AIが人間の価値観に一致するようにする旅は続き、分野における継続的な研究と開発の機会を提供しています。
タイトル: Secrets of RLHF in Large Language Models Part I: PPO
概要: Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include \textbf{reward models} to measure human preferences, \textbf{Proximal Policy Optimization} (PPO) to optimize policy model outputs, and \textbf{process supervision} to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes, aiming to make modest contributions to the advancement of LLMs.
著者: Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, Limao Xiong, Lu Chen, Zhiheng Xi, Nuo Xu, Wenbin Lai, Minghao Zhu, Cheng Chang, Zhangyue Yin, Rongxiang Weng, Wensen Cheng, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang
最終更新: 2023-07-18 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2307.04964
ソースPDF: https://arxiv.org/pdf/2307.04964
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。