Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

合成批評で報酬モデルを向上させる

新しい方法が合成批評を使って報酬モデルを改善し、より良い整合性を実現する。

― 1 分で読む


批評で報酬モデルを強化する批評で報酬モデルを強化する向上させる。合成批評は言語モデルのトレーニング効率を
目次

報酬モデル(RM)は、言語モデルが人間の好みに合わせるのを教えるための重要なツールだよ。このモデルは人間の好き嫌いを反映したスコアを予測するんだけど、トレーニングにはすごく時間と労力がかかるんだ。人間による注釈が必要だからね。このプロセスは高コストになりがちで、RMはテキストの深い意味よりも表面的な詳細に集中してしまうことが多い。だから、新しい未知のデータに出くわしたときに効果が薄れることもあるんだ。

この問題を解決するために、大規模言語モデル(LLM)が生成した合成批評を使う新しい方法を提案するよ。人間のフィードバックに頼るのではなく、これらの批評を使って指示に従うこと、正確さ、文体などを評価するんだ。この方法は、より豊かな情報を提供してRMのパフォーマンスを向上させることを目的としているんだ。

私たちの研究では、高品質の批評を使うことで、異なる事前トレーニングされたモデルに基づいていても、RMのパフォーマンスと効率が大きく向上することがわかったよ。逆に、低品質の批評はパフォーマンスを悪化させる可能性があるし、批評を加えることでRMのトレーニング中に解釈性と安定性が向上するんだ。

人間のフィードバックからの強化学習

人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)が人間の好みに合うようにするための一般的なアプローチだよ。この方法は主に2つのステップから成り立ってる。まず、報酬モデルが人間のフィードバックに基づいて数値的な報酬を生成するようにトレーニングされる。その後、近似政策最適化(PPO)などの強化学習手法を用いて、言語モデルをトレーニングしてこれらの報酬を最大化するんだ。

報酬モデルは人間の好みの代わりとなる役割を果たして、ユーザーが好む可能性のあるテキストを決定するのを助けるよ。人間のアノテーターからフィードバックを集めるプロセスがあって、RMはプロンプトに対する2つの応答を比較して、どちらが良いかに基づいてスコアを付けるんだ。

例えば、Llama 2は報酬モデルをトレーニングするために約100万のバイナリ好みデータポイントを活用したよ。

RMのトレーニングでは、LLMが生成した批評が応答の良い点と悪い点を分解するのを助けるんだ。各応答が指示の遵守、正確さ、有用性の面でプロンプトの要件をどれだけ満たしているかを評価するんだ。

好みベースの報酬モデルのトレーニングにおける課題

現在、好みベースの報酬モデルのトレーニングにはいくつかの困難があるよ:

  • RLHFと人間の好みを整合させるプロセスには、明確な説明や理解可能さが欠けている。
  • 人間が与える好みスコアは一貫性がなく、主観的で、バイアスに影響されることがある。
  • RMが本当に人間の好みを学んでいるのか、それとも表面的な特徴を覚えているだけなのかを見極めるのが難しい。これがモデルを調整する2段階目で問題を引き起こすことがあるんだ。

RMは脆弱になってしまって、トレーニングに使われたデータセットに過剰に最適化されることがあるから、RMの予測と実際の人間の好みの間に差が生じることがあるよ。他にも、データ分布の変化に適応するのが難しかったり、敵対的攻撃に弱かったりする。加えて、RMのトレーニングには生成テキストモデルのトレーニングに使われるデータとは異なるデータが必要で、これが高コストで時間がかかることもあるんだ。

これらの課題のために、既存の好みデータセットはしばしば小さくて包括的ではないよ。

この論文では、モデル生成の批評を活用してこれらの制限を解決することを提案するんだ。

提案するアプローチ

私たちのアプローチでは、まずLLMに好みデータのプロンプト・完了ペアごとに批評を生成させるよ。これらの批評は、正確さや指示の遵守など、さまざまな観点から応答を評価する。次に、RMをトレーニングしてこれらの批評に基づいてスコアを予測させ、これらの批評を含むテストセットでパフォーマンスを評価するんだ。合成批評はオープンソースモデルを使って簡単に生成できるから、この方法は手軽でコストも削減できるよ。

論文内で批評プロセスの詳細を示し、いくつかの研究質問に答えるつもりだ。私たちの実験では、これらの批評を使用することでRMのパフォーマンスが向上することが示されたよ、特にデータが限られているときに。質の高い合成批評1つは、約40の通常の好みペアに相当することがわかったんだ。

特に、強力な批評が表面的な特徴の悪影響を制限し、最終的な報酬スコアを向上させる方法も示したよ。

関連研究

現代のLLMをトレーニングするプロセスは通常、複数のステップで進められる。まず、大規模な無監視データセットでモデルをトレーニングし、その後、デモンストレーションで監視付き学習を行い、最後に人間のフィードバックからの強化学習を適用するという流れだね。人間のフィードバックはこれらのモデルの成功にとって重要だったよ。

RLHFは一般的に、人間のアノテーターからの好みデータを使用して報酬モデルをトレーニングし、強化学習手法(ReinforceやPPOなど)を通じてポリシーを学習するんだ。報酬モデリングタスクに取り組むためのいくつかの方法がある。一般的なアプローチはブラッドリー・テリー・モデルを利用して人間の好みを予測することだよ。別の方法は直接好み最適化で、LLM自体が報酬モデルの代理を果たすんだ。

でも、これらのオフライン戦略はすべて好みデータが必要で、別の報酬モデルをトレーニングする必要はないんだ。

多くの研究者は、LLMを報酬モデルとして使う方法を探求していて、彼らに好みを表現させたり、応答を直接スコア付けさせたりしているよ。

報酬モデルがRLHFプロセスで果たす重要な役割から、彼らの挙動を理解することへの関心が高まっているよ。注目すべき貢献の一つはRewardBenchで、報酬モデルを評価するためのベンチマークで、好みの判断について詳細な理由を伴った完了ペアを含んでいるんだ。RewardBenchの結果は、報酬モデルがカジュアルな会話では一般的にうまく機能する一方で、複雑な推論タスクでは苦労することを示しているよ。パフォーマンスの問題は、応答の長さのバイアスや解釈の難しさなどの要因によってさらに複雑化する。

最近では、批評がモデル開発中の明確さを向上させたり、難解な例への強靭性を高めたりするのに役立つツールとして浮上しているんだ。こうした合理的な理由は、LLMのトレーニングや評価において重要だよ。最近の研究では、批評が応答をより正確なバージョンに洗練することが明らかになっているし、アノテーターが見落としがちな欠点に気づくのを助けることも示されている。評価中に批評を使用することで評価者自身の精度が向上するという研究もあるんだ。

いくつかの研究では、LLMを評価者として使うことを探求していて、合理的な理由を提示することで彼らの精度が向上することが確認されているよ。Auto-Jはこれらのアイデアを拡張して、応答を評価し批評を生成する生成的LLMのジャッジを作成し、システム全体の精度を高めているんだ。批評がさまざまなアプリケーションで見せる有望な結果にもかかわらず、その成功は批評の質に大きく依存しているよ。批評生成の効果を測定するためにCriticBenchというベンチマークが提案されているんだ。

LLMを用いた合成批評の生成

私たちの最初のステップは、RMをトレーニングするための好みデータに対して合成批評を生成することだよ。LLMに自然言語の批評を作成させるためのガイドを行うんだ。好みデータのペア(プロンプトと2つの応答)を与えて、各完了に対するポイントごとの批評を生成するようにLLMに依頼する。このプロセスにより、RMのためのより徹底したトレーニングプロセスを可能にする新しい批評データセットが得られるんだ。

LLMのプロンプトのデザインは、さまざまな側面でプロンプトの要件にどれだけ従っているかを評価する合成批評を生成することに焦点を当てているよ。

批評を用いた報酬モデルのトレーニング

ノー・クリティーク・ベースライン

プロンプトと応答を受け取って数値スコアを出力する報酬モデルをトレーニングするよ。このノー・クリティーク・ベースラインでは、バイナリランキング損失関数を使って、RMがトレーニングセットでどのように機能するかを測定するんだ。

批評RM

LLMが生成した批評を手に入れたら、これらの批評でトレーニングデータを強化するんだ。批評を各応答に連結して新しい好みペアを作成し、批評が増強されたトレーニングセットを形成するんだ。

批評を用いたRMをこれらの強化データペアを使ってトレーニングする。テスト段階では、同じLLMを使ってテストセットに対して批評を生成してパフォーマンスを評価するんだ。比較のために、批評なしのRMのパフォーマンスも見るよ。

実験設定

このセクションでは、研究で使用したデータセット、批評生成に使ったLLM、RMのための事前トレーニングモデル、およびトレーニングの詳細について説明するよ。

データセット

RMをトレーニングするために、ユーザーとチャットボットの間のオープンエンドのマルチターン会話の例が5,000個含まれた人間の好みデータセットを集めたよ。各エントリにはプロンプトと2つの応答があり、どちらの応答が良かったのかを示すラベルが人間のアノテーターから付けられているんだ。好み評価は3段階のスケールで測定するよ。

評価時には、トレーニング済みのRMを使ってテストセット内の各プロンプトに対する両方の応答にスコアを付ける。テストの精度はRMのパフォーマンスを評価する指標で、選ばれた完了が拒否されたものより高いスコアをどれだけの頻度で獲得するかに基づいて精度を計算するんだ。

私たちは、会話、指示遵守、コーディング、安全タスクなど、さまざまな能力をカバーするベンチマークデータセットでRMを評価するよ。

LLM批評生成器

批評の効果を評価するために、異なるアーキテクチャ、サイズ、トレーニングデータを持つさまざまなLLMを選んだよ。批評生成のための6つのモデルのプールを構築したんだ。

トレーニングとテストの好みデータを考慮して、各モデルに対して両セットの批評を生成するようにプロンプトを与える。トレーニングとテストデータが同じモデルによって生成された批評を含むようにして一貫性を保っているよ。

RM初期化のための事前トレーニングモデル

RMに対する初期事前トレーニングモデルの影響を調べるために、さまざまなサイズやトレーニングデータのモデルチェックポイントを探索するよ。これには、さらにファインチューニングされたモデルも含まれるんだ。

トレーニングの詳細

私たちの実験中にRMをトレーニングするために、バッチサイズを32に設定して、全体で155ステップの1エポックを実行するよ。長時間のトレーニングは過剰適合を引き起こすことが多いことがわかった。すべてのモデルパラメータをトレーニングし、事前トレーニングされた重みと最終レイヤーの両方を含めるんだ。学習率にはコサイン減衰を使用し、最適化にはAdamオプティマイザーを使っているよ。

実験の中で、批評で強化されたデータを使ったとき、LLaMA2-7B-Baseから始まるRMがハイパーパラメータに敏感であることに気づいた。これは、モデルのサイズが比較的小さくて多様な批評分布に対して脆弱であることが原因だと思う。

評価結果

私たちは、さまざまなモデルによって生成された合成批評で強化された好みデータを使ってRMをトレーニングしたんだ。ここで、RMのトレーニングにおける批評の使用に関して主な発見を共有するよ。

合成批評はRMのパフォーマンスを向上させるのか?

私たちの評価結果は、批評の追加が一般的にノー・クリティーク・ベースラインと比較してRMのテスト精度を向上させることを示しているよ。合成批評の効果が明確に示されているんだ。質の高い批評は特に、弱い事前トレーニングモデルやデータが限られている状況でRMのパフォーマンスを著しく向上させる。

批評の質とRMのパフォーマンスには正の相関関係があることも確認したよ。強力な批評は通常、データセット全体で高い平均スコアをもたらす。さらに、批評は基礎モデルがあまり優れないRMにとっても大きな利益をもたらすことが観察されたよ。

批評はトレーニングのスケールが上がるにつれてRMにどんな影響を与える?

批評を使用してトレーニングされたRMがトレーニングスケールが増大する際の挙動を分析するために、異なるサイズのノー・クリティーク・トレーニングデータセットを用意したんだ。これらのセットに合成批評を生成し、ノー・クリティークのモデルとパフォーマンスを比較してトレーニングした。

私たちの発見は、特にデータが限られた状況で批評がデータ効率を向上させることを示唆しているよ。十分なデータがある場合、両方の方法が comparably 性能を達成し、批評が限られたデータを最大限に活用する上で重要な役割を果たすことを示しているんだ。

この調査の一環として、批評を使用すると難しいタスクでのパフォーマンスが大幅に改善されることがわかったんだ。これが彼らの複雑な推論を支える能力を強調しているよ。

微細分析

チャットのサブセットに対するRMのパフォーマンスが低い傾向があることに気づいたので、これを理解するために実験を繰り返して、このサブセットだけに焦点を当てたんだ。RMは10,000ペアを入力した後、高い精度スコアを達成したよ。

一方で、より難しい推論タスクに目を向けると、批評を使ってトレーニングされたRMがベースラインを著しく上回っていることがわかって、難解な例に対する頑強性を示している。

生成的ジャッジRMとの比較

私たちのトレーニングされたRMの能力を確認するために、Command R-35Bから始まる分類器ベースのRMと、批評に基づいた生成的RMを比較したよ。生成的RMに各プロンプト・完了ペアのスコアを生成するようにプロンプトを与えることで、そのパフォーマンスが分類器ベースのアプローチとどう違うのかを見ることができた。

私たちの分析では、通常、分類器ベースのRMが生成的ジャッジのベースラインを上回ることが確認されて、私たちのモデルの有効性が裏付けられたんだ。生成的ジャッジはカジュアルな会話タスクではそれなりにうまく機能したけど、複雑な推論や難しい例には苦しんでいることがわかったよ。

結論

合成批評を統合することでRLHFフレームワーク内の報酬モデルを向上させる新しくアクセス可能なアプローチを提案するよ。LLMに応答の批評を生成させて、RMがこれらの批評に基づいてスコアを付けるようにトレーニングすることで、ベンチマークテストでRMのパフォーマンスを大きく改善することができるんだ。

私たちの実験は、批評の利点が特に資源が限られている状況や弱い事前トレーニングモデルで顕著であることを確認しているよ。批評は自動的に生成されるから、広範な人間の努力が必要なくなって、競争力のある報酬モデルを開発するためのコスト効果の高い解決策になるんだ。

研究が進むにつれて、批評生成の方法やLLMの推論能力を向上させる可能性をさらに探求する予定だよ。私たちは既存のベンチマークに対してRMを直接評価することにフォーカスするけど、将来的にはこれらの批評強化されたRMでLLMを最適化することも含まれるかもしれない。

要するに、私たちの研究は、合成批評が報酬モデルのパフォーマンスを効果的に改善できることを示していて、より効率的で効果的な言語モデルのトレーニングへの道を開いているんだ。

オリジナルソース

タイトル: Improving Reward Models with Synthetic Critiques

概要: Reward models (RMs) play a critical role in aligning language models through the process of reinforcement learning from human feedback. RMs are trained to predict a score reflecting human preference, which requires significant time and cost for human annotation. Additionally, RMs tend to quickly overfit on superficial features in the training set, hindering their generalization performance on unseen distributions. We propose a novel approach using synthetic natural language critiques generated by large language models to provide additional feedback, evaluating aspects such as instruction following, correctness, and style. This offers richer signals and more robust features for RMs to assess and score on. We demonstrate that high-quality critiques improve the performance and data efficiency of RMs initialized from different pretrained models, reducing the reliance on costly human annotations. Furthermore, incorporating critiques improves both the interpretability and robustness of RM training.

著者: Zihuiwen Ye, Fraser Greenlee-Scott, Max Bartolo, Phil Blunsom, Jon Ander Campos, Matthias Gallé

最終更新: 2024-10-18 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2405.20850

ソースPDF: https://arxiv.org/pdf/2405.20850

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事