言語モデルの自己学習の進展
新しいフレームワークが、ガイド付き推論を使って大規模言語モデルの自己トレーニングを強化するよ。
― 1 分で読む
目次
近年、大規模言語モデル(LLM)が人工知能の分野で重要な役割を果たすようになった。これらは人間のようなテキストを理解し生成するために設計されたコンピュータープログラムだ。膨大なデータ、主に人間によって作られたデータを使って訓練されていて、そのおかげで自然な回答を出すことができるようになっている。高品質な応答の需要が高まる中、研究者たちはこれらのモデルをさらに改善する方法を模索し始めている。
LLMを改善するための有望な方法の一つが自己訓練だ。このアプローチはモデル自体を使って能力を洗練させることを含む。従来、LLMは人間が生成したデータに大きく依存していた。しかし、高品質の人間コンテンツの供給源が限られてくる中、研究者たちはLLMが自分自身で訓練データを生成できる方法を探っている。このシフトは重要で、モデルが自身の出力から継続的に学び、時間とともに成長することを可能にするからだ。
自己訓練の課題
自己訓練には潜在的な利点があるが、同時に課題も伴う。LLMが生成する回答や推論ステップは、必ずしも正確または有用とは限らない。モデルが正しい結論に達しながらも不正確な中間ステップを生じるリスクがある。こうした不正確さは、誤りに満ちたトレーニングデータセットを生み出し、自己訓練プロセスの効果を制限する。
より良い自己訓練プロセスを作るためには、LLMによって生成される推論ステップが最終的に正しいだけでなく、各ステップでも妥当であることを確認する必要がある。これには推論ステップの質をチェックし、全体の解決に対してポジティブに寄与することを保証することが求められる。
新しいアプローチの目的
ここで話されている新しいアプローチは、LLMの自己訓練のためのより信頼性の高い方法を提供することを目的としている。主な目標は、高品質の推論トレースを集めることで、これは回答に至る段階的な思考過程だ。より良い推論ステップを集めることに焦点を当てることで、モデルはこれを訓練データとして使用でき、時間とともにパフォーマンスが向上する。
提案された方法は、プロセス報酬ガイダンスと木探索技術を組み合わせている。これは、LLMが正しい解に至る可能性に基づいて各推論ステップを評価するガイディングメカニズムを使用することを意味する。この方法を実装することで、研究者たちはモデルが自身の推論プロセスから学ぶ手助けをし、効率的かつ正確にすることを目指している。
自己訓練における報酬の役割
報酬は強化学習において重要な役割を果たし、これは多くの自己訓練手法の基礎である。この文脈での報酬は、特定の行動がどれほど良いか悪いかを示す信号だ。報酬が高いほど、その行動は良いと見なされる。自己訓練を効果的に実施するためには、LLMが出力を評価するための明確な報酬システムを必要とする。
従来のアプローチは、人間データからの既存のラベルを使用することに依存している。しかし、これは制限がある。新しい方法では、人間生成のラベルに頼るのではなく、推論プロセス自体から報酬を推測することを提案している。この変化は、訓練プロセスを強化し、スケーラブルにすることを目指している。
提案されたフレームワーク
ここで紹介されるフレームワークは、ガイド付き推論を使用してLLMを訓練するための構造化された方法を導入している。これは、モデルがさまざまな推論経路をより効果的に探査するのを助ける修正されたモンテカルロ木探索(MCTS)アルゴリズムを組み込んでいる。
フレームワークの主要コンポーネント
探索ポリシー: これは、モデルが異なる推論経路を探索するために使用する戦略だ。モデルが潜在的な解の質に基づいてどのステップを選択するかを決定する。
プロセス報酬モデル: このモデルは各推論ステップの質を評価する。正しい答えに至る可能性に基づいてスコアを付与する。
LLM自己訓練: これは探索ポリシーと報酬モデルを組み合わせて、高品質の推論トレースを集めることを含む。
木探索アルゴリズム: このアルゴリズムは、モデルが最適な解を見つけるために可能な推論経路を効率的にナビゲートすることを可能にする。
これらの要素を組み合わせることで、フレームワークは自己訓練プロセスを洗練させ、LLMの全体的なパフォーマンスを向上させることを目指している。
高品質の推論トレースを集める
成功した自己訓練システムを作るためには、高品質の推論トレースを集めることが不可欠だ。これは、モデルが解に至る過程の正確なステップだ。しかし、すべての推論経路が同じ価値を持つわけではない。正しい答えに至るが、不必要な中間ステップや不正確なステップを含むものもある。
提案されたフレームワークは、低品質な推論ステップを排除し、価値を追加するものを維持することに焦点を当てている。これはプロセス報酬モデルを使用して、各推論ステップが最終的な答えにどれだけ貢献するかに基づいて評価することで実現される。
トレース収集のプロセス
初期化: プロセスは、モデルが取り組む初期の問題セットから始まる。このセットは、さまざまな数学や科学の質問から引き出される。
木探索: モデルは木探索アルゴリズムを使用して、各質問に対する異なる推論経路を探る。これらの経路の結果は割り当てられた報酬に基づいて評価される。
プルーニング: 探索プロセス中に、最終的な答えに至らない分岐や報酬が低いものをモデルが取り除く。これにより、最も有望なトレースに焦点を合わせることができる。
検証: 潜在的な推論経路が集められたら、それらの正確性を検証する。これは簡単なチェックやモデル自身によるより複雑な評価を通じて行うことができる。
フィードバックループ: モデルは集めたトレースに基づいて継続的に自分自身を更新する。検証された推論ステップを新しい訓練データとして使用し、意思決定能力を向上させる。
これらのプロセスを実施すれば、モデルは効率的に高品質な推論トレースを収集し、さらなる自己訓練の確固たる基盤を提供することができる。
プロセス報酬モデルとポリシーモデルの相互自己訓練
このフレームワークは、プロセス報酬モデルとポリシーモデルの双方に対して相互自己訓練プロセスを促進する。この意味は、一方のモデルが改善されると、もう一方に良い影響を与え、継続的な向上のサイクルを生み出すことだ。
相互自己訓練の利点
効率の向上: 両方のモデルが自己訓練できることで、フレームワークは利用可能なデータの最大限の活用を図る。互いの出力から学ぶことで、学習プロセスが強化される。
高品質なトレース: プロセス報酬モデルは、どの推論経路が高品質であるかを特定するのに役立ち、ポリシーモデルがより効果的な推論ステップを生成するのを導く。
適応性の向上: モデルがさまざまな質問やタスクにもっと早く適応できる。フィードバックループは両方のモデルが常に進化し、応答を最適化することを保証する。
実験設定と結果
このアプローチの効果を検証するために、研究者たちは既存の自己訓練手法と比較するさまざまな実験を行った。異なるLLMのバックボーンを使用して、複数のイテレーションにわたってパフォーマンスを評価した。
評価指標
モデルは、数学的および科学的推論タスクの解決における正確さに基づいて評価された。重要なパフォーマンス指標は以下の通りだ:
- 正確さ: モデルが正しい答えを生成する頻度。
- 推論の質: 中間の推論ステップの正確さと関連性。
- 効率: 最終的な答えに至るために必要なステップ数。
結果の概要
結果は、提案されたフレームワークがいくつかのベンチマークで以前の自己訓練手法を大幅に上回ったことを示した。モデルの正確さは各イテレーションで向上し、相互自己訓練プロセスの効果を示した。
改善された正確さ: この新しいアプローチは、従来の手法に比べて一貫して高い正確さを達成した。
質の高い推論ステップ: モデルが生成した推論経路には、エラーや無関係なステップが少なかった。
持続可能な学習: このフレームワークは、広範な人間の入力やラベリングを必要とせず、継続的な自己改善を可能にし、LLMの訓練にスケーラブルな解決策となった。
結論
プロセス報酬ガイダンスシステムと木探索アプローチの統合は、大規模言語モデルの自己訓練において貴重な進展をもたらした。高品質の推論トレースを集めることに焦点を当てることで、モデルは継続的に学び、パフォーマンスを向上させることができる。
これらの発見は、さまざまな複雑な推論タスクに対するLLMを洗練させるためのこの革新的な方法の可能性を強調している。分野が進化を続ける中で、数学や科学を超えた追加のアプリケーションを探るためのさらなる研究が必要だ。これにより、より強力で能力のある言語モデルへの道が開かれる。
今後の方向性
今後の探求のために、いくつかの重要な分野がある:
他のドメインへの一般化: このアプローチは、数学や科学以外のさまざまな推論タスク、たとえばコーディングや会話AIに適応できるかもしれない。
価値モデルのスケーリング: より包括的な価値モデルを作成することで、訓練プロセスの正確さと効率性が向上するかもしれない。
データフィルタリング技術の強化: 生成されたデータのフィルタリング手法を改善することは、訓練データセットの質を維持するために重要だ。
最終的な目標は、さまざまなドメインで適用できる柔軟で強力な自己訓練フレームワークを作成し、言語モデルの能力を向上させて複雑なタスクを理解し推論することだ。
タイトル: ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search
概要: Recent methodologies in LLM self-training mostly rely on LLM generating responses and filtering those with correct output answers as training data. This approach often yields a low-quality fine-tuning training set (e.g., incorrect plans or intermediate reasoning). In this paper, we develop a reinforced self-training approach, called ReST-MCTS*, based on integrating process reward guidance with tree search MCTS* for collecting higher-quality reasoning traces as well as per-step value to train policy and reward models. ReST-MCTS* circumvents the per-step manual annotation typically used to train process rewards by tree-search-based reinforcement learning: Given oracle final correct answers, ReST-MCTS* is able to infer the correct process rewards by estimating the probability this step can help lead to the correct answer. These inferred rewards serve dual purposes: they act as value targets for further refining the process reward model and also facilitate the selection of high-quality traces for policy model self-training. We first show that the tree-search policy in ReST-MCTS* achieves higher accuracy compared with prior LLM reasoning baselines such as Best-of-N and Tree-of-Thought, within the same search budget. We then show that by using traces searched by this tree-search policy as training data, we can continuously enhance the three language models for multiple iterations, and outperform other self-training algorithms such as ReST$^\text{EM}$ and Self-Rewarding LM. We release all code at https://github.com/THUDM/ReST-MCTS.
著者: Dan Zhang, Sining Zhoubian, Ziniu Hu, Yisong Yue, Yuxiao Dong, Jie Tang
最終更新: 2024-11-18 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.03816
ソースPDF: https://arxiv.org/pdf/2406.03816
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。