言語モデルの推論スキルを向上させること
新しい方法で、小さな言語モデルの複雑なタスクに対する推論が強化される。
― 1 分で読む
目次
言語モデルは多くのアプリケーションで欠かせない存在になってて、私たちが人間の言語に近いテキストを理解したり生成したりする手助けをしてる。最近は、小さな言語モデルの推論能力を強化することに注目が集まっていて、大きくて能力の高いモデルと整合させることで実現しようとしてる。目指すのは、これらの小さなモデルが数学の問題を解いたり常識に基づいた質問に答えたりする際の複雑な推論タスクをうまくこなせるようにすること。
大きな言語モデルは、教師ありファインチューニング(SFT)という手法を使って素晴らしい結果を出してきたけど、小さなモデルはこの方法だけで訓練するとパフォーマンスが遅れがち。これは、訓練中に頼るデモが限られているからだ。そこで、自己改善指示調整という方法が提案された。このアプローチは、大きなモデルからの指導と自己改善を組み合わせたプロセスを通じて、小さなモデルがスキルを磨くことを可能にする。
現在の訓練方法の問題点
多くの既存のアプローチは、大きなモデルからの教師ありデモに大きく依存している。これらのデモは、タスクに取り組む方法を示す良く構造化された例を提供してくれる。しかし、これらの少数の例だけに依存すると、一般化が限られることが多い。小さなモデルは、訓練データに似たタスクではうまくいくけど、バリエーションや新しいシナリオに直面すると苦労することがある。
例えば、小さなモデルが特定のタイプの数学の問題を解くことを学ぶと、たとえ基礎的な推論が似ていても異なる問題タイプにはうまく適応できないかもしれない。だから、これらのモデルに様々なタスクや状況に応用できる堅固な推論能力を身につけさせることが課題なんだ。
自己改善指示調整:概要
自己改善指示調整は、小さなモデルの推論能力を高めるために二段階の訓練プロセスを実施するように設計されている。こんな風に進むよ:
指示調整フェーズ:この初期ステップでは、小さなモデルが大きなモデルから提供されたデモを使って訓練される。これらのデモは、新しい問題に対して構造化された回答を生成するための推論経路を示す。
自己改善フェーズ:初期訓練の後、小さなモデルは推論能力を磨く自己改善プロセスを受ける。このフェーズでは、直接的な好み最適化(DPO)という手法を使う。このプロセスでは、モデルが質問に対して回答を生成し、より大きなモデルが生成した回答と比較する。モデルはフィードバックを受けて間違いから学びながら、出力を継続的に改善する。
この二つのフェーズの組み合わせによって、小さなモデルは高品質の例から学ぶだけでなく、自立した推論能力も強化されるんだ。
指示調整フェーズの説明
指示調整フェーズの間、小さなモデルは大きなモデルが生成した一連の構造化された例にさらされる。各デモは、指示、入力(特定の質問や問題など)、および大きなモデルの推論プロセスを含む関連する出力から成り立ってる。
この訓練フォーマットは、小さなモデルが指示と期待される出力の関係を理解するのを助ける。目標は、小さなモデルが推論パターンを吸収して新しいタスクに直面したときにそれを適用できるようにすること。このフェーズは、主に小さなモデルに基礎的な問題解決スキルを根付かせることに重点を置いてる。
例えば、指示が数学の言葉問題を解くことなら、小さなモデルは問題を管理可能なステップに分解することを学び、大きなモデルが示した構造的アプローチを再現する。この基礎的な訓練は、初期の推論能力を発展させるために重要だ。
自己改善フェーズ:能力の強化
初期訓練が完了すると、小さなモデルは自己改善フェーズに移行する。ここでは、指示調整中に得た知識に基づいて質問に対して独立して答えを生成し始める。
このフェーズでは、モデルはさまざまな入力に対して促される。彼らは自分の答えを生成し、それを大きなモデルの出力と比較する。主な目標は、どの回答が期待される推論経路に沿っているか、どれがそうでないかを特定すること。これを通じて、モデルはより複雑な推論を示す回答を生成することを好むようになっていく。
この好み最適化メカニズムは、モデルが受けたフィードバックに基づいてテクニックを調整するのを可能にする。例えば、小さなモデルが大きなモデルが示した推論に従って正しい答えを生成すると、報酬を得る。逆に、回答が明確さや構造に欠ける場合、モデルは今後のタスクに向けてアプローチを調整することを学ぶ。
結果と成果
自己改善指示調整法の実施は、小さなモデルの推論能力を改善する上で有望な結果を示している。さまざまなベンチマークで行われた評価は、このアプローチで訓練されたモデルが、従来の指示調整のみに基づくモデルを大きく上回ったことを示した。
特に、常識的な推論や数学的な問題解決に関するタスクで顕著な改善が見られた。小さなモデルは、正しく質問に答えるだけでなく、より難しい問題に取り組むための強化された推論能力を示した。
さらに、自己改善指示調整法の特異な利点は、ドメイン内(訓練と同じタイプのタスク)とドメイン外(異なるタイプのタスク)のシナリオの両方にわたって一般化できることだ。この適応能力は、言語モデルが多様で予測不可能な質問に直面する現実世界のアプリケーションには重要だ。
ドメイン内とドメイン外のパフォーマンス
自己改善指示調整アプローチの効果を評価する際の重要な側面は、小さなモデルがドメイン内とドメイン外のシナリオの両方でどれだけうまく機能するかを理解することだ。
ドメイン内タスクは、モデルが出会った訓練タスクに類似したものを指す。この場合、モデルは通常、訓練中に得たスキルを活用して高い精度を示す。
ドメイン外タスクは、より大きな挑戦を提示する。このタスクは、異なる種類の推論やまったく新しいトピックを含むことがある。自己改善指示調整法は、小さなモデルがドメイン外の質問により効果的に対処できるようにし、従来の訓練と比較して顕著な改善をもたらした。
この適応能力は、小さなモデルが初期の訓練範囲外のタスクを実行する必要がある現実世界で信頼性を保てるようにするために不可欠だ。
低リソース環境への対応
自己改善指示調整のもう一つの注目すべき特徴は、低リソース環境での効果的な対応だ。限られた訓練データしかない状況では、自己改善フェーズによってモデルは持続可能なパフォーマンスを達成できる。
例が少なくても、小さなモデルはフィードバックメカニズムを活用して推論スキルを強化できる。この側面は、大規模なデータセットを収集するのが難しい領域でのアプリケーションに特に価値がある。
限られたリソースでのパフォーマンス最適化能力は、教育、医療、顧客サービスなどのさまざまな分野で言語モデルを展開する新しい可能性を開く。
生成された応答の質
モデルが生成した応答の質は、自己改善指示調整アプローチの成功を評価する上でのもう一つの重要な要素だ。小さなモデルと大きなモデルの応答を分析することで、研究者は小さなモデルがどれだけ大きなモデルの推論経路を採用できているかを確認できる。
体系的な評価を通じて、自己改善指示調整を受けた小さなモデルは、より正確で構造や明確さに優れた応答を生成することがわかった。この応答の質の向上は、単なる暗記ではなく、推論プロセスのより深い理解を示している。
結論
要するに、自己改善指示調整アプローチは小さな言語モデルの推論能力を強化するための革新的で効果的な方法を提供している。指示調整と自己改善メカニズムを組み合わせることで、これらのモデルは複雑なタスクに対処するためにより能力の高い柔軟なものになる。
結果は、ドメイン内とドメイン外のパフォーマンスの両方での顕著な向上を示していて、小さなモデルが以前は大きなモデルに限られていたと思われたレベルの推論能力を達成できることを示している。さらに、低リソース環境で効果的に機能できる能力は、このアプローチの実用性を現実のアプリケーションで際立たせる。
言語モデルが進化し続ける中、自己改善指示調整のような方法は、モデルサイズのギャップを埋める上で重要な役割を果たし、より小さなシステムでも高品質な推論を提供し、さまざまなアプリケーションをサポートできるようにするだろう。
今後の作業は、これらの方法をさらに洗練させ、さまざまな言語や文脈での応用を探っていく予定だ。進展を続ける中で、私たちは人間のような推論を理解し生成する言語モデルの可能性を最大限に引き出すことに近づいている。
タイトル: Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models
概要: The alignments of reasoning abilities between smaller and larger Language Models are largely conducted via Supervised Fine-Tuning (SFT) using demonstrations generated from robust Large Language Models (LLMs). Although these approaches deliver more performant models, they do not show sufficiently strong generalization ability as the training only relies on the provided demonstrations. In this paper, we propose the Self-refine Instruction-tuning method that elicits Smaller Language Models to self-refine their abilities. Our approach is based on a two-stage process, where reasoning abilities are first transferred between LLMs and Small Language Models (SLMs) via Instruction-tuning on demonstrations provided by LLMs, and then the instructed models Self-refine their abilities through preference optimization strategies. In particular, the second phase operates refinement heuristics based on the Direct Preference Optimization algorithm, where the SLMs are elicited to deliver a series of reasoning paths by automatically sampling the generated responses and providing rewards using ground truths from the LLMs. Results obtained on commonsense and math reasoning tasks show that this approach significantly outperforms Instruction-tuning in both in-domain and out-domain scenarios, aligning the reasoning abilities of Smaller and Larger Language Models.
著者: Leonardo Ranaldi, Andrè Freitas
最終更新: 2024-05-01 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2405.00402
ソースPDF: https://arxiv.org/pdf/2405.00402
ライセンス: https://creativecommons.org/publicdomain/zero/1.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。