小さい言語モデルの数学的推論の改善
新しい方法で、DPOと自己訓練を使って小さな言語モデルの数学問題解決スキルが向上するんだ。
― 1 分で読む
目次
言語モデルに数学の問題を解かせるトレーニングは、チャレンジングだけど大事な目標なんだ。良いトレーニングには、これらの問題をどう解くかを示す高品質なデータが必要だよ。一部は専門家からのデータが使えるけど、もう一つの一般的な方法は、より大きくて強力な言語モデルからの情報を使うこと。だけど、こういう大きなモデルに頼るのはお金がかかるし、時には予測が難しいこともあるんだ。
この記事では、少ない言語モデルが数学的推論能力を向上させる新しい手法について話すね。この方法は自己トレーニングを利用して、モデルが自分の出力から学ぶんだ。さらに、より良い回答を生み出すようモデルを導く「直接的な好み最適化(DPO)」という技術も紹介するよ。
従来の方法の問題点
言語モデルを数学問題を解くためにトレーニングするのは、費用がかかる大きなモデルからのデータに依存することが多いんだ。これらの大きなモデルは推論が得意だけど、コストが高くなりがちで信頼性が低いこともある。例えば、GPT-4のようなモデルは役に立つ注釈を提供できるけど、その使用は常に実用的とは限らない。
以前の研究では、小さなモデルが大きなモデルから学ぶことで推論能力を高めることができると示されている。これも効果的だけど、計算リソースの点でコストがかかることがある。私たちのアプローチは、パフォーマンスを向上させつつ、コストを下げることを目指しているんだ。
自己トレーニングの概要
自己トレーニングは、トレーニングされたモデルが教師となって新しいデータから学ぶ技術だよ。モデルは新しい数学問題に対する回答を生成して、それを使って自身を改善する。目標はパフォーマンスを向上させるためのより良いラベル付きデータを作ること。自然言語処理などのさまざまな分野で成功裏に使われている方法なんだ。
直接的な好み最適化(DPO)
DPOは、自己トレーニングプロセスを改善する技術なんだ。報酬モデルに頼るだけでなく、DPOは人間の好みに基づいて言語モデルを直接調整できるようにする。プロセスは、モデルが適切なプロンプトに対してさまざまな回答を生成するところから始まる。それらの回答は、人間のフィードバックに基づいて良いものと悪いものに分類されるんだ。
このデータを使って、モデルは将来より良い回答を提供できるようにトレーニングされる。DPOは特に数学の推論タスクに焦点を当てて、モデルを助けるんだ。数学の回答は正しさを簡単にチェックできるから、DPO用のデータセットを作るのも簡単だよ。
DPO強化自己トレーニングフレームワーク
私たちの提案する方法は、ラベル付きデータでモデルをトレーニングするウォームアップフェーズから始まる。初期トレーニングの後、モデルは自己トレーニングとDPOステップを使ってパフォーマンスを洗練させていく。
DPOステップでは、モデルが与えられた質問に対する説明を生成する。これらの説明は、正しい回答を提供するかどうかに基づいて正しいか間違っているかにラベル付けされる。その後、モデルはこのラベル付きデータを使って自分自身をトレーニングしてパフォーマンスを向上させるんだ。
次のSFTステップでは、改善されたモデルがDPOステップからの理解をもとに新しい説明を生成する。このプロセスは反復的に続いて、モデルが少しずつ改善されていくよ。
外部計算機の使用
小さい言語モデルのもう一つの課題は、基本的な算数に苦しむことだよ。これを解決するために、外部計算機をモデルに統合してる。このツールはモデルの算数能力を高めて、数学タスクでのパフォーマンスを向上させるんだ。
既存の多くの技術は、計算機を使う時に一度に一つの質問しか処理しないので、パフォーマンスが遅くなっちゃうんだ。私たちの方法は、同時に多くの質問を処理できるようにして、全体的な速度と効率を向上させるよ。
実験の設定
私たちの方法がどのように機能するかを理解するために、フラン-T5の2つのバージョンを基本モデルとして使用したんだ。これを、GSM8Kという数学の文問題の人気ベンチマークで試したよ。さらに、トレーニング例の一部を選んで別の検証データセットを作った。
実験では、私たちの方法を従来の監視付きファインチューニングと標準的な自己トレーニング方法と比較した。この比較は、私たちのDPO強化プロセスが既存の技術に対してどれだけうまく機能するかを示す目的があったんだ。
主な発見
私たちの結果は、自己トレーニング方法、特にDPO強化アプローチが従来の監視付きファインチューニング方法に比べて大きく優れていることを示してる。これは自己トレーニングが言語モデルの推論能力を効果的に改善できることを示してるんだ。
自己トレーニング方法は、初期の監視モデルよりも改善されたけど、私たちのDPO強化アプローチは、馴染みのある(インドメイン)タスクでも新しい(アウトオブドメイン)タスクでも優れたパフォーマンスを示したよ。
特に私たちの方法は、自己トレーニングの利点を活かしつつ、コストを最小限に抑えるんだ。DPOステップを通じて高品質のデータを生成することで、モデルはより良い回答を生み出せることが分かったんだ。
反復トレーニングの重要性
私たちは反復トレーニングが一貫して改善をもたらすことを観察した。初期の結果では自己トレーニング方法が似たようにスタートしたけど、トレーニングが進むにつれて、私たちのDPO強化アプローチが常に各ステップで良い結果を示したんだ。
この改善は、私たちの方法が言語モデルのパフォーマンスを洗練させるのに効果的であることを強調してる。大きなモデルでも反復を通じてしっかりした向上が見られたよ。
DPOの自己トレーニングへの影響
私たちのプロセスの中でDPOステップは、自己トレーニングフレームワークを高める重要な役割を果たしてる。初期の評価では、DPOステップが単一の解決策に対する改善は限られていたけど、モデルが複数の理由を生成する能力を大きく向上させることができたんだ。
より多くの解決策を問題ごとにサンプリングすることで、DPOトレーニングはモデルが多様で高品質な出力を生み出すのを促進するんだ。この幅広い解決策生成能力は全体のパフォーマンスを向上させるよ。
外部計算機の役割
先に触れたように、小さいモデルは算数問題に苦しむことが多い。私たちの方法は外部計算機を使ってこの問題を解決してる。これなしでは、モデルは最終的な回答が正しく見えても、多くの不正確な出力を生成しちゃうことが多いんだ。この制限が全体の精度を下げることになる。
私たちのアブレーションスタディでは、計算機を使ったモデルはさまざまな反復でより良いパフォーマンスを示したんだ。この発見は、モデルの推論能力をサポートするツールを統合する重要性を示しているよ。
結論
要約すると、私たちはDPO強化自己トレーニングを通じて、小さい言語モデルの数学的推論能力を向上させる新しい方法を紹介したんだ。この技術はこれらのモデルの学習能力を高めるだけでなく、リソース効率の良い方法でもあるよ。自己トレーニングとDPOを使うことで、私たちのモデルはパフォーマンスを大幅に改善し、小さなスケールと算数的推論の課題にも対応することができたんだ。
私たちの発見は、将来的な研究がこのアプローチを他の推論タスクに拡張し、適切なデータセットを特定し、高品質なラベルなしデータを収集する方法を探索するべきだと示唆しているよ。この研究は、言語モデルとその応用をさまざまな分野で改善する新しい道を開くことになるんだ。
タイトル: Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
概要: Effective training of language models (LMs) for mathematical reasoning tasks demands high-quality supervised fine-tuning data. Besides obtaining annotations from human experts, a common alternative is sampling from larger and more powerful LMs. However, this knowledge distillation approach can be costly and unstable, particularly when relying on closed-source, proprietary LMs like GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate that the reasoning abilities of small-scale LMs can be enhanced through self-training, a process where models learn from their own outputs. We also show that the conventional self-training can be further augmented by a preference learning algorithm called Direct Preference Optimization (DPO). By integrating DPO into self-training, we leverage preference data to guide LMs towards more accurate and diverse chain-of-thought reasoning. We evaluate our method across various mathematical reasoning tasks using different base models. Our experiments show that this approach not only improves LMs' reasoning performance but also offers a more cost-effective and scalable solution compared to relying on large proprietary LMs.
著者: Tianduo Wang, Shichen Li, Wei Lu
最終更新: 2024-07-25 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.18248
ソースPDF: https://arxiv.org/pdf/2407.18248
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。