Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

構造化フィードバックで言語モデルの推論を改善する

新しい方法で、自動フィードバックを通じて言語モデルの推論を向上させる。

― 1 分で読む


フィードバックでAIの推論フィードバックでAIの推論を強化する方法。批評モデルを使ってAIの推論を洗練させる
目次

最近、言語モデル(LM)が推論作業で大きく進化して、推論につながるステップを生成する「思考の連鎖プロンプト」と呼ばれる手法が増えてきた。でも、これらのステップが間違っていることがあって、最終的な答えも間違ってしまうことがある。そこで、我々は、批評モデルから自動フィードバックを受けながら、中間的な推論ステップを生成するようにLMを微調整する方法を提案するよ。

この批評モデルは、LMの推論を評価して構造的なフィードバックを提供することで、LMがステップバイステップで推論を改善できるようにする。俺たちはこの方法を3つの異なる推論タスクで試してみたら、同じサイズの他のLMと比べてパフォーマンスが大幅に向上したんだ。それに、GPT3.5を推論モデルとして使うと、批評者がさらなる微調整なしでパフォーマンスを向上させることができることがわかった。

大規模言語モデル(LLM)は自然言語処理(NLP)のタスクで大きな進展を遂げてきた。研究によると、推論作業中に中間のステップを生成することがモデルのパフォーマンスを高め、結論に至る過程を理解しやすくするんだ。これらの中間ステップはモデルの予測に対する洞察を提供して、人々がその推論プロセスを見直すことを可能にする。でも、これらのステップがいつも信頼できるわけではなくて、後のタスクで悪い結果を招くこともある。重要なのは、全体的なパフォーマンスを改善するために、これらの中間ステップをどう効率的に洗練させるかだ。

推論の間違いを修正する通常の方法は、新しいデータに印を付けて、モデルを再トレーニングしたり微調整したりすることなんだけど、残念ながらこの方法はデータもリソースも多くかかるし、複雑な推論タスクにはうまくいかないことがある。他の研究ではフィードバックを使ってモデルを強化することが検討されていて、時には単一のスコアを与えたり、正しい答えを直接示したりすることもある。でも、自然言語の推論タスクでは、さまざまなタイプの推論エラーを捉えるスコアを作るのが難しい。

この研究では、推論の間違いに対して詳細で整理されたフィードバックを提供するよ。フィードバックを通じて生成LMが推論を改善する新しい方法を紹介する。このインタラクションは、生成モデルがまず中間的な推論ステップを生成してタスクを解決する「ジェネレーター」と、これらのステップで見つけたエラーについて構造的なフィードバックを提供する「批評者」の2つのモデルの間で行われる。

批評モデルを効果的にトレーニングするために、自動的にフィードバックデータを生成する方法を開発した。間違った中間ステップと特定の推論エラーに関する構造的フィードバックのペアを生成して、批評者にこれらの間違った推論ステップに対して詳細なフィードバックを提供するようにトレーニングした。批評者は生成LMとインタラクションし、トレーニングや予測の際にフィードバックを提供する。

我々の方法の主なポイントは以下の通り:

  1. フレームワークの導入: フィードバックを通じてLMの推論スキルを向上させる新しいフレームワークを提案する。これは、中間ステップに対する詳細な推論フィードバックがLMの推論タスクにおけるパフォーマンスにどう影響するかに焦点を当てた初めての研究。

  2. さまざまなタスクでの評価: 数学の文章問題、合成自然言語推論テスト、道徳的行動を生成するという3つの推論タスクで我々の方法を評価した。この方法は、さまざまな強力なLMのベースラインと比べてパフォーマンスが大幅に向上した。

  3. 少数ショット設定での改善: 数学の文章問題と合成推論タスクにおいて、我々の批評モデル単独でも中間表現を改善するのに役立つことがわかった。また、構造的なフィードバックが、道徳的行動や数学の文章問題タスクに対してスコアを単に提供するよりも有益であることが確認された。

  4. 分析結果: 我々の分析は2つの重要な側面を明らかにする。中間ステップの生成を向上させることで推論タスクのパフォーマンスが向上し、完璧でない批評者と共に生成者をトレーニングしても利益をもたらすということだ。

関連研究

中間表現

高度なLMが多くのタスクに優れている一方で、複雑な推論タスクには苦しむことが多い。これらのタスクは、多くの制約やサブプロブレムを含むことが多く、専門的な知識が必要だったり、一般的なタスクに似たキーワードを持っていたりする。研究では、中間ステップや説明が数学のスキルを学び、推論の出力を向上させるのに役立つことが示されている。

我々の研究は、中間ステップを生成することが価値があるという考えを基にしているが、異なるアプローチを取っている。まず、大きなモデルを使う代わりに、小さなモデルを微調整する。次に、我々の方法は柔軟で、道徳的規範タスクのように常に明確な正解がないタスクにも対応できる。最後に、我々のフレームワークは批評者を使ってフィードバックを提供し、モデルの推論プロセスを向上させる。

自然言語フィードバック

最近の研究では、自然言語を通じてより豊かなフィードバックを提供し、LMの出力をユーザーの好みに合わせようとしている。しかし、このフィードバックはしばしば人間が作ったデータに依存していて、リソースがかかる。外部のフィードバック提供者はモデルをより良く導くことができるけど、推論タスクのための自動的な批評者を開発するのは難しい。

我々の研究でも、批評者という二次モデルを使っているが、これはトレーニング中に生成モデルとインタラクションするループに組み込まれている。最終的な答えではなく、中間ステップの間に特にフィードバックを提供する。この手法は、誤りの発生源に近いところで間違いを修正することに焦点を当てており、モデルの推論を正しい結論へ向かわせるのに役立つ。

問題の定式化

自然言語推論(NLR)を、モデルが与えられた入力に基づいてタスク要求を満たす出力を生成するタスクとして考える。この正しいまたは妥当な出力を作成するために、モデルは中間ステップを効果的に推論する必要がある。

NLRタスクをいくつかのカテゴリーに分ける。例えば:

  1. 合成自然言語推論(sNLR): ここでは、モデルが合成ルールや事実を含むシナリオから結論を導き出す必要がある。

  2. 数学の文章問題(MWP): モデルは文章問題を与えられて、その文脈を有効な数学的表現に変換し、解決策を導き出さなければならない。

  3. 道徳的規範行動生成(MS): 対象、意図、不道徳な行動が与えられた場合、モデルは道徳的規範と道徳的行動を生み出す必要がある。これは、提供された道徳的ガイドラインに沿った道徳的行動を生成することを含む。

我々は中間仮説を生成し、構造的なフィードバックに基づいてそれらを洗練させることでこれらのタスクを解決する。我々のインタラクティブなフレームワークは、批評モデルが中間的な推論を評価し、推論タスクを解決する生成モデルから成り立っている。

フィードバックデータ生成

批評者をトレーニングするためには、非現実的な仮説のペアとその推論エラーを説明するフィードバックを生成する必要がある。我々は各タスクに対して特定の推論エラータイプを定義する。例えば、数学の文章問題では、演算子やオペランドが間違っている、または演算子が欠けている場合、方程式が正しくないとされる。sNLRでは、推論ルールが論理的に無効であったり、推論規則が欠けている場合、その推論ルールが欠陥がある。

非現実的な仮説を生成するために、妥当な仮説をトークンやルールを省略、置き換え、または追加して変更する。次に、誤った仮説におけるエラータイプを説明する構造的なフィードバックを提供する。

批評モデル

批評者の仕事は、生成モデルによって作成された中間仮説にフィードバックを与えることだ。仮説を評価する一つの方法は、正しい仮説と比較すること。しかし、BLEUやROUGEのような自動的なメトリクスを使うのは適切でない。なぜなら、それは細かい推論エラーを捉えないからだ。だから、我々は仮説を評価し、構造的なフィードバックを提供するために批評モデルをトレーニングした。

批評者をトレーニングする際、妥当な仮説と非現実的な仮説、そしてそのフィードバックを含むデータセットを生成する。このことで、批評者は効果的に構造的なフィードバックを提供する方法を学ぶことができる。

生成モデル

我々は、批評モデルと連携して働く生成モデルを提示する。最初に、生成モデルは文脈に基づいて妥当な仮説を生成するようにトレーニングされる。ウォームアップフェーズの後、批評者からのフィードバックを利用して生成モデルの出力を改善する。

各イテレーションで、生成モデルは複数の仮説を生成し、批評者がそのうちの一つを選んで評価する。このプロセスにより、生成モデルはトレーニング中に多様なフィードバックを得ることができる。

実験設定

データセット

我々の方法を3つの推論タスクで評価し、使用した各データセットの簡単な説明を提供する。

  • 数学の文章問題(MWP): MAWPsデータセットでトレーニングし、難しいSVAMPデータセットでテスト。方程式生成と最終的な答えの予測を評価。

  • 合成自然言語推論(sNLR): 合成ルールと事実を持つ推論シナリオのための難易度が高いデータセットを使用。

  • 道徳的物語(MS): このデータセットには、道徳的規範と行動生成を評価するための状況、意図、行動が含まれている。

トレーニング詳細

各タスクに対して特定のモデルをトレーニングする。バリデーションロスに基づいてハイパーパラメータを選択し、すべてのモデルを高性能GPUでトレーニングする。さまざまなランダムシードでモデルを実行し、平均結果を報告する。

ベースライン

我々の方法を生成モデルとして使用された3つの異なるLMと比較する。我々の研究は、各種の強力なLMのベースラインに対して、中間ステップと最終答えを生成する際のパフォーマンスの大幅な改善を示している。

結果

中間ステップのパフォーマンス

我々の方法が中間ステップに対してどれだけ良いパフォーマンスを発揮するかを評価し、全タスクにおいて改善が見られた。結果は、トレーニング中に批評モデルを使用することで中間ステップの生成が向上することを確認している。

sNLRタスクの結果

MWPタスクと同様に、我々の方法は推論ルールやそれに続く予測の生成においてベースラインモデルよりも顕著な改善を示した。

道徳的行動生成の結果

人間の評価によって、人間の物語タスクにおいて我々の方法がより関連性の高い規範や行動を生むことが分かり、批評モデルからのフィードバックの有効性がさらに支持された。

最終答えの予測

中間ステップの質を改善することで、数学の文章問題、合成推論、道徳的物語タスクでの最終答えの予測が改善されることがわかった。

エラー分析

データセットに対して詳細なエラー分析を行い、我々の方法とベースラインモデルの両方が犯した一般的なエラーを特定する。我々のトレーニングされた批評モデルは、これらのエラーを効果的に減少させ、推論の成果を向上させる役割を果たしている。

ノイズ感受性

不完全な批評者と共にトレーニングした場合、生成モデルにどう影響するかをテストする。我々の実験では、推論時に良い批評者が性能に大きく影響することがわかった。

質的な例

我々のフレームワークが構造的フィードバックを通じて誤った推論を如何に修正できるかを示す質的な例を提供する。また、批評者が作用して生成者の出力を改善するのに成功した状況も強調する。

結論

この論文は、構造的フィードバックを通じてLMの推論タスクを向上させる新しいアプローチを紹介する。中間的な推論ステップの洗練に焦点を当てることで、我々のフレームワークはさまざまなタスクで大きなパフォーマンス向上を提供する。今後の研究では、より広範な推論アプリケーションに対する批評モデルの一般化を目指し、複雑な推論シナリオにおけるフィードバックのニュアンスをさらに探求する予定。倫理的な配慮も重要で、LMに存在するバイアスに関するさらなる注意を要する。

要するに、我々のフレームワークは、言語モデルの推論能力を改善するための意義あるステップを示していて、自然言語処理の分野に貴重な追加となる。

オリジナルソース

タイトル: REFINER: Reasoning Feedback on Intermediate Representations

概要: Language models (LMs) have recently shown remarkable performance on reasoning tasks by explicitly generating intermediate inferences, e.g., chain-of-thought prompting. However, these intermediate inference steps may be inappropriate deductions from the initial context and lead to incorrect final predictions. Here we introduce REFINER, a framework for finetuning LMs to explicitly generate intermediate reasoning steps while interacting with a critic model that provides automated feedback on the reasoning. Specifically, the critic provides structured feedback that the reasoning LM uses to iteratively improve its intermediate arguments. Empirical evaluations of REFINER on three diverse reasoning tasks show significant improvements over baseline LMs of comparable scale. Furthermore, when using GPT-3.5 or ChatGPT as the reasoner, the trained critic significantly improves reasoning without finetuning the reasoner. Finally, our critic model is trained without expensive human-in-the-loop data but can be substituted with humans at inference time.

著者: Debjit Paul, Mete Ismayilzada, Maxime Peyrard, Beatriz Borges, Antoine Bosselut, Robert West, Boi Faltings

最終更新: 2024-02-04 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2304.01904

ソースPDF: https://arxiv.org/pdf/2304.01904

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事