Sci Simple

New Science Research Articles Everyday

# コンピューターサイエンス # 計算と言語 # 人工知能

人間の評価に合わせたオープンLLMの調整

新しい方法が、限られたデータでのパーソナライズド評価におけるLLMのパフォーマンスを向上させる。

Javad Seraj, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi

― 1 分で読む


LLMの評価を改善する LLMの評価を改善する る方法。 パーソナライズされた環境でLLMを強化す
目次

自動評価に関する大規模言語モデル(LLMS)の利用が今注目されてるけど、評価タスクは主観的で、色んな要因に影響されがちだから、適応が難しいんだよね。いくつかの研究では、トップのプロプライエタリLLMが人間の評価者と比べて良い成績を上げることが分かってるけど、時間が経つにつれて好みに合わせて調整するのが難しい場合が多いんだ。この調整はパーソナライズされた評価には必要不可欠なんだ。

オープンLLMを評価者として使おうとする試みはたくさんあるけど、限られたデータでの問題にうまく対処できてないことが多い。パーソナライズされた判断は、データポイントが少ない状況から来ることが多くて、現実世界でもよくあることなんだ。

この論文では、限られたデータからより効果的なサンプルを選ぶためのデータ増強手法を提案して、オープンLLMを人間の好みに合わせることに焦点を当ててる。結果として、基準判定者とのピアソン相関が約7%改善されて、数学的推論ではベースモデルより30%も改善されたんだって。

人間の評価プロセスは主観的で、評価者の気分によって大きく変わることがあるよね。例えば、学生の論文の採点は、学期ごとに変わることがあって、教師の気分や状況を反映するんだ。この変動性は、評価者の行動をモデル化したり模倣したりする時に考慮しなければならないんだ。

自動評価は、通常利用できるフィードバックが少ないため制限があることが多い。だから、限られたデータの状況での評価のために、効果的なトレーニング方法を探すことが重要なんだ。

この論文では、データが少ない状況でオープンLLMを基準評価者と調整する方法を示していて、数学や一般的なQ&Aタスクでのパーソナライズされた判断に焦点を当ててる。

LLMを使った評価は、機械生成と人間生成のテキストを評価するためのスケーラブルでコスト効果的な方法になってきた。LLMはスコアを付けてフィードバックを提供して、品質を示してるんだ。

プロプライエタリLLMを評価者として使った以前の研究では、人間の判断との高い相関関係、スピードの向上、コスト効率が示されてる。これらのモデルは静的な判断においてうまくいくことが多くて、スコアは固定基準に基づいてる。しかし、特定の評価者の好みに合わせてこれらのモデルをパーソナライズするのは難しくて、動的判断が欠けてる場合が多いんだ。

動的判断っていうのは、評価者が少ないサンプルから学び、時間をかけて評価ポリシーを調整する能力を意味して、パーソナライズされた評価には重要なんだ。この研究では、データが限られた状況でオープンLLMを基準評価者と調整する効果的な方法を示してる。

目標は、LLMの判断を人間の裁定者に合わせることなんだ。提案された方法では、数学と一般的なQ&Aの評価でそれぞれ約9%と7%のピアソン相関の向上が見られた。これによって、より効果的なデータを選ぶことで、アプローチが基本的な方法を上回ることが分かったんだ。

貢献

  1. オープンLLMの動的判断を簡略化する方法を提案した。これは以前に十分に扱われていなかった課題なんだよね。
  2. Chain of Thought(CoT)メソッドを利用して、裁定者モデルの推論能力を向上させるためのデータ増強技術を導入した。
  3. バイアスの軽減に焦点を当てた参照判断からの効果的なインスタンスを選択する方法を導入した。

関連研究

ナイーブデータ作成

好みデータ作成にはいろいろな方法が使われる。ナイーブなデータ作成アプローチは、参照裁定者からの直接フィードバックを使うんだ。

裁定者としてのLLM

LLMを裁定者として使うことが注目されていて、彼らが人間の評価精度を模倣できる能力があるんだ。多くの場合、GPT-4などのプロプライエタリモデルが使われていて、人間の評価との強い一致が見られてる。

人間の好みに合わせる

LLMはテキストを生成するのが得意だけど、指示に従うのや人間の期待に合わせるのが苦手なんだ。監視付きファインチューニング(SFT)がこの調整のための重要な方法になってる。人間のフィードバックからの強化学習(RLHF)に基づくいくつかの方法も出てきてる。

データ効率的な調整

データの量や質は、LLMのトレーニング時間やコストに大きな影響を与える。効率的なデータ使用はトレーニング回数を減らせるんだ。低品質データをフィルタリングしてデータの質を改善することに焦点を当てた研究もある。

データ効率的な判断

このセクションでは、LLMを参照裁定者と調整するアプローチを紹介してる。機械生成テキストに焦点を当ててるけど、人間のテキストにも拡張できるかもしれない。

データキュレーションと増強

評価タスクは公正で正確な意思決定を行うために強い推論能力が求められる。ただ、LLMのLlama-3.1-8B-Instructのようなモデルは評価者としてあまり効果的ではないことが研究で示されてる。

好みデータセットのシード

質問と応答のデータセットからスタートして、参照裁定者からのフィードバックとスコアを集める。このシードデータセットは、LLMの判断性能を向上させることを目指してる。

ナイーブデータ作成アプローチ

この方法では、基本のLLMが応答に対してフィードバックとスコアを生成する。生成されたフィードバックは、参照裁定者からのフィードバックよりも質が低いと仮定されてる。

フィードバックプールアプローチ

各応答について、基本のLLMを使って複数のフィードバックとスコアのペアが生成される。これによって、LLMがより良いフィードバックを出すことができる。

効率的サンプリングアプローチ

この方法では、参照裁定者からより効果的なサンプルを選択する。すべてのフィードバックを使用するのではなく、類似性に基づいてサブセットを選ぶんだ。

実験設定

作成したデータのサイズとフィードバックデータセットから抽出した整合性データセットのサイズを説明する。結果は、参照裁定者との整合性が向上してることを示してる。

評価設定

評価者LMを評価するための実験設定は、基準評価者に対するパフォーマンスメトリクスとしてピアソン、スピアマン、ケンドールのタウを使用する。結果は3つの方法で比較されて、選ばれたデータサンプリング戦略の重要性が強調されてる。

結果

提案されたアプローチは、人間の評価者との整合性において大幅な改善をもたらすことが分かった。ただ、データの可用性に制限があるため、特定のタスクに焦点が当たっていて、その広範な適用性に影響を与えるかもしれない。

結論

LLMには自動評価の可能性があるけど、限られたデータの状況で主観的なタスクにパーソナライズするのは難しい。提案された方法は大幅な改善と、LLMを人間の評価とより良く整合させる可能性を示してる。今後の研究では、タスクの範囲を広げて、データの多様性を増やすことで、より一般化できるようにするのが目標だね。

オリジナルソース

タイトル: Optimizing Alignment with Less: Leveraging Data Augmentation for Personalized Evaluation

概要: Automatic evaluation by large language models (LLMs) is a prominent topic today; however, judgment and evaluation tasks are often subjective and influenced by various factors, making adaptation challenging. While many studies demonstrate the capabilities of state-of-the-art proprietary LLMs in comparison to human evaluators, they often struggle to adapt to reference evaluators over time, a requirement for achieving personalized judgment. Additionally, numerous works have attempted to apply open LLMs as judges or evaluators, but these efforts frequently overlook the limitations of working with scarce data. Personalized judgment is inherently associated with limited data scenarios, which are common in many real-world problems. Our work aims to present a data augmentation technique to select a more effective sample from limited data in order to align an open LLM with human preference. Our work achieves approximately 7% improvements in Pearson correlation with a reference judge over the baseline,and 30% improvement over the base model (Llama3.1-8B-Instruct) in the mathematical reasoning evaluation task. demonstrating that augmenting selecting more effective preference data enables our approach to surpass baseline methods.

著者: Javad Seraj, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi

最終更新: Dec 10, 2024

言語: English

ソースURL: https://arxiv.org/abs/2412.07429

ソースPDF: https://arxiv.org/pdf/2412.07429

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事