Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能

言語モデルへの信頼を高める

新しいトレーニング方法が言語モデルの回答における確実性の表現を向上させるんだ。

― 1 分で読む


AIの信頼性調整ブーストAIの信頼性調整ブースト向上させる。新しい手法が言語モデルの自信表現の精度を
目次

大規模言語モデル(LLM)は質問に答えられるだけでなく、その答えにどれだけ自信があるかも表現できるんだ。自信の度合いを数字で示したり、確信を持っているように聞こえたり、追加情報を提供したりすることでそれを表せる。これらのモデルが信頼できるためには、彼らの自信がその答えの正確性に一致している必要がある。しかし、多くのモデルは間違った答えを出しているときでも、自信を持ちすぎることが多いんだ。

この問題を解決するために、研究者たちはリスナーの視点に焦点を当てた新しいトレーニング方法を考案した。この方法は、答えが正しいかどうかだけでなく、その答えをリスナーが受け入れる可能性もチェックする。こうすることで、モデルがリスナーとのコミュニケーションを改善する手段としてタスクを扱うんだ。データは、1つのモデルが答えを出し、もう1つのモデルがその答えに対するリスナーの反応をモデル化する二部構成のゲームを使って作られる。

Mistral-7B、Llama3-8B、Llama3-70Bの3つの異なる言語モデルがこの新しい方法でトレーニングされた。結果は、リスナーとインタラクトする際に、回答の正確性に応じて自信レベルを一致させるのが上手くなったことを示した。この改善は実際の人間のリスナーにも及び、彼らがモデルの答えに対するより正確な判断をするのを助けた。

評価では、人間のアノテーターがモデルの出した答えを受け入れるか拒否するかを決めるように求められた。その結果、新しいトレーニング方法を使うことによって、リスナーが受け入れる間違った答えの数が減少し、正しい答えが同じ率で受け入れられることができた。また、トレーニング方法は異なるデータセットにも適用でき、モデルの提供する答えの真実性を大幅に向上させる効果があった。

この研究は、新しいトレーニングアプローチがモデルの自信の表現を改善したことを強調している。この方法でトレーニングされたモデルは、不確かな時には答えを曖昧にしたり、正しい時には明確な確信のサインを使ったりしている。彼らは権威あるトーンを頻繁に使用し、答えが正しいときにはより多くの詳細を提供していた。さらに、トレーニングによって、答えが不確かであるときに「わからない」と言う可能性が高まった。

コミュニケーションとリスニング:言語の重要性

人々がコミュニケーションを取るとき、一般的に会話を効果的にするための特定のルールに従うんだ。良い会話者は、正直で、関連性があり、明確で、簡潔であるように努める。これらのガイドラインが無視されると、リスナーを誤解させて、話し手が信頼できない、または無能に見えることがある。

大規模言語モデルは、これらの原則の多くに従うことが多いけど、真実を語るのが苦手なんだ。多くの場合、提供される答えは正しくなくても、過度に自信満々に提供されることがある。これがユーザーを騙して、モデルが信頼できる情報を提供していると信じさせる可能性があり、誤解を招くことになる。

モデルの自信はさまざまな方法で表れる。彼らは、数値スコアを示して(「私は100%自信があります」など)、確信があることを示すことができる。また、詳細や表現の仕方を通じて暗黙的に自信を示すこともできる。しばしば、これらの詳細はでっち上げられたもので、事実を示していないことがある。例えば、モデルが「この映画を劇場で見たのを覚えている」と言うかもしれないけど、実際にはそうではないかもしれない。

暗黙的および明示的な自信

答えを知らないリスナーがモデルの応答を評価する際、彼らはその答えがどれだけ自信があるように聞こえるかに頼る。表示された自信は、彼らが答えを受け入れるか拒否するかの決定に影響を与える。モデルが自信レベルを調整できるように、新しい方法は話す側(答えを出すモデル)のトレーニングを、リスナーの視点を考慮に入れて行う。

このトレーニングの前、モデルは自分の答えの正確さに関わらず高い自信を示すことが多かった。しかし、トレーニングの後、モデルは自分の答えが正しいときにはより自信を持ち、間違っているときにはそうでないことが分かった。

過信の問題は心配で、特に人々がこれらのモデルに信頼できる情報を求めるようになると、なおさらだ。多くのユーザーは自分自身で答えを知らないため、モデルの答えを疑問に思わず受け入れることがある。この行動はAIシステムへの信頼の喪失につながることがある。

より良い自信のための実用的トレーニング

新しいトレーニング方法は、次の2つの主な問題に焦点を当てている:

  1. モデルは自分の答えが正しいか間違っているかについての知識が欠けていることが多い。
  2. モデルはリスナーが彼らの言葉をどう理解するかを考えない。

まず、ベースモデルは自分の答えが正しいかどうかについての直接的なフィードバックを受けないため、自信を和らげる理由がほとんどない。次に、これらのモデルはリスナーがリアルタイムでいかに自分の反応を解釈するかを考慮しない。人間のフィードバックでトレーニングされたモデルは、これらのスキルを持っているように見えるかもしれないが、以前の研究は彼らが自信のキャリブレーションに関してベースモデルよりもパフォーマンスが悪いことを示している。

新しいリスナー意識キャリブレーション法は、モデルを、彼らの答えの正確さとリスナーがその答えを正しいと認識するかどうかのフィードバックを使用して微調整する。この方法は、単に正しい答えを得ることから、いかに効果的に答えがリスナーに自信を伝えるかに焦点を移す。

AIシステムへの信頼の向上

この自信のキャリブレーションを改善するために、研究者たちは直接的好み最適化(DPO)という方法を使った。彼らは、モデルからの好ましい出力と好ましくない出力の例を含むデータセットを構築した。標準的な言語モデルから複数の長文応答を生成し、それをリスナーモデルの応答と比較することで、モデルが自信を正確に表現することに対して報酬を与える好み関数を定義できた。

トレーニングの目的は、より良いキャリブレーションされた出力を作成することであり、最終的にはモデルが自信をより正確に表現できるようにすることだ。評価では、モデルがリスナーモデルとテストされたとき、キャリブレーションが改善され、彼らの答えがどれだけ正確であったかをよりよく反映していた。

人間の評価と現実世界への影響

トレーニングの後、モデルの応答は、実際の人間のリスナーとのインタラクションでどれほどうまくパフォーマンスを発揮するかを見るためにトリビアの質問セットに対してテストされた。結果は、精度が大幅に改善されたことを示しており、正しくない答えを受け入れる数が減り、正しい答えの受け入れ率は維持された。

さらに、この新しいモデルは「わからない」と言う頻度が増え、答えについて不確かな時にもっとそのように言うことが多くなった。これは良い変化で、モデルがより慎重になり、リスナーを誤解させるのを避けることを示唆している。

言語とコミュニケーションの背景

プラグマティクスは、文脈における言語の理解を研究する分野で、単に言葉の文字通りの意味を超えたことを考慮する。グライスのコミュニケーションの原則は、一般的に会話で人々が従うガイドラインを示しており、明確さや関連性を持つことなどが含まれる。メッセージがリスナーにどのように解釈されるかを理解する重要性は、プラグマティック分析の中心にある。

言語モデルキャリブレーションの過去の試み

過去の研究では、モデルが自信を表現する方法を改善するためにいくつかの方法が提案されてきた。ある研究では、モデルの出力に特定のマーカーや制御コードを使って自信を言語化することに焦点を当てたものもある。他の研究では、モデルの自信レベルのキャリブレーションを改善するためにモデルを微調整している。

しかし、依然としてモデルはリスナーがどのように反応するかを考慮せずに出力を生成することが多いという課題が残る。新しい方法は異なるアプローチを取り、マルチエージェントシステムを通じてモデルをトレーニングし、異なる話し手とリスナーのモデルが実際のインタラクションをよりよくシミュレートできるようにしている。

研究で使用されたデータセット

この研究では、2つのデータセットが使用された。TriviaQAデータセットには、多くのトリビア質問とその回答、ソース文書が含まれており、広範なテストとトレーニングを可能にした。TruthfulQAデータセットは一般的に誤解を含む質問が含まれているため、トレーニング後のモデルの真実性を評価するための良いツールとなっている。

トレーニングプロセス

新しい方法のトレーニングデータを開発するために、研究者たちは話し手モデルとリスナーモデルの両方を使用した。話し手モデルには自信を表現するように促し、リスナーモデルには事前の知識に頼らずに応答を評価するように設計された。

好みデータの作成

トレーニングデータの作成は、データセットから質問-回答ペアをサンプリングすることから始まった。話し手モデルはそれぞれの質問に対して応答を生成し、リスナーモデルは自信レベルに基づいて答えを受け入れるか拒否する可能性を評価した。このデータは、その後のトレーニングプロセスをガイドする好み関数を作成するために使用された。

トレーニングとバリデーション

トレーニングプロセスは、リスナーの好みに基づいて出力を調整し、モデルを微調整することを目指していた。複数のモデルが評価され、最もパフォーマンスの良いモデルが特定された。

モデルパフォーマンスの評価

トレーニング後、研究者たちはトリビアの質問セットに対してモデルをテストし、彼らが自信レベルをどれほどうまくキャリブレーションするかを評価した。結果は、新しいアプローチがモデル出力の正確性と信頼性を大幅に改善し、特に自信の表現の仕方において改善されたことを示した。

人間とAIのインタラクションへの影響

モデルが自信を表現する方法を改善することには重要な影響がある。これにより、AIシステムとのインタラクション時のユーザーの満足度や安全性が向上する可能性がある。より信頼できるモデルは、インタラクションをスムーズにし、技術へのユーザーの信頼を高めることができる。

結論

新しいリスナー意識ファインチューニング法は、言語モデルをより信頼できるものにするための有望な進展を示している。モデルが自信のレベルをどのようにコミュニケートするかに焦点を当てることで、研究者たちはユーザーのニーズや期待によりよく応えるAIシステムを作り出すことができる。

モデルが自分の確信のレベルを表現し、リスナーの反応を理解する能力は、人間とAIのインタラクションの在り方を再構築する可能性を秘めている。今後の研究を通じて、これらの方法はさらに洗練され、異なるアプリケーションに適用され、実際の状況における言語モデルの全体的な効果を高めることができる。

オリジナルソース

タイトル: LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models

概要: When answering questions, LLMs can convey not only an answer, but a level of confidence about the answer being correct. This includes explicit confidence markers (e.g. giving a numeric score) as well as implicit markers, like an authoritative tone or elaborating with additional knowledge. For LLMs to be trustworthy knowledge sources, the confidence they convey should match their actual expertise; however, most current models tend towards overconfidence. To calibrate both implicit and explicit confidence markers, we introduce a pragmatic, listener-aware finetuning method (LACIE) that models the listener, considering not only whether an answer is right, but whether it will be accepted by a listener. We cast calibration as preference optimization, creating data via a two-agent game, where a speaker model's outputs are judged by a simulated listener. We then finetune three LLMs (Mistral-7B, Llama3-8B, Llama3-70B) with LACIE, and show that the resulting models are better calibrated w.r.t. a simulated listener. Crucially, these trends transfer to human listeners, helping them correctly predict model correctness: we conduct a human evaluation where annotators accept or reject an LLM's answers, finding that training with LACIE results in 47% fewer incorrect answers being accepted while maintaining the same level of acceptance for correct answers. Furthermore, LACIE generalizes to another dataset, resulting in a large increase in truthfulness on TruthfulQA when trained on TriviaQA. Our analysis indicates that LACIE leads to a better confidence separation between correct and incorrect examples. Qualitatively, we find that a LACIE-trained model hedges more and implicitly signals certainty when it is correct by using an authoritative tone or including details. Finally, LACIE finetuning leads to an emergent increase in model abstention (e.g. saying "I don't know") for answers that are likely wrong.

著者: Elias Stengel-Eskin, Peter Hase, Mohit Bansal

最終更新: 2024-07-03 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2405.21028

ソースPDF: https://arxiv.org/pdf/2405.21028

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事