Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能

言語モデルの幻覚対策

新しいベンチマークがLLMの事実正確性を評価する。

― 1 分で読む


LLMの幻覚に対処するLLMの幻覚に対処する新しい方法でAIの事実精度が向上してる。
目次

大規模言語モデル(LLM)は、人間が書いたように聞こえるテキストを生成できるコンピュータープログラムだ。時間とともにすごく進化して、今では一貫性のある読みやすいテキストを作れるようになった。ただ、まだ大きな問題があって、時々これらのモデルは現実に基づかない情報をでっち上げちゃうんだ。この問題は「幻覚」と呼ばれてる。

幻覚って何?

LLMの文脈で言う幻覚は、モデルが間違ったり、実際の情報に基づかない発言をすることを指す。これって特に重要な場面で使われるときに大きな問題になることがあるよ。ユーザーはLLMの出力を信頼しがちで、間違った情報が出ると問題になることもある。

より良い評価の必要性

LLMが正確な情報を提供できるかどうかを測るために多くのテストが作られてるけど、これらのテストは実際の生活でユーザーが求めるさまざまな知識のタイプをカバーしてないことが多い。ほとんどの既存のテストはWikipediaのデータに基づいてるけど、実際のトピックの多くにはWikipediaのページがない。だから、テストがLLMの実際のパフォーマンスを完全に示せない可能性があるんだ。

この問題を解決するために、新しい評価ベンチマークが作られた。このベンチマークは、実際のユーザーがチャットボットと行った会話からの情報を使ってLLMの事実の正確性をテストするように設計されている。これによって、評価が以前のベンチマークよりも幅広いトピックや情報のタイプをカバーできるようになった。

新しいベンチマーク

新しいベンチマークは、実際のユーザーとチャットボットの会話からの情報を使ってLLMをテストする。このベンチマークは、実際のクエリに基づいて、実体(人、場所、概念など)に関する情報を生成するようモデルに促す。生成された情報は、ウェブ検索からの信頼できる知識のコレクションと照らし合わせて正確性が確認される。

ベンチマークの主な特徴

  1. 多様なドメイン: ベンチマークは、文化、金融、技術などのさまざまなトピックを含んでいる。これによって、ユーザーの多様な興味を反映し、実際のアプリケーションにより関連するものになっている。

  2. 自動事実確認: このプロセスでは、生成された出力をキュレーションされたウェブドキュメントのセットと自動的に照らし合わせて確認する。これによって、LLMが行った発言のどれが正しいのか、どれが間違っているのかを特定できる。

  3. 非Wikipedia知識に焦点: 評価された実体の大部分には対応するWikipediaのページがないことがわかっていて、ユーザーがよく求める情報が通常のWikipediaには載っていないことを示している。

ベンチマークの仕組み

ステップ1: 実体の抽出

ベンチマークを作成するために、ユーザーとチャットボットの会話データセットから固有名詞を抽出する。このデータセットには何百万ものインタラクションが含まれていて、GPT-3.5やGPT-4oのようなツールを使ってこれらの固有名詞を特定し、正確性を検証する。これによって、評価に関連する実体だけが含まれるようにしている。

ステップ2: 知識ソースの構築

各実体について、商業検索エンジンを使用して知識ベースを構築する。Wikipediaに頼るのではなく、関連情報を提供するウェブページを収集することで、より包括的なリソースを作って正確な事実確認を実現する。

ステップ3: LLMにプロンプトを与える

知識ソースが構築されたら、LLMに各実体についての質問を投げかけて、説明的な段落を生成するように求める。生成された出力は自動的に分析され、事実の正確性が判断される。

評価の結果

このベンチマークは、さまざまな最先端のLLMを評価するために使われた。その結果、いくつかの興味深いパターンが見られた。

  1. ドメインによって幻覚率が異なる: トピックによって幻覚の発生率が異なることがわかった。たとえば、モデルは金融や個人属性のような領域ではミスをしやすい一方、地理や技術の分野ではより良い結果を出していた。

  2. Wikipediaページがない実体: Wikipediaページがない実体に関して、モデルは幻覚を起こすことが多かった。このことは、入手可能な情報がない場合に出力が間違う可能性があることを示している。

  3. 情報検索の影響: モデルに検索機能を追加すると、幻覚を少し減少させることができるが、完全には消えない。このことは、検索が正確な情報の提供に役立つ場合もあるが、LLMが間違った事実を生成することもあることを示唆している。

幻覚を理解する重要性

LLMが幻覚を起こす理由とその仕組みを理解することは、その信頼性を向上させるために重要だ。幻覚はさまざまな理由で発生することがある。

  • 不十分なトレーニングデータ: モデルが特定のトピックについて十分な正確な情報で訓練されていない場合、そのトピックに関するテキストを生成する際に誤った出力を作ることがある。

  • 複雑なクエリ: ユーザーの質問が複雑またはあいまいな場合、正しい意味を誤解して応答することがある。

  • 情報のノイズ: ウェブ検索から得られる情報が不正確または古い場合、モデルの出力の質に影響を及ぼす可能性がある。

自動評価の役割

自動評価プロセスは、LLMが正確な情報を提供する能力を定量化することを目指している。これは生成されたテキストを小さな主張に分解し、それぞれの主張を知識ソースと照らし合わせてチェックすることで行われる。

評価のためのメトリクス

LLMの事実性を評価するために主に使われるメトリクスは2つある。

  1. 支持される事実の割合: これは、知識ソースによって支持される主張の割合を測る。このメトリクスはパフォーマンスの一般的なアイデアを提供するが、モデルが応答しないことが多い場合には誤解を招く可能性がある。

  2. 原子的事実の正確性: これは、実体に関するすべての主張が正しいかどうかを測る。一つでも間違っていたら、モデルは低いスコアを受け取る。このメトリクスは厳しく、事実の正確性の明確な画像を提供する。

将来の開発への影響

評価からの結果は、LLMの今後の改善に役立つかもしれない。モデルが苦手な分野に焦点を当てることで、開発者は訓練を強化し、幻覚の可能性を減らす努力ができる。検索方法の改善も、モデルがテキスト生成中に最も正確な情報にアクセスできるようにする助けになるだろう。

結論

LLMを評価するための新しいベンチマークの開発は、幻覚の課題に対処するための重要なステップだ。実際のユーザーインタラクションに焦点を当て、さまざまな知識ソースを使用することで、このベンチマークは言語モデルの事実の正確性を測るためのより効果的な方法を提供する。技術が進化し続ける中で、幻覚を理解し管理することは、さまざまなアプリケーションでLLMが信頼されるために重要で、最終的にはより安全で信頼できるAIシステムにつながるだろう。

ここで仕事は終わりじゃない。進化する技術とユーザーの求める情報の複雑さに対応するために、継続的な改善とアップデートが必要だ。

オリジナルソース

タイトル: WildHallucinations: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries

概要: While hallucinations of large language models (LLMs) prevail as a major challenge, existing evaluation benchmarks on factuality do not cover the diverse domains of knowledge that the real-world users of LLMs seek information about. To bridge this gap, we introduce WildHallucinations, a benchmark that evaluates factuality. It does so by prompting LLMs to generate information about entities mined from user-chatbot conversations in the wild. These generations are then automatically fact-checked against a systematically curated knowledge source collected from web search. Notably, half of these real-world entities do not have associated Wikipedia pages. We evaluate 118,785 generations from 15 LLMs on 7,919 entities. We find that LLMs consistently hallucinate more on entities without Wikipedia pages and exhibit varying hallucination rates across different domains. Finally, given the same base models, adding a retrieval component only slightly reduces hallucinations but does not eliminate hallucinations.

著者: Wenting Zhao, Tanya Goyal, Yu Ying Chiu, Liwei Jiang, Benjamin Newman, Abhilasha Ravichander, Khyathi Chandu, Ronan Le Bras, Claire Cardie, Yuntian Deng, Yejin Choi

最終更新: 2024-07-24 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2407.17468

ソースPDF: https://arxiv.org/pdf/2407.17468

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事