Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 機械学習

言語モデルが物議をかもす質問にどう対処するか

研究によると、言語モデルは証拠の質よりも関連性を重視するって。

― 0 分で読む


論争のあるクエリにおけるモ論争のあるクエリにおけるモデルの評価重視する。モデルは証拠を評価する際、質より関連性を
目次

言語モデルは、物議を醸す質問や対立する意見を持つ質問に答えるために使われてるんだ。例えば、「アスパルテームは癌と関係あるの?」みたいな質問は、たくさんの情報を慎重に考慮する必要がある。こういう質問には、モデルが多くのウェブサイトを探して、異なる答えを支持する事実や意見を見つけ出すんだ。

研究

この研究では、こういった質問にモデルがどれだけうまく対処できるかを見るためにデータセットを作った。様々な物議を醸す質問を、矛盾する事実や論拠を含む実世界の文書とペアにしたんだ。私たちの目的は、モデルがどんな証拠を信頼して、なぜそうなるのかを探ることだった。

証拠と説得力

人間は、複雑な質問に直面したときに、どの証拠が説得力があるのかよく考える。事実をチェックしたり、情報の出所を考えたり、提示された論拠を分析したりするよね。でも、言語モデルはいつもこのステップを踏むわけじゃない。私たちの調査では、モデルがウェブページの関連性を考慮する一方で、人間が重要だと考えるような、科学的な参照の使用や中立的なトーンを見落とすことが多いことが示された。

データ収集プロセス

データセットを作るために、まず様々なトピックにわたる物議を醸す質問のリストを作った。その後、オンラインで矛盾する見解を示している段落を探したんだ。それぞれの質問について、"はい"と"いいえ"の両方に関する証拠を集めた。検索エンジンを使って文書を取得し、様々な論拠や事実を得るようにした。

説得力の評価

分析のために、モデルの予測が異なる証拠の視点とどれだけ一致しているかを見た。この割合を"勝率"と呼んでる。これを測ることで、どんな段落がモデルにとってもっと説得力があるかを評価できた。

主な発見

私たちの研究では、言語モデルはスタイルよりも関連性に基づく証拠を好むことが分かった。例えば、テキストを質問に関連性を持たせるように簡単に変更しただけで、モデルの勝率が大幅に改善した。でも、スタイル的な要素、例えば参照を追加したり、トーンを改善したりしても同じような良い効果はなかった。

関連性の影響

結果から、モデルは読んだ文書の関連性を過大評価する傾向があり、スタイルや信頼性の重要性をしばしば無視することがわかった。ウェブサイトを修正して質問への関連性を明確にしたとき、スタイルの要素を変更することに焦点を当てたときよりもモデルの予測がより改善された。

人間とモデルの判断

面白いことに、人間とモデルがテキストの説得力を評価するやり方には明らかなギャップがある。人間はテキストを読んで、その信頼性について判断を下すことができる。でも、モデルは証拠が孤立して提示されると、同じようにはできないんだ。

実験の設定

モデルが証拠を評価する方法をさらに探るために、オープンソースとクローズドソースのいくつかの異なる言語モデルをテストした。私たちは彼らに同じ対立する質問をし、"はい"か"いいえ"の二者択一の反応を集めた。これによって、彼らがさまざまなタイプの証拠をどのように認識するかを評価した。

説得力に影響を与える特徴

モデルの判断に影響を与える要因を調べた。これには可読性、感情、単語のユニークさ、段落が質問にどれくらい関連しているかが含まれる。説得力との最も強い相関関係は、質問と段落の類似性から得られた。

反実仮想分析

既存の文書を修正して、変更が説得力にどのように影響するかを見た。例えば、立場を明確にするための情報を追加したり、文書を質問にもっと関連性があるように調整したりすることで、これらの変更がモデルの勝率にどう影響するかを評価できた。

結論

結論として、私たちの研究は、リトリーバル強化された言語モデルが情報の説得力をどのように評価するかについての洞察を提供する。これらのモデルは、スタイル要素よりも資料の関連性にもっと焦点を当てる傾向がある。モデルと人間の評価のギャップを埋めるためには、これらのモデルのトレーニング方法や、どんな情報に重点を置くかを洗練させることが重要だね。

謝辞

この研究と開発の間に受けたすべてのサポートに感謝します。さまざまな人々の貢献やコラボレーションが、このプロジェクトを可能にしました。

オリジナルソース

タイトル: What Evidence Do Language Models Find Convincing?

概要: Retrieval-augmented language models are being increasingly tasked with subjective, contentious, and conflicting queries such as "is aspartame linked to cancer". To resolve these ambiguous queries, one must search through a large range of websites and consider "which, if any, of this evidence do I find convincing?". In this work, we study how LLMs answer this question. In particular, we construct ConflictingQA, a dataset that pairs controversial queries with a series of real-world evidence documents that contain different facts (e.g., quantitative results), argument styles (e.g., appeals to authority), and answers (Yes or No). We use this dataset to perform sensitivity and counterfactual analyses to explore which text features most affect LLM predictions. Overall, we find that current models rely heavily on the relevance of a website to the query, while largely ignoring stylistic features that humans find important such as whether a text contains scientific references or is written with a neutral tone. Taken together, these results highlight the importance of RAG corpus quality (e.g., the need to filter misinformation), and possibly even a shift in how LLMs are trained to better align with human judgements.

著者: Alexander Wan, Eric Wallace, Dan Klein

最終更新: 2024-08-08 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2402.11782

ソースPDF: https://arxiv.org/pdf/2402.11782

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事