Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

架空データを使った言語モデルの評価

この研究は、架空のデータを使って言語モデルの読解力を評価してるよ。

― 1 分で読む


言語モデルを効果的に評価す言語モデルを効果的に評価す理解のギャップがわかるよ。フィクションデータを使うと、言語モデルの
目次

言語モデルはテキストを読み取って質問に答えるツールだよ。この能力は読解力として知られていて、これらのモデルがどれだけ人間の言語を理解しているかを評価するのに役立つんだ。でも、実世界の知識を使うと評価が複雑になることがある。モデルの答えが実際の文脈じゃなくて内蔵された知識から来てる場合、どれだけテキストを理解してるかを判断するのが難しくなるんだ。

この問題を解決するために、空想の事実や人々に基づいた偽データを使う提案をしてるよ。こうすれば、モデルが実世界の知識に頼らずに言語をどれだけ理解しているかをチェックできるんだ。

実世界の知識の課題

ChatGPT、GPT-4、LLaMA 2みたいな言語モデルを使ってみたら、コンテキストが彼らの知識と合ってるときは正確に質問に答えるんだけど、合わないときは間違った答えを出すことがあるんだ。これが結果に混乱をもたらすんだよ。

例えば、モデルが「イーロン・マスクはツイッターのCEOだ」と知ってるけど、与えられたテキストがそれとは違うことを言ってたら、モデルは知識に基づいて答えちゃうんだ。だから、理解を正しく評価するためには、モデルの内蔵知識とテキストを理解する能力を分ける必要があるんだ。

偽データの使用

実世界の事実の代わりに空想の状況を使ったテスト方法を作ったよ。このアプローチでは、モデルの知識に干渉されずにテキストから直接理解力を評価できるんだ。たとえば、実際の人や出来事を参照する代わりに、名前やシナリオを作ったんだ。

この偽データでモデルをテストしたら、特に条件や可能性を含む質問には苦労してることがわかったよ。「もしXが真なら、どうなる?」みたいなやつね。

ほとんどのモデルはシンプルな質問にはうまく答えるけど、仮定的な状況について聞かれると苦戦するんだ。「もしジョンが背が高かったら、彼はバスケットボール選手になる?」って聞くと、モデルは文脈だけではこの質問には答えられないことを認識できないことが多いんだ。

コンテキスト忠実性の重要性

正しく答えるためには、言語モデルはコンテキストに忠実でなきゃいけない。つまり、テキストに提供された情報だけを使うべきで、内部の知識に頼っちゃダメなんだ。私たちの研究によると、多くのモデルは仮定的なコンテキストでこれをうまくできてないんだ。

条件や可能性のある文を与えられたとき、モデルはテキストにしがみつくのではなく、自分の知識に戻っちゃう傾向があるんだ。これが彼らの信頼性に影響を与えて、特に主張を検証したりテキストの特定の情報を見つける作業のときに問題になるんだよ。

異なるタイプの質問での理解評価

私たちは、否定的な質問や仮定的な質問を含む非肯定的な質問に対する言語モデルの理解力を評価したんだ。たとえば、モデルは「誰が背が高くない?」という質問が、文脈に「ジョンは背が高い」とあった場合、答えられないことを認識するべきなんだ。

私たちの実験では、5つのタイプの非肯定的な質問をテストしたよ:

  1. 否定(例: 「ゾグロクシアンは女性の権利のために戦わなかった」)。
  2. 否定的な非事実(例: 「ゾグロクシアンが女性の権利のために戦った可能性は低い」)。
  3. モーダル動詞を使った仮定文(例: 「ゾグロクシアンは女性の権利のために戦ったかもしれない」)。
  4. 現実でない条件文(例: 「もしゾグロクシアンが女性の権利のために戦ったら...」)。
  5. 可能な結果を示唆する条件文(例: 「彼らが進歩的な社会の一部だったなら、ゾグロクシアンは戦っただろう...」)。

多くのモデルはこれらの非肯定的な形式に苦労していることがわかったよ。ほとんどの場合、テキストに基づいて答えを出すべきじゃないときでも、間違った答えを出すことが多いんだ。

観察と結果

非肯定的な質問に対するモデルのパフォーマンスを評価していると、いくつかのパターンが見えてきたよ:

  • モデルはシンプルな否定にはうまくいくけど、仮定的な質問にはかなり苦戦してる。
  • エラーの多くは、コンテキストを無視してテキストが肯定的であるかのように振る舞うことが原因。例えば、文脈が「もしゾーグが進歩的な社会の一部だったら」と言ってるのに、モデルが「ゾーグは女性の権利のために戦った」と言っちゃうことがあるんだ。

手動レビューでは、モデルが質問に対する文脈が無反応なときに、答えを控えるべきなのに内部の知識に戻っちゃうことが多かったんだ。

知識の対立が与える影響

知識の対立がモデルのパフォーマンスに大きな影響を与えてることがわかったよ。たとえば、否定や仮定的な質問について尋ねると、多くのモデルは文脈だけに基づいて答えを出すのに苦労しているんだ。

テキストが彼らの内蔵知識と矛盾する状況では、間違った答えを出したり、答えを控えられないことが多い。これは、言語モデルが提供されたコンテキストに忠実であることを確保するためのより良い方法が必要だってことを強調してるんだ。

エラーを軽減するためのプロンプティング技術

モデルのパフォーマンスを改善するために、いろんなプロンプティング技術を試したよ。これには以下が含まれる:

  1. 指示付きプロンプティング:モデルに自分の世界の知識を無視するように直接伝える。
  2. 二段階プロンプティング:モデルに予測された答えの証拠が文脈にあるか尋ねてから予測させる。
  3. 思考の連鎖(CoT)プロンプティング:問題を段階的に考えるようにモデルを促す。

これらの技術によって、特に非肯定的なケースで答えの正確性が改善されたけど、以前の問題を完全には解消できなかったんだ。モデルは仮定的な質問に対しては、いくつかの改善があったにもかかわらず、依然として大きな困難を示しているよ。

結論

空想のデータを使うことは、言語モデルの読解力を正確に評価するために重要だね。私たちの発見によると、モデルはシンプルな質問にはうまく対応できるけど、より複雑な非肯定的な構文や仮定的な質問には苦しんでいるんだ。

さらに、モデルはしばしば与えられたテキストに忠実でなく、自分の内蔵知識に頼ることが多い。これが、特に仮定的な状況で言語モデルの理解能力を向上させるために、引き続き取り組む必要があることを強調しているよ。

モデルが以前の知識に頼らずに文脈をどれだけうまく把握できるかに焦点を当てることで、これらのツールとのより良い、信頼性の高い相互作用を促すことができるんだ。ユーザーや開発者がこれらの制限を理解することは、さまざまなアプリケーションでの言語モデルの信頼性を向上させるために重要なんだよ。

オリジナルソース

タイトル: LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements

概要: The task of reading comprehension (RC), often implemented as context-based question answering (QA), provides a primary means to assess language models' natural language understanding (NLU) capabilities. Yet, when applied to large language models (LLMs) with extensive built-in world knowledge, this method can be deceptive. If the context aligns with the LLMs' internal knowledge, it is hard to discern whether the models' answers stem from context comprehension or from LLMs' internal information. Conversely, using data that conflicts with the models' knowledge creates erroneous trends which distort the results. To address this issue, we suggest to use RC on imaginary data, based on fictitious facts and entities. This task is entirely independent of the models' world knowledge, enabling us to evaluate LLMs' linguistic abilities without the interference of parametric knowledge. Testing ChatGPT, GPT-4, LLaMA 2 and Mixtral on such imaginary data, we uncover a class of linguistic phenomena posing a challenge to current LLMs, involving thinking in terms of alternative, hypothetical scenarios. While all the models handle simple affirmative and negative contexts with high accuracy, they are much more prone to error when dealing with modal and conditional contexts. Crucially, these phenomena also trigger the LLMs' vulnerability to knowledge-conflicts again. In particular, while some models prove virtually unaffected by knowledge conflicts in affirmative and negative contexts, when faced with more semantically involved modal and conditional environments, they often fail to separate the text from their internal knowledge.

著者: Victoria Basmov, Yoav Goldberg, Reut Tsarfaty

最終更新: 2024-04-09 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2404.06283

ソースPDF: https://arxiv.org/pdf/2404.06283

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事