Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能

知識ベースの補完のための言語モデルの評価

新しいベンチマークが、知識ベースのギャップに対する言語モデルの可能性を明らかにしてるよ。

― 1 分で読む


知識ベースの言語モデル知識ベースの言語モデル法。知識ベースの事実精度を向上させる新しい方
目次

構造化された知識ベース(KB)は多くのスマートアプリケーションに不可欠だけど、情報が完全じゃないことが多いんだ。最近、研究者たちは言語モデル(LM)を使って知識ベースの情報の不足を埋める方法を考えているんだよ。最初の結果は期待できるものだったけど、これらのモデルが本当にその仕事に適しているかはまだ疑問が残ってる。多くの既存の評価は人気のあるトピックにだけ焦点を当てたり、すでに存在している知識ベースの情報を使ったりしてるから、モデルの可能性の全体像を示していないんだ。

この研究では、新しい、もっと厳しいベンチマークデータセットと、LMが知識ベースをどれだけうまく完成できるかを現実的に評価する方法を提案しているよ。「Wikidata Sample」というデータセットを作って、Wikidataから390万以上の事実をランダムにサンプリングしたんだ。このデータセットはバイアスがなく、以前に知識ベースに記録されていない予測を評価することを目的としているんだ。

私たちの主な発見の1つは、以前のベンチマークにはバイアスがあって、言語モデルのパフォーマンスを誇張させていたってこと。でも、言語モデルが本当に期待できる場所も見つかったよ。例えば、いくつかの関係に対してWikidataの知識を成功裏に拡張できて、事実の数をかなり増やしながら高い精度を維持できたんだ。

知識ベースの重要性

WikidataやDBpedia、Yagoのような知識ベースは、セマンティックウェブの重要な要素として機能している。検索エンジンや質問応答システム、対話などのアプリケーションにおいて重要な役割を果たしているんだ。これらのKBを高いレベルとスケールで構築・維持することは、長年の研究課題なんだ。FB15kやCoDEx、LM-KBC22など、知識ベースを構築するための既存のベンチマークがいくつかあるよ。

従来のKB構築手法は、テキスト抽出や知識グラフの埋め込みを使用することが多い。この知識ベース構築の分野は常に進化していて、最近の進歩はスピードや魅力的な手法を強調していることが多い。でも、実際の知識ベースの完成(KBC)には精度に強く焦点を当てることが必要だし、かなりの手作業を伴うんだ。

この分野の以前の研究は、3つの重要な側面を見落としがちだよ:

  1. 高精度に焦点を当てる:多くのモデルがバランスの取れた精度と再現率を優先していて、それが非現実的な期待につながることがある。例えば、YagoやGoogle Knowledge Vaultのようなシステムは、求められる精度を達成できずに導入されていないんだ。

  2. 完成ポテンシャルの評価:現在のベンチマークは多くの場合、よく知られた主題に焦点を当てていて、KBCには役立たない。例えば、国の首都を予測するのは高精度かもしれないけど、そういった事実はすでに確立された知識ベースに記録されているんだ。

  3. 欠落事実の予測:現在の研究は、知識ベースにすでに含まれている情報でモデルをテストする傾向があって、それが完成の真の可能性を反映していない。KBが以前に文書化していない主題-関係ペアについてオブジェクトを予測する必要があるんだ。

Wikidataには約1億のエンティティと12億の文があるから、事実の小さな増加でも絶対数で大きな利益を意味することがあるよ。例えば、Wikidataのわずか1%に情報を追加するだけでも、およそ10万ドルかかるかもしれないから、このプロセスの効率の重要性がわかるよね。

言語モデルの体系的分析

私たちの研究では、知識ベースの完成に関して言語モデルを体系的に分析したよ。特に90%の高精度に焦点を当てた評価プロセスには:

  1. Wikidataから事実をランダムにサンプリングした新しいベンチマークデータセットを作成。
  2. オブジェクトの値が不明な予測の手動評価を行った。

分析ではBERT言語モデルとWikidata知識ベースに注目したんだ。新しいモデルが出てきているけど、BERTは人気があって、Wikidataの広範なデータベースに対する評価ポイントとしてしっかりしているんだ。

私たちの主な発見には:

  • 現実的に評価された言語モデルは期待を下回るパフォーマンスだけど、特定の情報のタイプではしっかりした結果を出していること。
  • 語彙の拡張やプロンプトの構造を改善するだけで、モデルの知識生成能力が大幅に向上すること。

例えば、Wikidataの知識を3つの分野で拡張したんだ。「nativeLanguage」の関係は260,000から580万の事実に、「usedLanguage」は210万から660万に、「citizenOf」は420万から530万の事実に増えたけど、高い精度を維持したままだったよ。

知識ベースの構築と完成

知識ベースの構築には豊かな歴史がある。一般的なアプローチの1つは人間の監視に依存していて、CYCのようなプロジェクトがそうなんだ。このキュレーションは現代の公共KB、Wikidataの基礎を支えている。その他の戦略には、半構造化リソースや自由テキストからのデータ抽出が含まれるよ。

埋め込みベースのリンク予測は普及しているけど、精度と再現率のバランスが大きな課題として残っている。学術研究はこれらの指標の間で自由に取引を行うかもしれないけど、実際のアプリケーションでは精度が優先される。たとえば、Wikidataは編集における統計的仮定の使用を控えることを奨励しているよ。

高精度の範囲はあまり掘り下げられていない。FB15kやWN18を含むほとんどの既存のベンチマークは、すでに多くのデータがある人気のエンティティに焦点を当てている。このベンチマークの問題は、既存のデータに依存しているため、モデルの知識ベースを完成する真の能力を評価できないことなんだ。

知識ベースの完成タスク

知識ベースの完成(KBC)はKBのギャップに対処するもので、欠落している事実を予測することを目指している。通常、これは主題-関係ペアのペアとしてフレーム化されている。これらのギャップを埋めることで、より包括的で有用な知識ベースを作成できるんだ。

このタスクは、既存のペアの欠落オブジェクトを予測することや、有効な主題-関係ペアを特定することなど、サブタスクに分けることができる。私たちの研究では、最も重要なタスクに焦点を当てている:オブジェクトが現在不明な主題-関係ペアに合うオブジェクトを予測すること。

KBにすでに含まれている事実は「既存の事実」として分類する。一方、「欠落事実」はまだ記録されていないものを指す。私たちの目標は、これらの欠落事実を効果的に予測することで知識ベースを強化することなんだ。

言語モデルを使った事実予測

欠落している事実を得るために、既存のトリプルのオブジェクトをマスクしてそれをプロンプトとして使うんだ。LMはその語彙の上で確率分布を提供する。そこからトップ予測を選ぶんだ。

この空白を埋める能力はKBCにとって重要なんだ。私たちは「フランスの首都は[MASK]です。」のようなクローススタイルのクエリを使う。言語モデルは欠落した単語を予測する役割を果たすんだ。

私たちはBERTの事実予測能力をこれらのマスクを使って分析し、関係特有のプロンプトを管理する能力に焦点を当てた。私たちの二重の分析は、まず既存の事実の予測を評価し、その後に欠落事実を埋めるモデルの可能性を人間評価を通じて探ることを可能にしたよ。

分析手順の設定

私たちの評価は二重のアプローチを含む:

  1. 90%の精度で再現率を計算する自動プロセスを介して既存の事実予測を評価する。
  2. 欠落事実を予測することによって知識ベースの完成の可能性を探る、これは人間評価によって確認される。

私たちの結果をLAMA-T-RExベンチマークと比較して、LMの能力をより現実的に評価することができた。分析から得られた結果は、事実予測のための関連する閾値を設定するのに役立ったよ。

LMのKBC能力を真に評価するために、Wikidataからのランダムな事実の大規模データセットを作成した目的は、人気のあるトピックに対するバイアスを避けることなんだ。私たちのデータセットはランダムだけど、現実に基づいている。

データセット作成

私たちは、LAMA-T-RExデータセットと同じ関係の事実をWikidataからコンパイルし、主題-関係ペアを抽出した。この抽出は、各ペアに関連するすべての有効なオブジェクトを含めて、グラウンドトゥルースデータの正確性を確保するんだ。

私たちのデータセットの重要な側面は、マルチトークンオブジェクトを扱う能力があること。これによりさまざまな条件下でのLMのパフォーマンスを評価できる。オブジェクトの平均エントロピーは、全トリプル、異なる主題、およびその他の関連統計とともに記録される。

既存の事実予測の可能性

既存の事実を分析する中で、私たちはBERTが既知の主題-関係ペアに結びついたオブジェクトを予測する能力を評価する。ランクベースのメトリックを使用して正確な予測のレベルを計算し、再現率と精度を計算するよ。

BERTをベースライン手法と比較することで、BERTが単に一般的なオブジェクトを予測するのを超えている能力を見ることができる。私たちの分析は、オブジェクトの異なる分布が達成される精度にどのように影響するかを示している。

結果は、大多数のベースラインがしっかりした基盤を提供できるが、BERTがそれを上回ることができることを示していて、モデルの付加価値を示しているんだ。

パフォーマンス改善のための質的分析

BERTの知識ベース完成における成功を高めるために、予測の一般的なエラーを特定するための質的分析を行った。代表的な関係のサブセットを選んで、階層的エラーやあいまいなプロンプトなど、エラーのカテゴリを特定したんだ。

私たちの調整は主に3つの領域に焦点を当てている:

  1. 入力の最適化:AutoPrompt生成のような手法を通じてプロンプトを改善する。
  2. モデルの最適化:モデルをファインチューニングし、語彙を拡張することで、最終的に予測精度を向上させる。
  3. 出力の調整:手動で作成した辞書を利用して、予測をグラウンドトゥルースにマッピングするのを助ける。

これらの最適化を通じて、さまざまな関係の予測において著しい改善が見られ、より良い知識抽出につながるんだ。

発見のまとめ

この研究は、言語モデルの知識ベース完成能力を正確に評価するためにバイアスのないデータセットを使用することの重要性を強調している。私たちの発見は、正しいアプローチを与えられたとき、LMが知識ベースのギャップを埋めるために大きな貢献をする可能性があることを示唆しているよ。

語彙の制限がパフォーマンスを制約することも学んだ。語彙を拡張し、モデルをファインチューニングすることで、知識予測の著しい改善を達成できる。

KBに現在記録されていない欠落事実の分析は、言語モデルが新しい知識を効果的に生成する可能性を示している。人間の評価は、モデルの予測の実現可能性を確認したよ。

結論

この研究は、言語モデルを使用した自動知識ベース完成の能力を強調している。挑戦的なベンチマークデータセットを導入することで、知識ベースを強化するための言語モデルの可能性をより現実的に評価しているんだ。

私たちの分析は、さまざまな関係におけるLMの効果の違いを示していて、特に言語関連および社会人口統計的な領域では効果が顕著だった。私たちが実施したファインチューニングと語彙拡張戦略は、意味のある改善をもたらしたんだ。

今後、知識ベースに特化した言語モデルの開発は有益になるかもしれない。そういったモデルは、さらに正確な事実予測や知識抽出を可能にし、知識ベースの構築を向上させる道を開くことになるだろう。

オリジナルソース

タイトル: Evaluating Language Models for Knowledge Base Completion

概要: Structured knowledge bases (KBs) are a foundation of many intelligent applications, yet are notoriously incomplete. Language models (LMs) have recently been proposed for unsupervised knowledge base completion (KBC), yet, despite encouraging initial results, questions regarding their suitability remain open. Existing evaluations often fall short because they only evaluate on popular subjects, or sample already existing facts from KBs. In this work, we introduce a novel, more challenging benchmark dataset, and a methodology tailored for a realistic assessment of the KBC potential of LMs. For automated assessment, we curate a dataset called WD-KNOWN, which provides an unbiased random sample of Wikidata, containing over 3.9 million facts. In a second step, we perform a human evaluation on predictions that are not yet in the KB, as only this provides real insights into the added value over existing KBs. Our key finding is that biases in dataset conception of previous benchmarks lead to a systematic overestimate of LM performance for KBC. However, our results also reveal strong areas of LMs. We could, for example, perform a significant completion of Wikidata on the relations nativeLanguage, by a factor of ~21 (from 260k to 5.8M) at 82% precision, usedLanguage, by a factor of ~2.1 (from 2.1M to 6.6M) at 82% precision, and citizenOf by a factor of ~0.3 (from 4.2M to 5.3M) at 90% precision. Moreover, we find that LMs possess surprisingly strong generalization capabilities: even on relations where most facts were not directly observed in LM training, prediction quality can be high.

著者: Blerta Veseli, Sneha Singhania, Simon Razniewski, Gerhard Weikum

最終更新: 2023-03-20 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2303.11082

ソースPDF: https://arxiv.org/pdf/2303.11082

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事