アクティブ閾値キャリブレーションでナレッジグラフの補完を改善する
新しい方法が、最小限の手動入力で知識グラフの精度を向上させる。
― 1 分で読む
ナレッジグラフは、エンティティと関係の形で世界に関する情報を整理するツールだよ。エンティティはネットワークのノードみたいなもので、関係はそれらの間のつながりを示してる。ナレッジグラフの補完の主な仕事は、このネットワークに新しい情報をトリプルの形で追加することで、これはエンティティ、関係、もう一つのエンティティから成り立ってる。たとえば、トリプルは(セネガル、の一部、ウエストアフリカ)みたいな感じ。
これらのトリプルが関連しているか確認するために、プラウシビリティスコアが付けられる。このスコアは、特定のトリプルが基盤となる知識ベースに属する可能性を示してる。これらのスコアは通常、スコアリングモデルによって生成され、ナレッジグラフの埋め込み手法が使われることが多い。
でも、スコアを生成するだけじゃ不十分なんだ。ナレッジグラフを効果的に補完するためには、これらのスコアに基づいて決定を下す必要がある。つまり、閾値を設定しなきゃいけないんだ。トリプルのスコアがある点を超えてれば関連があると見なしてナレッジグラフに追加し、それ以下なら捨てるって感じ。
これまで、研究者たちはすでにアノテーションされている例に頼って閾値を見つけてきた。これらの例は、どのトリプルが正しいのかを示している。でも、このデータを手作業でアノテーションするのは高くつくし時間がかかる。特に、一部の関係に関してアノテーションされた例が少なかったり、まったくなかったりする場合、これが課題になってた。
この課題に対処するために、アクティブ閾値キャリブレーション(ACTC)っていう新しい方法を提案するよ。ACTCの目的は、最小限の人間の入力に頼って、各関係に対する適切な閾値を効果的に見つけること。方法には3つの主なステップがあるんだ。
手動アノテーション用サンプルの選択:アノテーションされていないトリプルの中から、どれに人間がアノテーションをつけるかを選ぶよ。ランダムに選ぶこともできるけど、あんまり良い方法じゃないことが多い。代わりに、他のサンプルと似たスコアを持つものを優先するっていう密度に基づいて選ぶ。これで、限られたアノテーション予算の中で最も有益な例を確保できる。
追加サンプルの自動ラベル付け:手動でアノテーションしたトリプルがいくつかできたら、分類器を使って追加のアノテーションされていないトリプルにラベルを付ける。これには、ロジスティック回帰やガウス過程みたいな技術を使って、最初のナレッジグラフ埋め込み手法のスコアに基づいて追加サンプルの関連性を予測する。
関係ごとの閾値の推定:入手可能なアノテーション済みのサンプルを使って、関係ごとの閾値を推定する。これは、異なるスコアを潜在的な閾値としてテストして、一番正確なものを選ぶってこと。
ACTCを使った実験では、いくつかのナレッジグラフ埋め込みモデルにこの方法を適用し、ベンチマークデータセットでその性能を評価した。手動アノテーションがすごく限られている(10サンプルぐらい)中でも、ACTCは他の方法に比べて予測の質を大幅に向上させたことがわかった。
実験からの注目すべき発見の一つは、アノテーション用のサンプルの選び方が結果に大きな影響を与えること。アノテーション済みのサンプルが非常に少ないときは、密度に基づく選択がシンプルなランダムサンプリングよりも良い結果をもたらした。一方で、アノテーションされたサンプルが多い場合は、ランダム選択でも同じぐらい良い結果が得られた。これは、選択戦略をアノテーション予算に応じて調整すべきだってことを示してる。
主なステップに加えて、自動ラベル付けされたサンプルにソフトラベルとハードラベルの両方を使う効果も試した。ほとんどの場合、ハードラベルを使ってもソフトラベルと同じぐらいの結果が得られたから、目的に対してはハードラベルで十分ってことだね。
さらに、すべての関係に一つの閾値を適用する均一閾値キャリブレーションも検討した。これは、関係ごとにユニークな閾値を推定するのではなく、全関係に対して単一の閾値を使う方法だ。一般的には関係特有の閾値に比べてパフォーマンスが劣ってたけど、アノテーション予算が非常に小さい時にはいくつかのベースライン方法よりも優れてた。
我々の研究の制限の一つは、現実世界の条件下で人間のアノテーションの代わりにオラクル検証ラベルに依存してたことだ。それでも、この方法がナレッジグラフの効率的な閾値キャリブレーションの基盤を築くと信じてる。
ナレッジグラフとその補完は、検索エンジンや推薦システムなど、さまざまなアプリケーションにとって重要なんだ。だから、ACTCみたいな効果的な手法は、これらのシステムが提供する情報の質と信頼性を向上させる可能性がある。
結論
ACTCは、ナレッジグラフの補完における冷スタートの閾値キャリブレーションの一般的な問題に実用的な解決策を提供するよ。アノテーション用のサンプルを戦略的に選び、追加のアノテーションされていないデータを活用することで、この方法はより効果的で効率的な閾値推定を可能にする。
ナレッジグラフの開発を進める中で、ACTCのような方法はその正確さや使いやすさを改善する重要な役割を果たすことができる。多様な領域でユーザーに価値ある情報を提供するために、質の高いナレッジグラフの需要は今後ますます高まることが予想されるから、この分野での進展は情報システムの進化にとって重要なんだ。
我々の研究は、ナレッジグラフ補完手法のさらなる改善の可能性を示していて、さまざまなデータやフィードバックを統合する方法を探求している。方法を改善し、実際の環境での影響を理解することに引き続き焦点を当てることで、ナレッジグラフがより洞察に満ち、正確な世界の表現を提供する未来を期待できる。
タイトル: ACTC: Active Threshold Calibration for Cold-Start Knowledge Graph Completion
概要: Self-supervised knowledge-graph completion (KGC) relies on estimating a scoring model over (entity, relation, entity)-tuples, for example, by embedding an initial knowledge graph. Prediction quality can be improved by calibrating the scoring model, typically by adjusting the prediction thresholds using manually annotated examples. In this paper, we attempt for the first time cold-start calibration for KGC, where no annotated examples exist initially for calibration, and only a limited number of tuples can be selected for annotation. Our new method ACTC finds good per-relation thresholds efficiently based on a limited set of annotated tuples. Additionally to a few annotated tuples, ACTC also leverages unlabeled tuples by estimating their correctness with Logistic Regression or Gaussian Process classifiers. We also experiment with different methods for selecting candidate tuples for annotation: density-based and random selection. Experiments with five scoring models and an oracle annotator show an improvement of 7% points when using ACTC in the challenging setting with an annotation budget of only 10 tuples, and an average improvement of 4% points over different budgets.
著者: Anastasiia Sedova, Benjamin Roth
最終更新: 2023-09-20 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.06395
ソースPDF: https://arxiv.org/pdf/2305.06395
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。