Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

Wikidataを使って言語モデルの精度を向上させる

言語モデルとWikidataを組み合わせることで、正確な質問応答が向上するよ。

― 1 分で読む


AIの回答の精度を上げるAIの回答の精度を上げる結果を出そう。データとモデルを組み合わせて、もっと良い
目次

Wikidataは、いろんなトピックに関する情報をたくさん集めたデータベースだよ。コンピュータを使って質問に答えるのに大事なリソースになってる。ただ、GPT-3みたいな強力な言語モデルが登場したことで、これらのモデルが時々間違ったことを言ったり、不完全な答えを出したりすることが心配されてるんだ。この記事では、Wikidataからの確認済み情報と組み合わせて、これらの言語モデルが提供する答えの正確性を改善する新しいアプローチについて話すよ。

正確な答えが必要な理由

GPT-3のような大規模言語モデルは、人間の言葉を理解したり処理したりできるんだ。質問に答えたり、物語を書いたり、いろんなタスクをこなしたりする。ただ、彼らはトレーニングしたデータから学んだパターンに基づいて答えを生成することが多くて、真実に依存してるわけじゃないんだ。これが間違いを生む原因になる。

例えば、事実に関する質問をされたとき、GPT-3は自信満々に間違ったことを言うこともある。これは問題で、ユーザーはこれらのモデルの答えを信じちゃうかもしれない。だから、答えが正確で、Wikidataみたいな信頼できるソースと照合できることがすごく重要なんだ。

Wikidataって何?

Wikidataは、いろんなテーマに関する情報が集まった構造化データベースだよ。人や場所などのエンティティと、それらのエンティティの関係を説明するプロパティから成り立ってる。例えば、「ジョー・バイデンはアメリカ合衆国の大統領だ」と言ったとき、「ジョー・バイデン」はエンティティ、「大統領」はプロパティ、そして「アメリカ合衆国」は別のエンティティになる。

Wikidataは、主題、述語(またはプロパティ)、オブジェクトから成るトリプルという形式で情報を保存してる。この構造により、コンピュータがデータを簡単に取得したり操作したりできるんだ。

Wikidataを使ったベンチマーク

言語モデルが質問にどれくらい正確に答えられるかを評価するために、研究者たちはベンチマークやテストを作成したんだ。Wikidata専用の新しいベンチマークが開発されたよ。このベンチマークは、実際に人々が質問する内容を使っていて、GPT-3がWikidataに保存されてる事実に対してどれくらいパフォーマンスが良いかを比較するための注釈が加えられてる。

このベンチマークの目的は、質問に正確に答えるためのモデルをトレーニングするための高品質なデータセットを作ることなんだ。新しいデータセットには、ユーザーが実際に知りたいことを反映したさまざまな質問が含まれてる。

フューショット学習技術

大量のトレーニングデータを集めるのはお金も時間もかかるから、研究者たちは「フューショット学習」という技術を導入した。このアプローチでは、少数の例から学んで、見たことのない新しい質問に一般化できるようになる。トレーニングデータを合成することで、研究者たちはより多様で複雑な質問に対応できる優れたモデルを構築できるんだ。

この文脈で、研究者たちはセマンティックパーシングタスクのためのトレーニングデータを合成する方法を作った。この方法は、質問をWikidataの正しい表現にマッピングすることに焦点を当ててて、モデルが正確な答えを出せるようにしてる。

言語モデルとセマンティックパーサーの組み合わせ

有望なアプローチの一つは、大規模言語モデルの強みとセマンティックパーサーの強みを組み合わせることだよ。セマンティックパーサーは、自然言語の質問をコンピュータが理解できる構造化形式に翻訳するんだ。Wikidataに基づいて答えを提供することで、回答の正確性を向上させることができるんだ。

ユーザーが質問をすると、セマンティックパーサーがそれをWikidataに対して実行できる形に変換する。例えば、誰かが「今のアメリカの大統領は誰?」と聞いた場合、セマンティックパーサーはこれをWikidataから正しい情報を取得するクエリに変えることができる。

このアプローチの利点は、ユーザーに確認済みの答えを提供できること。可能な限り、モデルはセマンティックパーサーからの答えを直接返す。もしセマンティックパーサーが答えを提供できない場合は、言語モデルが推測した内容を示して、「確信はない」とはっきり言うんだ。

データセットの設計

モデルのパフォーマンスを評価するための信頼できるデータセットを作成するために、研究者たちはFreebaseからWikidataに移行した既存のデータセット「WebQuestionsSP」を利用した。この新しいデータセットは、答えを取得するための正しいクエリ形式で注釈された実世界の質問を含んでる。

研究者たちはデータをクリーンにし、質を確保するために整理した。役に立たない例は削除して、Wikidataに最新の答えがあるものだけを残した。

最終的なデータセットには何千もの例があり、トレーニング、テスト、開発セットに分けられてる。この構造により、研究者たちはモデルを効果的にトレーニングし、ベンチマークに対してパフォーマンスを評価できるんだ。

知識グラフによる課題への対処

Wikidataは、膨大な数のエンティティとプロパティを持っているからユニークなんだけど、質問に答えるときに課題をもたらすこともある。一部の質問は、エンティティ間の関係が複雑なため、簡単な答えがないこともある。

これらの課題に対処するために、研究者たちはプロパティの階層を開発した。これにより、関連するプロパティがグループ化されて、セマンティックパーサーが質問に答える際にどのプロパティを使うべきかを特定しやすくなるんだ。

例えば、「エッフェル塔はどこにある?」と誰かが聞いた場合、場所に関連するさまざまなプロパティを考慮できるから、モデルが効率的に正しい答えを取得できるようになる。

エンティティリンクの改善

このアプローチのもう一つの重要な側面はエンティティリンクで、これは質問で言及されたエンティティを特定し、知識グラフ内の対応するエンティティにリンクすることを含む。多くのエンティティが似た名前を持つことがあるから、これが難しいこともあるんだ。

エンティティリンクを改善するために、研究者たちは最新のリンクシステムを使った。システムはユーザーのクエリ内のエンティティを特定し、セマンティックパーサーがどのエンティティに注目すべきかを理解するのを助ける。これは特に重要で、エンティティ情報が欠けていたり間違っていたりすると、間違った答えにつながるからね。

セマンティックパーサーのトレーニング

セマンティックパーサーを効果的にトレーニングするためには、大量のトレーニング例が必要なんだ。研究者たちは、合成データとデータセットからの実世界の例を使って、頑丈なトレーニングデータセットを構築した。

セマンティックパーサーは、言語タスクに適した強力なモデルであるBARTを使ってトレーニングされた。トレーニング中に、モデルは入力質問に基づいて正しい構造化クエリを生成することを学んだんだ。

パフォーマンス評価

この組み合わせアプローチのパフォーマンスは、ベンチマークデータセットを用いて評価された。研究者たちは、モデルが正しいクエリをどれくらい正確に生成できるか、そしてその後、Wikidataから正しい答えをどれくらい正確に取得できるかを測定した。

結果は、この新しいアプローチが高い正確性を達成したことを示してる。セマンティックパーサーとGPT-3を組み合わせることで、モデルはかなりの割合の質問に対して確認可能で正確な答えを生成できるようになったんだ。

エラー分析と改善

さらにモデルを改善するために、研究者たちはエラー分析を行った。エラーの一般的な原因を特定したんだ、例えばエンティティリンクや不適切なプロパティの使用など。

これらのエラーを理解することで、研究者たちはモデルを洗練させ、特定の短所に対処することができる。こうした継続的な改善サイクルは、より信頼性のある質問応答システムを開発するために不可欠なんだ。

結論

大規模言語モデルの能力とWikidataからの構造化された知識を組み合わせることで、正確な質問応答のための強力な解決策が得られる。確認済み情報に焦点を当て、セマンティックパーシングのような技術を使うことで、答えの信頼性が大いに向上する。こうしたアプローチは、応答の正確性を高めるだけでなく、ユーザーに情報を提供する自動化システムへの信頼を築くことにもつながる。これらの技術が進化するにつれて、効率的かつ正確に知識にアクセスするための重要なツールになりうるんだ。

オリジナルソース

タイトル: Fine-tuned LLMs Know More, Hallucinate Less with Few-Shot Sequence-to-Sequence Semantic Parsing over Wikidata

概要: While large language models (LLMs) can answer many questions correctly, they can also hallucinate and give wrong answers. Wikidata, with its over 12 billion facts, can be used to ground LLMs to improve their factuality. This paper presents WikiWebQuestions, a high-quality question answering benchmark for Wikidata. Ported over from WebQuestions for Freebase, it consists of real-world data with SPARQL annotation. This paper presents a few-shot sequence-to-sequence semantic parser for Wikidata. We modify SPARQL to use the unique domain and property names instead of their IDs. We train the parser to use either the results from an entity linker or mentions in the query. We fine-tune LLaMA by adding the few-shot training data to that used to fine-tune Alpaca. Our experimental results demonstrate the effectiveness of this methodology, establishing a strong baseline of 76% and 65% answer accuracy in the dev and test sets of WikiWebQuestions, respectively. By pairing our semantic parser with GPT-3, we combine verifiable results with qualified GPT-3 guesses to provide useful answers to 96% of the questions in dev. We also show that our method outperforms the state-of-the-art for the QALD-7 Wikidata dataset by 3.6% in F1 score.

著者: Silei Xu, Shicheng Liu, Theo Culhane, Elizaveta Pertseva, Meng-Hsi Wu, Sina J. Semnani, Monica S. Lam

最終更新: 2023-11-05 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.14202

ソースPDF: https://arxiv.org/pdf/2305.14202

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事

ヒューマンコンピュータインタラクションAI研究のためのカスタマイズ可能なアノテーションツール

このツールは、研究者が自分のニーズに合わせた柔軟なアノテーションシステムを作るのを手伝うよ。

― 1 分で読む