言語モデルにおけるマルチホップ推論の強化
知識グラフを使って、言語モデルが複雑な質問に答える能力を向上させる。
― 1 分で読む
言語モデル(LM)は、知識を使って質問に答えることができる強力なツールだけど、複雑な質問に答えるために必要な情報をいろいろな事実からまとめるのが苦手なんだ。この論文では、知識グラフからの構造化データを使って、こういった質問に答える能力を向上させる方法を話してるよ。
マルチホップ推論の課題
複数の情報を探さないといけない質問に答えるためには、言語モデルが二つの主要なスキルを持ってる必要がある。まず、人物やその関係に関する関連する事実を知っておくこと。例えば、「デビッド・ベッカムの娘はどこで生まれた?」という質問に答えるには、デビッド・ベッカムにはハーパー・ベッカムという娘がいて、彼女はロサンゼルスで生まれたということを知っている必要がある。第二のスキルは、この知識をつなげる能力だ。
最近の言語モデル、BERTやT5は事実を覚えることができるけど、異なる情報をつなげるのは難しいんだ。ほとんどの既存の方法は、複雑な質問をモデルが処理できるようにシンプルなものに分解しようとしたけど、この方法は別のモデルや人間の助けが必要になることが多く、効率が悪い。
提案された方法
この論文は、言語モデルが追加のモデルや人間の介入なしでマルチホップ推論能力を改善できる新しいアプローチを提案してる。キーポイントは、知識グラフでランダムウォークを使うこと。知識グラフは、情報を構造化して表現する方法で、エンティティが関係でつながっているんだ。
このアプローチでは、言語モデルが知識をチェーンにするように柔らかいプロンプトを使って誘導するんだ。柔らかいプロンプトは、複雑な質問に答える方法を学ぶのを助ける柔軟なトレーニング信号なんだ。
知識統合
モデルがマルチホップ質問に答える前に、その答えに必要な基本的なシングルホップ知識を知っておく必要がある。例えば、「デビッド・ベッカムの娘はどこで生まれた?」という質問に答えるには、デビッド・ベッカムにはハーパー・ベッカムという娘がいることを理解しなきゃいけない。
これを実現するために、研究者たちは必要な情報を含む知識グラフのトリプルでモデルをファインチューニングしてる。このステップで、モデルがより複雑な質問に答えるための前提知識を持つようになるんだ。
ランダムウォークによるトレーニング
著者たちは、知識グラフ内のエンティティ間の接続のシーケンスであるランダムウォークでモデルをトレーニングしたんだ。例えば、ランダムウォークは「デビッド・ベッカム」から「ハーパー・ベッカム」、そして「ロサンゼルス」へと関係を通じて行くかもしれない。
トレーニング中に、モデルはこれらのパスを予測することを学んで、知識をより良くつなげられるようになる。トレーニングプロセスは、言語モデルの元々の能力を保ちながら、新しい能力を加える感じだね。
質問回答技術
これらのモデルが質問に答える能力を向上させるために二つの方法が提案されたよ:
二つの別々の柔らかいプロンプト:一つのプロンプトは質問の理解とエンティティや関係の抽出に焦点を当て、もう一つは答えへのパスを生成する。こういうモジュラーアプローチなら、モデルが質問を解析しやすく、知識グラフから答えを引き出しやすくなるんだ。
結合トレーニング:この方法では、一つのプロンプトが質問回答タスクとランダムウォークトレーニングの両方でトレーニングされる。このおかげで、モデルは質問を必要な知識に直接つなげる方法を学ぶことができるんだ。
実験設定
著者たちは特定のデータセットを使って実験を行った。このデータセットには、二つの事実をつなげる必要がある質問が含まれてる。彼らのテストは「インセプションの監督はどこで生まれた?」みたいな質問を追加のテキストや文脈なしでモデルが処理できるかに焦点を当てたよ。
モデルは、これらの質問に正しく答える能力に基づいて評価されたんだ。
結果と発見
実験の結果、モデルに必要な基本知識を与えるだけでは複雑な質問に答える能力はあまり向上しなかったけど、ランダムウォークに基づいた方法を使った際には、モデルは素晴らしい改善を示したんだ。
一番大きなモデルでは、ランダムウォークに基づく方法によって二ホップ質問に対しては従来の方法よりずっと良く答えられるようになったよ。場合によっては、新しい技術が従来の完全なモデルチューニングよりも良い結果を出すこともあったんだ。
モデルサイズの役割
結果は、大きなモデルがランダムウォークによって提供される追加のトレーニング信号をよりうまく活用できることを示してる。小さなモデルでは新しい方法からの改善があまり目立たなかったので、大きなモデルの方が構造化されたトレーニングアプローチをよりうまく活かせる気がするね。
制限
この研究は二ホップ質問に対していい結果を示したけど、いくつかの制限も明らかになった。研究は二ホップ質問だけに焦点を当てているから、三つ以上の接続が必要な質問に対してこの方法がどれくらい適用できるかはまだ分からないんだ。
もう一つの制限は使用された知識グラフのサイズだ。研究で使われた知識グラフは比較的小さくて、モデルが実際の質問に答える能力に影響を与えるかもしれない。
今後の方向性
著者たちは、今後の研究ではもっと多くのエンティティや関係を含む知識グラフを拡張することが、モデルの全体的な能力を向上させるかもしれないと言ってる。また、他のよく使われる質問回答データセットで実験することも、彼らの方法の効果についての洞察を得る助けになるかもしれないね。
結論
ランダムウォークと柔らかいプロンプトを使って言語モデルをトレーニングすることで、研究者たちはこれらのモデルが複雑な質問に答える能力を改善する方法を示した。この研究から得られた洞察は、構造化知識に焦点を当てることが言語モデルの推論能力を大きく向上させる可能性があることを示唆していて、実世界のアプリケーションでの複雑なクエリを処理できるより高度なシステムの道を開くかもしれないね。
タイトル: Triggering Multi-Hop Reasoning for Question Answering in Language Models using Soft Prompts and Random Walks
概要: Despite readily memorizing world knowledge about entities, pre-trained language models (LMs) struggle to compose together two or more facts to perform multi-hop reasoning in question-answering tasks. In this work, we propose techniques that improve upon this limitation by relying on random walks over structured knowledge graphs. Specifically, we use soft prompts to guide LMs to chain together their encoded knowledge by learning to map multi-hop questions to random walk paths that lead to the answer. Applying our methods on two T5 LMs shows substantial improvements over standard tuning approaches in answering questions that require 2-hop reasoning.
著者: Kanishka Misra, Cicero Nogueira dos Santos, Siamak Shakeri
最終更新: 2023-06-06 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2306.04009
ソースPDF: https://arxiv.org/pdf/2306.04009
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。