言語モデルで答えられない質問を再構築する
この研究は、ユーザーのやり取りを良くするための質問の言い換えを改善することに焦点を当ててるよ。
― 1 分で読む
人が新しいドキュメントの情報を探しているとき、よく書かれていることから答えられない質問をすることがあるんだ。今の大規模言語モデル(LLM)は、こういう答えられない質問を見つけられるけど、ユーザーが質問を答えられるものに変える手助けはしてくれない。これがその役立ち度を制限してるんだよね。
そこで、この問題に対処するために、新しい評価データセットが作られたんだ。このセットには、既存の質問と新しい質問が含まれていて、答えられない質問をどう再構成するかを研究することを目的としてる。様々な高度なオープンソースとプロプライエタリなLLMがこの新しいセットでテストされた結果、モデルが質問を再構成するのに苦労してることが分かったよ。例えば、GPT-4は質問を正しく再構成できたのが26%だけ、一方でLlama2-7Bは12%しかできなかった。
再構成の際の間違いを詳しく見てみると、失敗した試みの約62%は元の質問を言い換えただけだったり、同じだったりしたんだ。
特に法律や医療の分野では、LLMを使ってドキュメントに基づいて質問に答えることが一般的になってきてるけど、ドキュメントを理解していないせいで、多くのユーザーが答えられない質問を作っちゃうんだ。こういう質問には、ドキュメントに合わない仮定があったり、確認できないものが含まれてたりするんだ。これらの誤った仮定は「前提誤り」と呼ばれるよ。
研究によると、情報を求めるユーザーの質問の約30%にはこういう前提誤りがあるんだ。例えば、ユーザーがドキュメントに基づいて答えられない質問をした場合、モデルがそのテキストに基づいて答えられる別の質問を提案できるかもしれない。
過去の研究は主に答えられない質問を見つけることと、その理由を説明することに焦点をあててきたけど、ただそれらの質問を特定するだけじゃユーザーとLLMのインタラクションを改善するには不十分なんだ。質問をどのように言い換えるかの指導がなければ、ユーザーは同じ答えられない質問を繰り返し聞き続けちゃうかもしれない。
大規模な実験でも、バーチャルアシスタントに対して答えられない質問を再構成することでユーザー体験が大きく改善されたことが分かったんだ。質問を再構成する取り組みは、100の例から得た様々な戦略を通じて研究された。この研究は、答えられない質問を検出し、ドキュメントに基づいて生成できる関連質問を生み出す新しいタスクを作ることで、質問応答システムの役立ち度を向上させることを目指してる。
情報を要約するだけじゃなくて、ユーザーが本当に求めていることを理解するために関連する質問を作ることが重要なんだ。これをすることで、インタラクションはユーザーのニーズにもっと沿ったものになる。
関連する新しい質問を提案する方法を示すために例が示されてるんだけど、ユーザーにとっての潜在的な利益にもかかわらず、質問を再構成するのは依然として難しい課題なんだ。最初のステップは、人間が質問をどのように変えるかを分析し、前提誤りを修正するための異なる戦略を特定することだよ。それに基づいて、ドキュメントに基づく質問応答のための新しいベンチマークが作られたんだ。
このベンチマークは、既存のデータセットと新しいデータセットを組み合わせて、前提誤りを扱いながら質問の再構成を探ることを目的としてる。いくつかのプロンプティング手法、たとえば少数ショットプロンプティングや連鎖思考プロンプティングが、オープンソースとプロプライエタリモデルの両方でテストされた。結果は、これらのモデルが答えられない質問を効果的に検出したり再構成したりするのが難しいことを示してる。
成功率は使用する基本モデルによって7.13%から26.21%に変わった。ほとんどのエラーは、モデルが元の質問を言い換えたり繰り返したりすることによるもので、特に質問が小さな修正ではなく大きな修正を必要とする場合に顕著だった。
すでに答えられない質問を研究するためのいくつかのデータセットが存在してる。一部のデータセットは、特にドキュメントに基づく文脈での答えられない質問に焦点をあててる。最近では、他のデータセットがGoogleやRedditのユーザーの問い合わせから前提誤りを含む質問を収集してる。
答えられない質問を特定する作業は、特に使用しやすいLLMで、もっと注目されるべきだ。前提を質問から抽出して、その仮定の違反を見つける自然言語推論を使うことが提案されてるけど、このプロセスには監視が必要で、しばしばそれは利用できない。
実際には、モデルをチェーンオブス思考の方法で使って答えられない質問を特定する方向に進んでいるんだけど、結果は期待外れで、検出率はほぼランダムな推測より少し良い程度だった。他の研究では、話し言葉の文脈で答えられない質問をどう再構成するかを調べていて、ぎこちない表現や文法の誤りが問題になってるんだ。しかし、この作業は、前提誤りから生じる答えられない質問に焦点をあてていて、文脈や関わる質問をより深く理解する必要があるんだ。
答えられない質問は、あいまいな質問とも関連してる。あいまいな質問の再構成に関する研究は多く行われてきたけど、答えられない質問は同じレベルの注目を受けていないことが多い。あいまいな質問を言い換える際は、正確なエンティティやイベントに焦点をあててより具体的にすることが多いけど、答えられない質問は再構成にさまざまな戦略が必要なんだ。
この研究は、ドキュメントベースの質問応答とオープンエンドの質問応答の関係について論じていて、前者は後者の特定のケースと見なされてる。だから、認識されたドキュメントから質問を再構成するプロセスは、単にドキュメントを取得するスキルとは別のスキルなんだ。
質問を再構成する作業では、この研究は明確なタスクを定義してる。ドキュメントとユーザーの質問が与えられたら、システムはまずその質問が答えられるかを確認しなきゃいけない。もし答えられないなら、システムはドキュメントに基づいて答えられるように質問を再構成して、元の質問に関連性を保たなきゃいけない。
このタスクは明確に定義するのが難しいから、チームはまず人間が生成した再構成を質的に研究したんだ。さまざまな前提誤りに対処するために異なる戦略が用いられた。ドキュメントに矛盾する前提に対しては人間ユーザーが修正を行った。確認できないものに対しては、より広い質問をする、答えられる質問に近い質問を見つける、そして元の質問を詳しい情報に焦点をあてて洗練させるのが三つの戦略だった。
目標は、矛盾を避けながら、確認された情報に基づいて質問を再構成するのを助けるベンチマークを作ることなんだ。このベンチマークを作るために、二つの重要な課題が考慮された。まず、さまざまなタイプの前提に取り組むために、複数の領域をカバーするべきだってこと。次に、評価の方法が良い再構成された質問のさまざまな評価を公平に行う必要があるってこと。質問の再構成は主観的だからね。
プロセスには、三つの既存のデータセットを選定し、ニュース記事、レビュー、Redditの投稿から三つの新しいデータセットを作成することが含まれてる。この質問はモデルによって生成され、クラウドワーカーによって質がチェックされた。人工的に答えられない質問を作り出さないようにするために、質問生成モデルには自然に質問を生成するよう指示され、その後に答えられないものを見つけることになった。
これを通じて、LLMが扱うのが難しい高品質のデータセットが形成された。いくつかの既存のデータセットがドキュメントベースの質問応答の文脈に合わせて適応された。
モデルが質問をどれだけうまく再構成できるかを評価するタスクは、新しい質問がドキュメントに基づいて答えられるかと、元の質問に関連しているかを確認することが含まれる。
多くの再構成が同じくらい有効で、どの再構成がユーザーの意図を反映しているかを判断するのはトリッキーだから、リファレンスフリー評価法が提案されてる。この方法は、トピック、意図、意味に基づいて二つの質問の関連性を測るものなんだ。
評価のメトリクスには、編集距離、エンティティ重複率、元の質問と再構成された質問のコサイン類似度が含まれる。答えられないか、関係があまりない再構成はユーザーに役立たないんだ。
再構成された質問が答えられるかどうかを自動的に確認するために、再構成の答えられるかを分類するモデルが訓練された。
さらなる明確さのために、成功率の計算方法の詳細が提供された。答えられるけど関連性がない、または関連性があるけど答えられない再構成は依然として役立たない。
研究は、異なるモデルがさまざまなプロンプティング手法でどれだけうまく機能するかを調べたんだ。
結果は、異なるモデルが異なるプロンプティング手法に対して異なる反応を示すことを示してる。
発見は、再構成の成功率が大きく異なることを示している。BBCデータセットが最も簡単で、Redditデータセットはより難しかった。
すべてのモデルの中で、GPT-4が最も高い成功率を示し、GPT-3.5が最も悪かった。
再構成された質問の質的分析では、多くのモデルが単に既存の質問を言い換えたり、他のエラーが元の質問にあまり関係のない質問を生成したりすることが分かった。
例として、St Albansのスポーツに関する質問が、特定の焦点の代わりに一般的な参加率を尋ねるように再構成されたんだ。
さらに、モデルが答えられない質問を特定することに成功しても、それを再構成するのは難しいことが多く、詳細な推論やコンテンツ理解が求められるんだ。
研究は、質問にグローバルな変更を加えることが局所的な編集を加えるよりもずっと難しいことを指摘している。だから、少ない修正を必要とする質問の再構成に焦点をあてることで、より良い結果が得られるかもしれない。
最小変更が必要な質問のタイプとその答えられるかどうかの相関関係は、質問が大きな変更なしに調整できるときの方が簡単であることを示している。
正確性に関しては、エンティティ重複率が編集距離よりも関連性を測るのにより効果的で、この方法は人間の判断により近いことが分かった。
この研究の制限には、モデルによって生成された質問に依存していることが含まれていて、実際のユーザー入力ではないこと。また、人間の判断の変動や言語の多様性が改善すべき領域として指摘された。
この研究の目標は、LLMがユーザーがドキュメントに基づいて質問を形成し、再構成するのを助けるようにすることで、情報を求める際の全体的なユーザー体験を向上させることなんだ。今後の取り組みは、複雑な答えられない質問を効果的に再構成する方法を洗練させることに焦点をあてるべきだね。
タイトル: I Could've Asked That: Reformulating Unanswerable Questions
概要: When seeking information from unfamiliar documents, users frequently pose questions that cannot be answered by the documents. While existing large language models (LLMs) identify these unanswerable questions, they do not assist users in reformulating their questions, thereby reducing their overall utility. We curate CouldAsk, an evaluation benchmark composed of existing and new datasets for document-grounded question answering, specifically designed to study reformulating unanswerable questions. We evaluate state-of-the-art open-source and proprietary LLMs on CouldAsk. The results demonstrate the limited capabilities of these models in reformulating questions. Specifically, GPT-4 and Llama2-7B successfully reformulate questions only 26% and 12% of the time, respectively. Error analysis shows that 62% of the unsuccessful reformulations stem from the models merely rephrasing the questions or even generating identical questions. We publicly release the benchmark and the code to reproduce the experiments.
著者: Wenting Zhao, Ge Gao, Claire Cardie, Alexander M. Rush
最終更新: 2024-07-24 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.17469
ソースPDF: https://arxiv.org/pdf/2407.17469
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://huggingface.co/datasets/wentingzhao/couldask
- https://github.com/wenting-zhao/couldask
- https://huggingface.co/datasets/SetFit/bbc-news
- https://huggingface.co/datasets/reddit
- https://huggingface.co/datasets/yelp
- https://huggingface.co/wentingzhao/question-evaluator