対話データセット作成の新しいアプローチ
革新的な方法は、対話データセットのために言語モデルと人間の入力を組み合わせている。
― 1 分で読む
目次
特定の情報源に基づいた情報探索の会話用データセットを作るのは難しくてお金もかかる。今の方法の多くは、人がこれらのデータセットを作ることに完全に依存しているから、プロセスが遅くて高コストになってる。私たちは、高度な言語モデルと人間の入力を組み合わせることで、これらのデータセットを生成する新しい方法を提案する。この方法によって、データ作成がもっと早くて信頼性のあるものになる。
現在の方法とその限界
従来の対話データセットを生成するアプローチは、2人の人が協力して対話をゼロから作るという方法をよく使ってる。一人がユーザーとして質問をし、もう一人がエージェントとして見えるテキストに基づいて回答を提供する。この方法はウィザード・オブ・オズ(WOZ)法として知られてて、すごく時間がかかるし、異なるデータセット間で質がバラバラになることがある。
私たちの新しい方法は、大規模言語モデル(LLM)を使って対話を生成することで、このプロセスを簡単にすることを目指してる。人間のアノテーターが生成された出力をチェックして改善することで、全体のプロセスがもっと効果的で迅速になる。
MISeDの紹介
私たちのアプローチを示すために、会議の情報探索対話データセット(MISeD)を作った。これは会議のトランスクリプトに基づいた情報探索対話用に特別に設計された最初のデータセットだ。MISeDを使って訓練されたモデルは、評価テストや他の既存のデータセットでの要約テストでもより良いパフォーマンスを示した。
情報源に基づいた情報探索対話の主な目的は、ユーザーが会議のトランスクリプトのような特定の知識源から必要な情報を迅速に見つけて抽出するのを助けることだ。この種の会話では、ユーザーが質問をし、ソーステキストについてのいくつかのやり取りを通じて応答を受け取る。
データ生成の仕組み
対話を作るために、私たちは構造化されたプロセスに従ってる。まず、会議のトランスクリプトと以前の対話に基づいてユーザーのクエリを作成するためのプロンプトを言語モデルに与える。そして、次にエージェントの応答を生成するための別のプロンプトを使い、会話全体の文脈を含める。この自動生成は完全な対話が形成されるまで続けられる。人間のアノテーターが生成された対話をレビューし、質を確保し、元のテキストへの参照に関する必要な詳細を追加する。
データ生成の改善
私たちの方法の主な利点の一つは、従来のWOZプロセスを自動化することで改善されることだ。大規模言語モデルを使うことで、ユーザーとエージェントの役割をシミュレートでき、対話データセットの生成を加速させることができる。人間のアノテーターも重要な役割を果たしていて、対話を検証し、不正確な部分を修正し、元のテキストに基づいて帰属を追加する。
MISeDの作成には、さまざまな会議のトランスクリプトを使用して、幅広く情報豊かなデータセットが形成されるようにした。このプロセスは、会議全体に関する一般的な質問と、特定の詳細やトピックに焦点を当てた特定の質問の両方を含む構造になっている。
データセットの構造と使用法
MISeDの各対話インスタンスは、特定の会議トランスクリプトに関する会話を含んでいて、いくつかのクエリと応答のターンが含まれてる。それぞれの応答には、応答のための情報を見つけることができる会議のトランスクリプトへの参照が含まれることもある。この構造化されたアプローチは、情報が基盤となり追跡可能であることを確保するのに役立つ。
私たちのデータセットには、製品に関する話し合いや学術的な講演、政府の手続きなど、さまざまな会議のタイプが含まれてる。この幅広い資料により、MISeDは、見逃した会議をキャッチアップしたり、長い議論から迅速な回答を得たりするのをサポートすることを目指してる。
MISeDの質の評価
生成したデータが高品質であることを確認するために、私たちは私たちの方法で生成された応答と手動で作成された応答を比較した。初期の結果によると、私たちの応答の質は、人間だけが生成したものと同等かそれ以上であることが示され、私たちの方法が対話データセットを作成するための貴重なツールになっていることがわかった。
テスト用のウィザード・オブ・オズデータセット
MISeDデータセットとは別に、ウィザード・オブ・オズ技術を使って伝統的な人間の方法で作成された別のテストセットを収集した。これにより、MISeDで訓練されたモデルが人間だけによって生成されたデータでどのくらいパフォーマンスが良いかを分析でき、私たちのアプローチの効果をより深く理解できた。
手動の方法で対話を作成するのにかかった平均時間は、私たちの自動化された方法よりかなり長かった。これは、自動化による対話データ生成の効率向上の可能性を強調してる。
モデルの評価方法
MISeDで訓練されたモデルのパフォーマンスを、生成する応答の質と、彼らの回答を支持する元の資料のセグメントに関する帰属の正確性の2つの主要な分野で評価してる。
人間の評価者は、応答のランダムサンプルを手動で評価し、期待される回答をどれだけカバーしているかを見てる。また、モデルが情報をどれだけ明確に正確に提示しているかも確認してる。単語の重複や意味的理解に基づく自動評価方法、例えばBLEURTなども使われて、追加の洞察を提供してる。
帰属評価では、生成された応答が参照として特定されたテキストセグメントによって直接裏付けられているかを分析してる。これは、回答が正確であるだけでなく、元の資料からの適切な詳細によっても裏付けられていることを確保する。
モデル評価からの結果
結果は、MISeDデータで訓練されたモデルが他の方法に依存しているモデルよりも性能が良いことを示している。応答を比較すると、人間の評価者は、私たちのMISeD生成の回答が完全に手動の回答よりも優れているか同等であることがよくあった。
MISeDデータとWOZデータセットを比較したテストでは、MISeDで生成された応答が従来の手段で作成されたものよりも一貫して優れていることがわかり、私たちのアプローチの利点を浮き彫りにした。
結論
私たちの研究は、特に会議のトランスクリプトに基づいた情報探索のやり取り用の対話データセットを生成する新しい方法を紹介する。高度な言語モデルと人間の検証を組み合わせることで、高品質なデータを迅速かつ信頼性のある方法で作成でき、対話モデルを効果的に訓練するのに使える。
私たちの方法は可能性を示しているが、帰属プロセスの自動化にはまだ課題が残ってる。今後の作業は、帰属の生成方法を改善することに焦点を当て、全体のプロセスをさらに効率的にすることを目指してる。
MISeDの成功した実施と評価から得た洞察を通じて、私たちはこのアプローチがさまざまな分野で役立ち、特に会議のような大きなテキストや録音に基づいてユーザーと対話システムの相互作用を改善できると信じてる。この方法が他のコンテキストにも適用できる可能性は大きく、対話生成の自動化分野でさらに多くの探求と改善があることを示唆している。
タイトル: Efficient Data Generation for Source-grounded Information-seeking Dialogs: A Use Case for Meeting Transcripts
概要: Automating data generation with Large Language Models (LLMs) has become increasingly popular. In this work, we investigate the feasibility and effectiveness of LLM-based data generation in the challenging setting of source-grounded information-seeking dialogs, with response attribution, over long documents. Our source texts consist of long and noisy meeting transcripts, adding to the task complexity. Since automating attribution remains difficult, we propose a semi-automatic approach: dialog queries and responses are generated with LLMs, followed by human verification and identification of attribution spans. Using this approach, we created MISeD -- Meeting Information Seeking Dialogs dataset -- a dataset of information-seeking dialogs focused on meeting transcripts. Models finetuned with MISeD demonstrate superior performance compared to off-the-shelf models, even those of larger size. Finetuning on MISeD gives comparable response generation quality to finetuning on fully manual data, while improving attribution quality and reducing time and effort.
著者: Lotem Golany, Filippo Galgani, Maya Mamo, Nimrod Parasol, Omer Vandsburger, Nadav Bar, Ido Dagan
最終更新: 2024-10-15 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2405.01121
ソースPDF: https://arxiv.org/pdf/2405.01121
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/google-research/longt5
- https://gemini.google.com/app
- https://ai.google.dev/docs/model
- https://github.com/google-research/google-research/tree/master/rouge
- https://github.com/google-research/bleurt
- https://github.com/google-research-datasets/MISeD