Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

韓国語でペルソナ対話データセットを作成する

この研究は大規模なオープンドメインのペルソナ対話データセットを作成する。

― 1 分で読む


オープンドメイン対話データオープンドメイン対話データセットの構築究。大規模なペルソナ対話データセットを作る研
目次

自然言語データセットを作るのは注意が必要で、言葉のちょっとした変化でも意味が変わることがあるんだ。この問題は、質問をしたり会話をしたりするタスクで目立つし、トピックの分類や感情の分析などのカテゴライズタスクでも現れる。オープンドメインの会話は、2人以上の人が自由にあらゆるテーマについて話すことを含む。この種のデータを集めるのは、主に2つの理由で難しい。まず、プライバシーの懸念から特別にデータセットを作らないといけないこと、次に、有料の会話は現実の人々の行動を反映していないかもしれないから。

この研究では、大規模なオープンドメインのペルソナ対話データセットを作ることでこれらの課題に取り組む。ここで「ペルソナ」とは、異なる特徴を持つさまざまな俳優が行う会話や、一般の人々からのユーザーとのやり取りを指す。

会話におけるペルソナの役割

現代のチャットボットは、より人間らしく見せるために特定のペルソナが設計されていることが多い。性格や記憶、感情的特徴などが考慮されて、ユーザーを惹きつけたり、長い会話を促したりする。しかし、こうしたペルソナ主導のエージェントはいくつかの課題に直面している。過去の会話を覚えておく必要があり、一貫したキャラクターを維持して適切に応答する必要があるんだ。例えば、高校生の男の子でピアノを楽しんでいるエージェントが、キャリアウーマンとしての経験について質問された場合、問題が生じるかもしれない。また、会話中にエージェントの態度が急に冷たくなったりすると、やり取りが気まずくなる可能性もある。こうしたすべての側面が、スムーズな会話の流れには重要なんだ。

エージェントがスムーズに会話を続けられるようにするためには、さまざまな戦略が必要だ。これには理解度の確認、返答の生成、雑談、またはフォールバックの指示が含まれる。これらの戦略は、会話がどのように進むかに重点を置いていて、自己感覚の維持や以前の発言との矛盾を避けるといったエージェントの認知的・感情的側面にはあまり関係していない。だから、エージェントが会話中にペルソナに忠実である対話データセットを構築するのが役立つと考えているんだ。でも、そんなデータセットを作るのは、普通の会話データを集めるのとはわけが違う。

対話データセット作成の難しさ

2人以上のスピーカーがいる対話データセットを作るのは難しいんだ。なぜなら、成功する会話は共通の基盤を見つけたり、親しみを築いたり、コミュニケーションスタイルを合わせたりするなど、いくつかの条件に依存しているから。この難しさは具体的なテーマのないオープンドメインの対話ではさらに増す。参加者の興味が広く異なるため、会話がすぐに途切れてしまう可能性が高くなる。

タスク指向の対話からの戦略、例えばウィザード・オブ・オズの方法や自己プレイを使うのは難しい。マニュアルがオープンドメインの対話における多様なトピックをカバーしていないこともあるし、自己プレイでは会話の内容や自然さが制限されることもある。だから、オープンドメインの対話には複数のスピーカーが関与することが重要なんだ。

オープンドメインのペルソナ対話

複数のスピーカーが会話をする時、日常的なトピックについて話し合うのが普通で、情報を共有したり、社会的な絆を深めたりすることが目的なんだ。この状況では、両者が会話を盛り上げるために同等の役割を果たすことになる。でも、一方がチャットボットやゲーム内の非プレイキャラクターのように、自分に近づいてくる人と関わる役割を割り当てられると、関係や役割が普通の設定とは異なることがある。これがユニークなペルソナ対話を表しているんだ。

前の研究ではペルソナ対話を研究して、代表的なオープンドメインのやり取りを作成してきた。いくつかのデータセットが、参加者同士のデュアルプレイアプローチを使って存在する。'ペルソナ'は通常、スピーカーの長期的な社会的アイデンティティを意味するけど、多くの研究は各対話に対して限られた特性を持つ特定のシナリオを作ることに焦点を当ててきた。参加者は対話の段階でこれらの条件を守るように指示されていた。このアプローチでは多様なペルソナ条件と会話が得られるけど、親しみや友好を築くのに必要な隠れた特性が欠けていることが多い。私たちは、ペルソナ対話データセットを構築するためには、失礼や攻撃性を避けつつ、長期的な社会的特性を捉えるために別の役割演技が必要だと考えているんだ。こうした行動は、参加者のメンタルウェルビーイングに悪影響を及ぼす可能性があるからね。

私たちの研究

この研究は、韓国語で大規模なオープンドメインのペルソナ対話データセットを構築し、参加者に安全で本物の会話体験を提供することに焦点を当てている。私たちの研究には3つの主要な要素がある。

セッティング

まず、ペルソナ参加者がユーザー参加者と会話するためのセッティングを整える。ユーザーはペルソナのプロフィールに基づいて会話を始めるんだ。両者のために会話ガイドラインを準備して、ペルソナ参加者により多くの責任を持たせる。彼らは俳優としての資格を得るためのインタビューを受けて、対話に参加する。

収集

セッティングを整えた後、クラウドソーシングプラットフォームで、俳優とおしゃべりしたいユーザー参加者を募集する。ユーザーが最初のメッセージを送って会話を始めるためのウェブアプリケーションを作成して、参加者が対話しつつ、管理者が対話をモニタリングできるようにする。

分析

各対話の後、参加者は会話の満足度を測る調査を記入する。楽しさ、親しみやすさ、つながりなどの要因をカバーしているんだ。俳優や管理者にインタビューも行って、戦略や持続可能性を改善するための洞察を集める。

これらの方法を使って、少数の俳優とユーザー参加者を使って、大規模なオープンドメインのペルソナ対話データセットを作成するのに私たちのアプローチがどう役立つかを示すことを目指している。このプロジェクトは、トーク・トゥ・アーンモデルの中で両方のグループに有意義な体験を提供するものだ。私たちは3つの研究質問を用意した。

  • RQ 1: 成功する対話データセットを作る際に考慮すべき要因は何?ペルソナ対話にとって重要な要素は何で、どんな課題がある?

  • RQ 2: 大規模な対話データセットを構築する上で、モデレーターはどんな役割を果たすの?この役割は他の言語データセットのモデレーションとはどう違う?

  • RQ 3: これらの考慮が成功した構築プロセスや成果につながる?参加者は体験に満足し、データセット内の多様なペルソナ特性を確保できる?

関連研究

会話データセット

対話は重要な研究分野で、構築方法は時間とともに進化してきた。初期のアプローチは、実際の会話からスクリプトを抽出して最小限の修正を加えるものだった。最近の方法は、関連タグを追加しながら、ゼロから対話を作成する。

スイッチボードは、事前に定義されたトピックに関する電話会話の初期マルチスピーカーコーパスだ。全米の500スピーカーから2,500の会話が含まれていて、簡単に参照できる時間合わせのトランスクリプトもある。追加の分析によってデータセットのリーチは広がったものの、今や30年以上前のもので、やや古い。さらに、ランダムな会話を収集することでプライバシーやライセンスの問題が浮上する。

一方で、デイリーダイアログは、人間が書いた対話で、ノイズが少なく、日常のやり取りを反映している。学校生活、仕事、旅行、関係などのトピックをカバーしていて、感情や対話行為のラベルが付けられて、貴重な分析情報を提供しているんだ。ただ、このデータは、英語学習者向けのさまざまなウェブサイトから集められていて、対話があまりにもフォーマルで、個々のスピーカーの特徴が欠けているかもしれない。

オープンドメインペルソナ対話に関する研究

オープンドメインの会話エージェントが生成する自由なチャットは、ますます首尾一貫して魅力的になってきた。しかし、現在のモデルは、長い会話を生成するのに苦労していて、ユーザーの発言を頻繁に繰り返したり、過去のやりとりを見失ったりすることが多い。

生成モデルは、トレーニングパラメータ外の外部知識に接続できないため、誤った情報を提示することもある。最近の取り組みには、人間のロールプレイングゲーム、1,000以上のペルソナセットの構築、長い会話の維持、そして共感的な応答の生成が含まれている。

ペルソナチャットデータセットは、特定のペルソナプロフィールに基づく個人的なおしゃべりのやりとりで構成されている。このデータセットは、ペルソナデザインの作成、洗練、ペルソナ主導の会話への参加の3つのフェーズに分類される。各ペルソナは冗長性を最小限に抑えるために書き直された5つの文で構成され、クラウドワーカーによって作成された160,000を超える発話がある。

共感的対話とウィザード・オブ・ウィキペディア

共感的対話データセットには、特定の感情的なフレーズを使用するスピーカーに対して聴き手が共感的な応答を示す対話データが含まれている。ウィザード・オブ・ウィキペディアデータセットは、ウィキペディアの記事から収集されたテキストで構成されており、専門的な役割を持つ作業者がさまざまなトピックについて話し合い、それぞれがウィキペディアの文に関連付けられている。これらのデータでトレーニングされたモデルは、自由な会話にインターネットの知識を取り入れることができる。しかし、自然で魅力的な対話を生成することは依然として課題で、ユーザーの満足度が高いエンゲージメントスコアと一致しないことが多い。インタラクティブなエージェントにおける性格や共感のような重要な特性は、興味深いやり取りを促進するために適切に定義する必要がある。

マルチセッションチャット

マルチセッションチャットは、会話が中断され、数時間から数日間にわたって再開される人間のクラウドワーカー間のやりとりを含む。既存のオープンドメインモデルが短い対話を処理する際には、記憶を維持するのが難しく、長いコンテキストを扱うことができるモデルが求められている。各エピソードには、以前の対話の簡単なまとめが含まれ、フォローアップの参加者が以前の議論を思い出せるようになっている。データセットを使ってトレーニングした生成モデルは、より首尾一貫した応答を生成したが、単に長期記憶と要約でトレーニングするだけでは、ユーザーエンゲージメントスコアの向上は保証されない。

ユーザーを惹きつけ、エンゲージメントを促進する要素を特定するために、さらなる研究が必要だ。

データ構築手順

私たちのデータ構築プロセスは、会話ガイドライン、パイロットスタディ、俳優の募集、対話収集の4つのステップで構成されている。

会話ガイドライン

このプロジェクトでは、ペルソナを参加者の俳優、ユーザーをクラウドワーカーの参加者と定義している。両者のために包括的な会話ガイドラインを作成する。全体の構造は似ているが、ペルソナ側にはより詳細な指示が必要だ。

ペルソナ側は、参加者を表すプロフィールが必要で、一般的なペルソナの定義よりも広範囲をカバーする。このプロフィールには、ペルソナの名前、画像、少なくとも3つの特質が含まれる。ペルソナは、人間から神話上の存在まで何でも良いが、参加者が割り当てられた特徴を一貫して演じることができることが求められる。ただし、プロフィールには個人情報や政治的・社会的に物議を醸すトピックは避ける必要がある。プロフィール画像は、ペルソナに合致し、ライセンスのポリシーに従うべきだ。

ペルソナプロフィールはユーザーに共有され、ユーザーは会話を希望するペルソナを選ぶ。ユーザーが会話を始め、ペルソナ俳優はそのチャットを続けることが期待されている。

やるべきこととやってはいけないこと

すべての参加者は次のことに留意するべきだ:

  • 他の存在と会話していることを忘れず、敬意を持つ。
  • 必要に応じて礼儀正しく。
  • 誠実であり、会話の文脈を覚えておく。
  • 両者が興味を持つトピックについて話し合う。

参加者は次のことを避けるべきだ:

  • 他の人が開示しない限り、個人情報を求めないこと。
  • データセットが公開された場合に害を及ぼす可能性のある敏感情報を含めないこと。
  • ヘイトスピーチや社会的バイアスや毒性に根ざしたコメントを使用しないこと。

会話戦略

スムーズな会話を確保するために、ペルソナ俳優には特定の推奨事項が提供される。戦略には以下が含まれる:

  • 個人情報を明かさずに状況を使って応答を導くこと。
  • 進行方法を決めるために会話履歴を確認すること。
  • ユーザーが興味を持つ可能性のあるトピックを予測すること。
  • 特定の職業を演じている場合はバックグラウンド情報を活用すること。
  • つながりを維持し、一貫性を確認するために個人的なストーリーを提供すること。

俳優はユーザーが主導する会話に従うことが奨励されるが、自分の物語を頻繁に共有して、ペルソナの一貫性を確認することが重要だ。

ユーザーにも特別な指示が与えられる。彼らは特定の有名人、ブランド、アートワークを言及できるが、厳しい批判や宣伝の意図がないことが求められる。ユーザーは会話の流れを乱すようなトピックを始めるべきではない。侮辱やハラスメントは許されず、誤解を招く可能性のある事柄も避けるべきだ。

これらのガイドラインは柔軟で、さまざまなユーザーグループやクラウドソーシングプラットフォームに適用可能で、参加時間やチャット制限に関する追加の指示が対話収集の段階で提示される。

パイロットスタディ

この研究の重要な目的は、特定のペルソナとユーザー間の会話の特徴を識別することだ。小規模な参加者グループを対象にパイロットスタディを実施した。

3人の俳優と、主に研究者やプロジェクトに関心のある学部生5人のユーザー参加者が招かれた。各俳優はプロフィールを準備し、指示を受け、ユーザーもガイドラインを受け取った。

韓国で人気のメッセージングアプリ「カカオトーク」をパイロットスタディのプラットフォームとして使用した。各俳優は名前、画像、短い説明を含む匿名プロフィールを設定した。このプロフィールがユーザーに共有され、ユーザーはプロフィールに基づいて会話を始めた。

俳優は対話ごとに約12ドルの報酬を受け取り、ユーザーの参加は任意だった。各対話は、両者が終了に同意した時点で終わり、ユーザーは事後に友好度やエンゲージメントを測るための調査を受けた。

パイロットスタディの結果

分析から、いくつかの洞察を得た:

  1. ユーザーは、対話やペルソナが魅力的だと感じるのは、会話が引き込まれるコンセプトに集中している場合だ。
  2. 経験や感謝を共有するなどの共感的な表現は、ユーザーの認識にプラスの影響を与えた。
  3. 自己開示、質問、共感のバランスがスムーズな会話には重要だ。
  4. 高い一貫性と重要なペルソナ特性が必ずしも魅力的な対話を保証するわけではない。

俳優の募集

メインの対話収集のために、ペルソナを表す俳優を募集する。約20人の俳優が応募し、11人がインタビューを経て選ばれた。この段階では、モデレーターが俳優とユーザー間のつながりを促進し、ソーシングを管理し、参加者を教育する。

モデレーターは俳優を選ぶ際に、いくつかの基準を考慮した。具体的には:

  • ペルソナコンセプトの魅力。
  • スムーズな会話を行う能力。
  • 時間を超えて興味を持続させる能力。
  • 自己開示の自然さ。
  • 応答における誠実さと共感。

熟考の結果、研究者は11人の俳優を承認し、そのプロフィールをクラウドに共有して参加を促進した。

対話収集

データ収集のメインフェーズでは、募集された俳優がユーザーとリアルタイムで会話をする。大規模なデータセットを構築するために関連する他の指示を組み込んだ異なるチャットプラットフォームが利用される。

プロジェクトのプラットフォームは、ユーザーと俳優の間で1対1のチャットルームを開く構造になっている。モデレーターがこれらのルームを監視し、対立を解決し、ガイドラインの遵守を確保する。ユーザーが送信する各メッセージはチャットで新しい行を促し、応答の追跡はタイムスタンプを使用して行う。

ユーザーはペルソナの発表に基づいてプロジェクトに参加する。各俳優の作業量は異なる場合があり、ユーザーがすべての俳優と会話することが義務付けられるわけではない。ただし、俳優の応答が遅れることがあるとユーザーには通知され、俳優が無限に待たされないように締めの発言を提供することが求められる。

俳優とユーザーの会話ガイドラインはパイロットの構造に従うが、データの整合性と一貫性を確保するためにユーザーに対して特定の警告が含まれている。

人為的な時間の挿入

インタラクションを豊かにするため、俳優には少なくとも4回の会話の後に人為的な期間を挿入する指示が出される。これらの休止は、数時間から数日間続くことがあり、参加者がより自然に会話を進めることを可能にする。

人為的な期間を導入することには、2つの目的がある。時間制限によって制約されることのない長期的な議論を生成する助けとなり、俳優が疲れた交流中に休憩を取ることを可能にする。したがって、人為的な時間は、ユーザーに会話が魅力的であり続ける必要があるという優しいリマインダーとしても機能する。

各会話は独立したイベントとして扱われる。つまり、俳優はすべてのユーザーに対して同じ対話履歴を維持する必要はない。人為的な時間を含めることの目的は、会話の流れをより本物にし、ユーザーが記載された時間のギャップに自然に適応できるようにすることだ。

報酬システム

適切なインセンティブフレームワークを確保するため、俳優には約6週間以内に一定量の対話(約300回)を完了するか、各対話ごとに報酬を受け取るよう指導される。この設定は彼らに対する有料の仕事を強調し、生産性が彼らの関与の意欲にあまり影響されないようにしている。

ユーザーにも報酬システムが設けられ、会話への参加がインセンティブに結びつく。対話はターンと文を明確に定義しており、全員が自分の貢献を理解できるようになっている。

  • 対話は、ユーザーの挨拶で始まり、締めの発言で終わる15から30のターンで構成され、少なくとも3回の人為的な期間が含まれる。
  • 各ターンは、俳優とユーザーとの2回のやりとりで構成される。
  • ユーザーは、エンゲージメントレベルに基づいて対話を完了するための報酬を受け取る。

会話が終了した後、ユーザーと俳優は彼らの体験に関連する調査を記入する。これらの評価はインタラクションプロセスを改善し、今後の参加を促すのに役立つ。

プロジェクトの流れ

全体のプロジェクトは、研究者がガイドラインを開発し、プラットフォーム(モデレーター)がつながりを促進し、参加者が対話に参加するという3つのステークホルダーを中心に構成されている。各インタラクションは、ユーザーの挨拶から始まり、ペルソナの特徴を反映するように調整され、その後ターンの交換が行われる。

ユーザーは会話を進めていき、意欲的に終了させるか、疲れたと感じたら終わらせる。会話後の調査は、満足度や改善点に関する洞察を提供する。プロジェクト全体は、俳優が対話のノルマに達した時点で終了する。

提案されたスキーム内で再現性を確保するために、モデレーターと選ばれた4人の俳優にインタビューを行い、私たちの戦略の有効性を評価した。

俳優からのフィードバック

ペルソナ対話の特徴

俳優たちは、家族や友人との通常の会話と、このプロジェクトでの役割の間に顕著な違いを感じていた。彼らは会話を続ける責任を感じ、ユーザーとの接続時に配慮ある言葉を選ぶようになった。

実際のユーザーとの関わりの課題

俳優たちは、多くの会話を同時にこなすことに圧倒されていると報告した。失礼や鈍感さを示すユーザーとのやりとりでは、ストレスやフラストレーションを感じることがあった。

人為的な期間への意見

人為的な期間の使用は、一部の俳優には有益だと見なされ、休憩したり追いつくために利用された。しかし、彼らはこれらの休止の頻度に関して、あまり厳格な要件を望まなかった。

ペルソナの維持の難しさ

俳優たちは、ユーザーがプロフィールに基づいて繰り返し質問してくることに対処するのが難しいと感じた。一貫性と本物を保つためには準備が重要だったんだ。

プロジェクトが実生活の会話に与える影響

一部の俳優は、このプロジェクトでの経験に基づいて実生活のやりとりを調整していると報告した。彼らはより多くの個人的な情報を共有し、日常の会話でより反応的になっていることを感じていた。

モデレーターからのフィードバック

大規模なペルソナ対話収集の組織における課題

モデレーターの主な課題は、俳優をやる気にさせることと、会話中の彼らの感情状態を理解することだった。頻繁なコミュニケーションが重要で、俳優たちがサポートされていると感じるのを助ける必要があった。ユーザーとのインタラクションを管理することの感情的な負担は時に見落とされがちだった。

俳優の募集と報酬に関するヒント

募集プロセスは、研究者とモデレーターの両者からの見識を組み合わせた。モデレーターは、オープンなコミュニケーションの重要性を強調して、俳優がプロセスについて真の感情を共有できるようにし、最終的には親密さを育む結果につながった。

プロジェクトの再現性

モデレーターは自分の作業負荷が管理可能だと信じており、接続を促進したり、対立を解決したりすることで、すべての業務を一人で行う必要がなかった。共感はスムーズなプロセスを確保する上で重要な役割を果たし、適切なモデレーターを選ぶことの重要性を強調している。

調査分析

対話後に参加者から収集した調査を分析した結果、1,658件の回答が集まった。スピアマンの相関を使って、対話の統計と調査結果の関連性を測定した。結果は、ユーザーと俳優の体験が大きく異なったものの、楽しさや好感度などの共有要因が強く相関していることを示した。

俳優は、多くの中断がある会話に対してネガティブな見解を示したが、ユーザーは休止が含まれる会話を楽しんでいるようで、対話の流れとユーザー満足度の間に複雑な関係があることがわかった。

トピックのクラスタリング

語彙分析ツールを使って、データセット内の共通テーマを導き出すために語彙を調べた。この分析は、会話を日常のルーチン、食べ物、仕事、休日、考え、音楽、メディア、旅行の8つの主要トピックにクラスタリングした。

フューショット対話生成

データが現代の対話システムでどのように活用されるかを示すために、フューショット生成実験を行った。サンプル対話を入力クエリとして使用し、生成された対話が元のスクリプトとどのように一致し、ペルソナ情報を取り入れることでどのような影響があったかを探った。

私たちの試行を通じて、生成された会話の出力は元のスクリプトに非常に近いものであり、ペルソナの詳細が生成された対話のキャラクター表現を豊かにしていることがわかった。この発見は、私たちのデータセットが今後の対話生成システムで効果的に活用できることを示唆している。

結論

この研究では、大規模なペルソナ対話データセットを作成する方法を概説し、構築プロセス、参加者インタビュー、検証実験についても詳細に説明した。私たちの発見は、参加者の課題、モデレーターの役割、成果に対する満足度に関するものだ。

対話を作成することは参加者のエンゲージメントと満足度から恩恵を受ける共同作業だと信じている。これが高品質な結果につながる。私たちの研究は、データセット開発における継続的な取り組みに貢献し、関与するすべての当事者にポジティブな体験を目指している。

オリジナルソース

タイトル: When Crowd Meets Persona: Creating a Large-Scale Open-Domain Persona Dialogue Corpus

概要: Building a natural language dataset requires caution since word semantics is vulnerable to subtle text change or the definition of the annotated concept. Such a tendency can be seen in generative tasks like question-answering and dialogue generation and also in tasks that create a categorization-based corpus, like topic classification or sentiment analysis. Open-domain conversations involve two or more crowdworkers freely conversing about any topic, and collecting such data is particularly difficult for two reasons: 1) the dataset should be ``crafted" rather than ``obtained" due to privacy concerns, and 2) paid creation of such dialogues may differ from how crowdworkers behave in real-world settings. In this study, we tackle these issues when creating a large-scale open-domain persona dialogue corpus, where persona implies that the conversation is performed by several actors with a fixed persona and user-side workers from an unspecified crowd.

著者: Won Ik Cho, Yoon Kyung Lee, Seoyeon Bae, Jihwan Kim, Sangah Park, Moosung Kim, Sowon Hahn, Nam Soo Kim

最終更新: 2023-04-01 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2304.00350

ソースPDF: https://arxiv.org/pdf/2304.00350

ライセンス: https://creativecommons.org/licenses/by-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事