CALLSで共感的な音声アシスタントを開発する
CALLSは、音声アシスタントが顧客とのやり取りをうまく処理できるようにすることを目指してる。
― 1 分で読む
目次
CALLSは、カスタマーサービスにおける電話通話に焦点を当てたスピーチコレクションだよ。目指しているのは、コンピューターが人と共感的に話せるようにすることなんだ。以前の研究では、学校での友好的な会話だけに注目してたけど、CALLSはオペレーターが顧客のクレームを処理したり、ポジティブなフィードバックに耳を傾ける様子も含めてる。
CALLSの目的
CALLSの主な目標は、より良い音声アシスタントを作ること。状況に応じて、フレンドリーで理解のある返答ができるアシスタントを目指してる。例えば、先生が生徒に話すのと、カスタマーサービスの担当者が顧客に話すのは違うよね。いろんな話し方を混ぜることで、もっとリアルで、さまざまな状況に対応できる声を作れるんだ。
CALLSコーパスの構築
CALLSを開発するために、研究者たちはカスタマーサービスの場面で起こりうる詳細な会話を作成しなきゃいけなかった。これには二つの主要な部分があるよ:
クレーム処理: 不満を持った顧客に対するオペレーターの対応を見てるセクション。オペレーターが不満を持つ顧客を助けるシナリオを設計したんだ。実際のクレームを基にダイアログを作成した。
ポジティブリスニング: 顧客が受けたサービスや製品に満足しているときの会話を扱ってる。オペレーターは顧客のポジティブな経験について話を聞いて、関わるんだ。
リアルなシナリオの作成
リアルなダイアログを作るのは手間がかかる。個人情報が含まれることが多いから、データを集めるのは簡単じゃない。そこで、研究チームはシミュレートしたダイアログを作った。多くのクレームからシナリオを導き出し、実際の顧客の懸念を反映させてる。
日常的な商品や食品などの一般的なクレームカテゴリにフォーカスして、各カテゴリごとにリアルなダイアログを作って、オペレーターがさまざまな問題に応じて対応を練習できるようにしたんだ。
クラウドソーシングによるダイアログ収集
いろんな電話のセリフを集めるために、研究者たちはクラウドソーシングってプロセスを使った。多くの人にオンラインでオペレーターと顧客の間のダイアログを書いてもらったんだ。ポジティブで建設的なやり取りを考えるよう指示して、会話が本物っぽくてフレンドリーに感じられるようにしたよ。
ダイアログが集まった後は、質の悪いものや不適切なセリフを取り除くためのスクリーニングプロセスを経て、最高の例だけをコーパスに残したんだ。
音声録音プロセス
前のスピーチコレクションと同じ女性スピーカーがオペレーター役に選ばれた。彼女は自然で魅力的に聞こえるようにスタジオでセリフを録音したんだ。顧客の声は録音しないことにして、オペレーターの返答だけでリアルなスピーチが作れると信じてた。
声とトーンの慎重な選択がCALLSコーパスの質に寄与しているんだ。
コーパスの分析
コーパスができたら、研究者たちはダイアログを分析して、クレーム処理とポジティブな会話の違いを理解した。スピーチのリズムや音の違いを詳しく見て、オペレーターが顧客の気分に応じてトーンやスタイルを変えていることがわかったんだ。
例えば、ハッピーな顧客に返答する時のオペレーターのスピーチには、エネルギーや変化がより多かったんだ。これは音声アシスタントが状況に応じてトーンを調整する必要があることを示してるよ。
CALLSコーパスのテスト
CALLSコーパスの効果を評価するために、研究者たちは実験を行った。CALLSと以前の先生-生徒コーパスを使ってモデルをトレーニングして、スピーチを合成する能力をチェックしたんだ。二つのコレクションを混ぜて音声モデルのトレーニングを改善しようとしてた。
実験では、二つの声のスタイルを組み合わせることで生成されるスピーチの質が向上することがわかったんだけど、混ぜたスタイルでトレーニングするとスピーチ出力に多少の不均一さが出てくることもわかった。これは、ダイアログのタイプによって改善が見えやすいものとそうでないものがあったってことだね。
研究の今後の方向性
今後は、さまざまな話し方に対応できるようにCALLSコーパスをさらに強化する計画があるんだ。研究者たちは、音声アシスタントがいろんな会話から学べる方法を模索中。目標は、顧客とより人間らしく理解し合えるシステムを作ることだよ。
将来的には、アシスタントを対面コミュニケーションにも活用することも考えてるかも。それが実現すれば、音声技術がもっと身近で効果的になるかもしれないね。
結論
CALLSは、共感的な音声アシスタントの開発において重要なステップを表してる。クレームを管理し、ポジティブに聞くことに焦点を当てることで、研究者たちは人とより良く対話できる技術の道を切り開いてる。顧客の懸念に応えるだけでなく、ポジティブな関与もできるツールを作って、インタラクションをより満足のいくものにしようとしてるんだ。
慎重な研究、分析、テストを通じて、CALLSコーパスは機械が人間とコミュニケーションをとる方法の未来の進展のための基盤を築いてる。これらのシステムがもっと直感的になり、人間の感情を理解できるようになることを願ってるんだ。それがより良いサービスとユーザー体験をもたらすことにつながるはずだよ。
タイトル: CALLS: Japanese Empathetic Dialogue Speech Corpus of Complaint Handling and Attentive Listening in Customer Center
概要: We present CALLS, a Japanese speech corpus that considers phone calls in a customer center as a new domain of empathetic spoken dialogue. The existing STUDIES corpus covers only empathetic dialogue between a teacher and student in a school. To extend the application range of empathetic dialogue speech synthesis (EDSS), we designed our corpus to include the same female speaker as the STUDIES teacher, acting as an operator in simulated phone calls. We describe a corpus construction methodology and analyze the recorded speech. We also conduct EDSS experiments using the CALLS and STUDIES corpora to investigate the effect of domain differences. The results show that mixing the two corpora during training causes biased improvements in the quality of synthetic speech due to the different degrees of expressiveness. Our project page of the corpus is http://sython.org/Corpus/STUDIES-2.
著者: Yuki Saito, Eiji Iimori, Shinnosuke Takamichi, Kentaro Tachibana, Hiroshi Saruwatari
最終更新: 2023-05-23 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.13713
ソースPDF: https://arxiv.org/pdf/2305.13713
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.michaelshell.org/
- https://www.michaelshell.org/tex/testflow/
- https://www.ctan.org/tex-archive/macros/latex/contrib/IEEEtran/testflow/
- https://www.latex-project.org/
- https://sython.org/Corpus/STUDIES-2
- https://www.lancers.jp/
- https://huggingface.co/koheiduck/bert-japanese-finetuned-sentiment
- https://github.com/Wataru-Nakata/FastSpeech2-JSUT
- https://github.com/jik876/hifi-gan