感情豊かなテキスト読み上げ技術の進化
話し手のアイデンティティを維持しながら感情的なスピーチ合成のための新しい方法。
― 1 分で読む
最近、感情を含むテキスト読み上げ技術が大きく進歩したけど、このタイプの音声に必要なラベル付きデータを集めるのは難しいんだよね。データが手に入っても、感情の強さをコントロールするのがまだ問題だったりする。この記事では、話者のアイデンティティを保ちながら、感情を一人の話者から別の話者に移す新しい方法について話すよ。この方法は、スピーチスタイルを保持する特別な空間を操作するスマートな数学的方法を使ってるんだ。ほんの少しのラベル付きサンプルを使って、普通の読み上げスタイルのスピーチから感情のあるスピーチを作り出せるんだよ。さらに、感情の強さは簡単な数字で調整できるから、使いやすいんだ。
背景
人間らしいテキスト読み上げシステムの需要が高まる中で、音声出力のトーンや感情の小さな変化を捉える必要があるんだ。人は話すときにさまざまな感情を表現するから、会話が豊かになる。でも、感情のあるスピーチデータを集めるのは簡単じゃない。長時間にわたって同じ感情で複数の文を録音するのは難しいし、感情のラベリングも曖昧なことが多くて、利用可能なデータセットに不一致が出たりする。正しいラベルが見つかったとしても、感情の強さをコントロールできないと、スピーチの表現力が制限されちゃうんだ。
過去の多くの手法は、各サンプルに特定の感情ラベルが必要で、つまりラベル付きデータに依存しているんだ。これが感情を異なる話者間で移す際にパフォーマンスの問題を引き起こすことがある。感情強度を測定しようとする試みも、既にラベルが付けられたデータに頼ることで分類にエラーを引き起こすことがある。
提案された方法
これらの課題を解決するために、新しい方法は豊富なスピーチスタイルの表現を使って感情のスピーチ合成を移すことを目指している。アプローチは特別なトレーニング方法を使って、話者の声とスピーチのスタイルを分離することで、話者間の感情移転を容易にしている。全体のモデルは、感情ラベルを使わずにトレーニングされるんだ。感情を移すときには、テスト中に数学的な方法を使って、スタイルを望ましい感情に調整するよ。
この方法は、ほんの少しのラベル付きサンプルを使って、中立的な読み上げスタイルの話者に感情を移せるんだ。さらに、感情の強度は追加のラベルなしで調整できるから、シンプルなプロセスになってるんだ。
関連研究
感情スピーチ合成
感情スピーチ合成では、感情ラベルが一般的なガイドラインとして使われることが多い。時には、感情の詳細が参照音声やテキストから取られることもある。既存のほとんどの方法は、大量のラベル付きデータを必要とし、異なる話者間で感情を移す際に良好な結果を出さないことが多い。いくつかのアプローチでは、感情認識システムを使って感情をラベリングしているけど、これらのシステムも学習するためにラベル付きデータが必要なんだ。
感情のタイプだけでなく、その強度も定義するために、いくつかの方法が感情の強度をコントロールすることを提案している。でも、これらの方法も適切なトレーニングにはラベル付きデータが必要なんだ。
潜在空間操作
画像合成の分野では、StyleGANのような高度なモデルを使って属性を編集する方法がよく知られている。これらの方法では、特別な空間を操作して特定の特徴を変更することができる。この研究でも、感情スピーチを中立的な話者から作成するために似たアプローチを取っている。
異なる話者間で感情を移すことを可能にするために、話者情報とスタイルを分けるトレーニング方法が使われ、より豊かで柔軟なスピーチスタイルの空間へとつながるんだ。
提案モデルのアーキテクチャ
新しいアプローチは、確立された音響モデルに基づいていて、スタイルと話者それぞれに別々のエンコーダーを含むように調整されている。これらのエンコーダーは協力して、スピーチや話者の特徴を説明するスタイルベクターと話者ベクターを生成するんだ。
ドメイン対立訓練
話者を特定せずにスタイルベクターを分類しようとすることで、スタイルエンコーダーは感情スタイルを話者の声から分離することを学ぶんだ。これにより、スタイルベクターが誰の声にも依存しないようにすることが効果的だと示されている。
サイクル一貫性損失
プロセス全体で有用な情報を維持するために、特別なトレーニング技術が使われている。これにより、話者の声が保持されつつ感情の移転が可能になるんだ。
感情移転のコントロール
モデルを使う前に、各話者の発話から話者特性を表すベクターを取得するんだ。このベクターがテスト中に感情を表現する方法を定義するのを手助けする。ターゲット話者のスタイルベクターを使って、定義された方法で調整することで、感情をうまく移転できるんだ。
この方法は、異なるスピーチスタイルを分ける境界を作るために特別な分類アプローチを使う。境界が設定されると、スタイルベクターに特定の値を追加することで望ましい感情に向けてスピーチスタイルを操作することができるようになるんだ。
実験概要
英語と韓国語の両方で実験が行われた。データセットには多くの話者とさまざまな感情スタイルが含まれていて、提案されたモデルの効果を従来の方法と比較することが目的だったんだ。
結果の評価
新しい方法によって生成されたスピーチの質を評価するために、主観的なテストが行われた。参加者は、音声サンプルがどれだけ自然に聞こえたか、元の話者にどれだけ似ていたか、意図した感情をどれだけ表現していたかを評価した。その結果、新しい方法がすべてのカテゴリーで従来のモデルを上回り、高いレベルの話者のアイデンティティを維持しつつ適切な感情を表現していることが分かったんだ。
感情強度コントロール
生成されたスピーチで感情をどれだけコントロールできるかをテストするために、既存の感情認識モデルが使われた。この比較によって、新しい方法が感情強度を効果的に調整できることが示され、ユーザーの好みに応じて感情表現に影響を与える明確な能力があることがわかったんだ。
フューショット感情移転
ラベル付きデータが限られている状況でも、新しい方法は一つのラベル付き例だけでうまく機能することが示された。この点はモデルの効率性と柔軟性を強調していて、広範なデータなしでも質の高い結果を生み出せることが証明されたんだ。
結論
この記事は、異なる話者間で感情スピーチを移転しコントロールしつつ、アイデンティティを保つ新しい方法を紹介している。高度なトレーニング技術と特別なスタイル表現を使うことで、提案された方法は感情スピーチ生成で印象的な結果を示している。このアプローチが、大量のラベル付きデータなしでもテキスト読み上げシステムの質を大幅に向上させることができることを示しているんだ。将来的には、年齢や性別などの異なるスピーチ属性を調べて、この技術をさらに向上させることが期待されているよ。
タイトル: Cross-speaker Emotion Transfer by Manipulating Speech Style Latents
概要: In recent years, emotional text-to-speech has shown considerable progress. However, it requires a large amount of labeled data, which is not easily accessible. Even if it is possible to acquire an emotional speech dataset, there is still a limitation in controlling emotion intensity. In this work, we propose a novel method for cross-speaker emotion transfer and manipulation using vector arithmetic in latent style space. By leveraging only a few labeled samples, we generate emotional speech from reading-style speech without losing the speaker identity. Furthermore, emotion strength is readily controllable using a scalar value, providing an intuitive way for users to manipulate speech. Experimental results show the proposed method affords superior performance in terms of expressiveness, naturalness, and controllability, preserving speaker identity.
著者: Suhee Jo, Younggun Lee, Yookyung Shin, Yeongtae Hwang, Taesu Kim
最終更新: 2023-03-14 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.08329
ソースPDF: https://arxiv.org/pdf/2303.08329
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。