新しいデータセットで表現豊かな音声合成を進化させる
新しいデータセットが、テキストに頼らずに感情表現を捉えることで音声合成を強化するんだ。
― 1 分で読む
最近の音声技術の進歩により、テキストだけに頼らずにさまざまな表現特性を捉えた高品質な音声を生成することが可能になったんだ。従来の音声合成方法は、主に書かれたテキストから作業するため、出力の表現力を制限しがち。テキストを音声に変換する際には、トーンやリズム、さらには非言語音など、多くの感情的で表現豊かな要素が失われちゃうんだ。
この記事では、テキストを使わずに表現豊かな音声を作成するために設計された新たなデータセットを紹介するよ。このデータセットには、脚本化されたものと即興のものを含むさまざまな音声スタイルがあって、より自然で魅力的な音声を合成することができるんだ。
既存の方法における課題
ほとんどの音声合成データセットは、声優が台本を読んだ音声で構成されているんだ。このアプローチは、合成された音声の多様性と表現力を制限しちゃう。いくつかの表現豊かなデータセットはあるけど、だいたい俳優が中立的な文を読み上げる際に感情を誇張することが多く、リアルな表現が少なくなっちゃうんだ。
そこで、自己教師あり学習技術が有望な解決策として登場したんだ。これにより、モデルが書かれたテキストなしで生の音声データから学ぶことができるようになった。いろんな音声入力を使うことで、モデルはより幅広い音声の質を捉えることができるんだ。
新しいデータセットの紹介
この新しいデータセットは、音声合成の表現力を向上させるために設計されたんだ。47時間の収録音声があり、いくつかのスピーカーが26種類の異なるスタイルを表現しているよ。感情的なトーンで台本を読む部分と、プロンプトに基づいて即興の対話を行う部分が含まれているんだ。
即興の対話では、俳優がシナリオを演じるように促されて、より本物で自然な音声が生まれるんだ。このアプローチは、従来の方法よりも自然で親しみやすい音声を作ることを目指しているよ。
データ収集と構造
データセットは異なるセクションに分かれているよ。約37%は、俳優がさまざまなスタイルで提示されたセリフを読む表現豊かな部分が含まれている。残りの72%は即興の対話で、俳優はシナリオに基づいてキャラクターを演じながら互いにやり取りするんだ。対話には笑いや中断など、自然な音声要素も含まれているよ。
さらに、データセットには俳優が人気の曲を歌う小さなセクションも含まれていて、コーパスに別の表現力が追加されているんだ。
収録はプロのスタジオ環境で行われ、高音質が確保されていて、人間の声の表現範囲を完全に捉えているんだ。
エンコーディングと再合成
合成された音声の質を評価するために、話された入力を小さなビットにエンコードしてから、新しい声で再構築するプロセスが行われるんだ。これを表現豊かな再合成と呼ぶよ。
二つのエンコーディング方法がテストされた:HuBERTベースのモデルとEncodecベースのモデル。HuBERTモデルはさまざまな話し言葉データセットを使って訓練され、Encodecモデルは一般的な音声圧縮のために設計されたんだ。
モデルの仕事は、音声クリップを取り、それを低ビットレートのユニットに分解し、元の感情や意図を維持したまま異なる声で再作成することなんだ。
評価指標
再合成の効果を測るために、いくつかの指標が使われたよ。これには:
- 内容保持: これにより、再合成された音声がオリジナルの言葉とどれだけ正確に一致しているかを確認するんだ。自動音声認識モデルを使って比較するよ。
- 音程保持: これでは、オリジナルの音声のイントネーションや音程が合成されたバージョンにどれだけ維持されているかを見るんだ。
- 表現力保持: これにより、音声の感情トーンが合成プロセスでうまく移行されているかを評価するんだ。
結果と発見
結果は、HuBERTベースのモデルが内容保持に関しては、一般的にEncodecモデルよりも良いパフォーマンスを示したことを示していたよ。しかし、Encodecモデルは自然に聞こえる音声を生成するのに優れていたけど、音声の表現力を維持するのに苦労していたんだ。
音程保持では、HuBERTユニットがボコーダー-エンコードされたユニットを再び音声に戻すためのツール-がスピーカーのアイデンティティと表現スタイルの両方で訓練されたときに強いパフォーマンスを示したよ。その一方で、アイデンティティだけを使うと品質が低下したんだ。
興味深いことに、モデルで使われた声がオリジナルと異なっていても、HuBERTモデルはまだ良いレベルのパフォーマンスを維持していて、ユニットがオリジナルのスピーカーの特性からある程度独立していることを示していたんだ。
評価では、モデルが設計された条件内で良いパフォーマンスを示す一方で、異なるデータセットに方法を適用すると効果が大幅に低下したことが明らかになった。これは、さまざまなタイプの音声データでうまく機能するロバストなモデルを作るためにはもっと作業が必要だということを示唆しているんだ。
改善が必要な点
新しいデータセットと方法は期待が持てるけど、改善の余地はまだあるよ。今後の作業では、HuBERTモデルを洗練させて、感情的なニュアンスを捉える能力を高めつつ、リアルな音声を生成することに焦点を当てることになるんだ。
さらに、合成プロセス中に離散音程ユニットを使用することについてのさらなる探求が必要で、これが音程保持や全体の音質向上に繋がるかもしれないんだ。
最終目標は、柔軟なアプリケーションに対応できるように、動的に表現豊かな音声を生成できるシステムを開発することなんだ。たとえば、バーチャルアシスタントやエンターテイメント、アクセシビリティツールなどの分野でね。
結論
この新しいデータセットは、音声合成技術の進歩に向けたエキサイティングな機会を提供しているんだ。多様なスタイルを使って即興を取り入れることで、このデータセットは従来の方法が苦労してきた表現力の新しいレベルを可能にしているよ。
再合成の質の分析は、異なるエンコーディング方法が出力音声の忠実度にどう影響するかについて貴重な洞察を提供するんだ。この分野での研究が進むにつれて、人間の音声の豊かな複雑さを捉える合成システムを作ることを目指しているよ。機械との相互作用をより自然で魅力的に感じられるようになるかもしれないんだ。
継続的な努力を通じて、人間のスピーカーと同じ温かさと表現力でコミュニケーションができるAIの夢が、もうすぐ現実になるかもしれないね。
タイトル: EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis
概要: Recent work has shown that it is possible to resynthesize high-quality speech based, not on text, but on low bitrate discrete units that have been learned in a self-supervised fashion and can therefore capture expressive aspects of speech that are hard to transcribe (prosody, voice styles, non-verbal vocalization). The adoption of these methods is still limited by the fact that most speech synthesis datasets are read, severely limiting spontaneity and expressivity. Here, we introduce Expresso, a high-quality expressive speech dataset for textless speech synthesis that includes both read speech and improvised dialogues rendered in 26 spontaneous expressive styles. We illustrate the challenges and potentials of this dataset with an expressive resynthesis benchmark where the task is to encode the input in low-bitrate units and resynthesize it in a target voice while preserving content and style. We evaluate resynthesis quality with automatic metrics for different self-supervised discrete encoders, and explore tradeoffs between quality, bitrate and invariance to speaker and style. All the dataset, evaluation metrics and baseline models are open source
著者: Tu Anh Nguyen, Wei-Ning Hsu, Antony D'Avirro, Bowen Shi, Itai Gat, Maryam Fazel-Zarani, Tal Remez, Jade Copet, Gabriel Synnaeve, Michael Hassid, Felix Kreuk, Yossi Adi, Emmanuel Dupoux
最終更新: 2023-08-10 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.05725
ソースPDF: https://arxiv.org/pdf/2308.05725
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。