Simple Science

最先端の科学をわかりやすく解説

# 電気工学・システム科学# 音声・音声処理# サウンド

フランス語音声合成技術の進展

新しく開発されたシステムが、コンペ用にリアルなフランス語のスピーチを生成する。

― 1 分で読む


フランス語音声合成の大フランス語音声合成の大breakthroughsを生成する。革新的なシステムがデータから高品質な音声
目次

この記事では、コンペティションのために開発された音声合成システムについて話してるよ。目標は、大きなデータセットを使ってリアルなフランス語の音声を生成すること。チャレンジには2つのタスクがあって、一つは特定の話者からのデータをたくさん使うやつ、もう一つはデータが少なくて、別の話者に適応するやつ。

音声合成システムの概要

この音声合成システムは、自然で高品質なフランス語の音声を作るために設計されてる。コンペでは、音声合成を改善するためのいろいろな方法がテストされる。システムは、より自然に聞こえる音声を生成するためのモデルを使ってる。特に、音声の響きのコントロール、つまり韻律を改善することに焦点を当ててる。

音声合成チャレンジ

毎年、Blizzard Challengeでは、異なるチームがどれだけ良い音声合成システムを作れるか評価される。参加者は提供されたデータを使ってシステムを構築する。今年は、チームが2つのタスクを使って声を作る必要があった:

  1. ハブタスク:1人のフランス語の女性スピーカーから約50時間のデータを使って声を作る。
  2. スポークタスク:別のフランス語の女性スピーカーから約2時間のデータを使って事前に学習したモデルに適応させる。

チームは、ハブタスクには公開されているデータを自由に使えたけど、スポークタスクには自分たちのデータを使うことができた。

モデルの設計と目的

チームは、できるだけリアルな音声を生成するシステムを作ることを目指してた。自然な音声にすることと、音声の響きを文章全体や単語ごとにコントロールできるようにすることの2つの目標に集中してた。

最近のニューラルネットワーク技術で、生成された音声の自然さが大きく改善されてる。多くのシステムは、まず特定の音声表現を予測するモデルと、それを実際の音声に変換するモデルの2段階アプローチを使ってる。

この開発では、一貫した音を生成するのに良い自動回帰モデルを使ってる。チームは、トレーニングを簡単にするためにモデルのいくつかの部分も変更した。

トレーニングへのアプローチ

モデルは2つの主な部分でトレーニングする。まず、生成された音声をテキスト入力に合わせる方法を学ぶ。この段階では、異なる音がどれくらい発音されるべきかを推定する。2つ目の部分では、最終的な音声を生成する。

より自然な音声を生成するために、チームはスタイルトークンと呼ばれる2種類の情報セットを使った。一つは文レベルでの音声の全体的なスタイルを捉え、もう一つは単語レベルでのスタイルを捉える。

音声の韻律の予測

音声を生成するには、正しいリズムと強調を持たせることが大事。ここで韻律が関わってくる。音声の響きをよりコントロールするために、システムは2種類のスタイルトークンを使ってる。

1つ目のトークンセットは、文全体の音声スタイルを捉え、2つ目は個々の単語のローカルスタイルを捉えてる。これらのトークンを使うことで、システムは文のコンテキストに基づいて単語の発音を調整できる。

テキストから正しいスタイルトークンを予測するために、システムはBERTというモデルを使ってて、入力テキストを処理して適切なトークン特徴を決定する。

発音のバリエーションの扱い

フランス語では、特定の単語が異なる発音で言われることがある。これらの発音のバリエーションに対応するために、チームは周りの単語のコンテキストに基づいてどのバージョンを使うかを特定する方法を開発した。

トレーニング中に、システムは実際の録音から学んで、さまざまな音声選択肢を分類する。これにより、生成された音声が正確で自然であることが保証される。

技術モデルアーキテクチャ

モデルの構造は、音声を生成するために協力して働くいくつかの層で構成されてる。最初に、システムは書かれたテキストと音声特徴を合わせる。学習したアライメントによって、モデルは音が発音されるときに各音がどれくらいの長さであるべきかを決定する。

予測された音の長さに基づいて、システムは学習した情報を使って音声を生成する。ローカルとグローバルなスタイルトークンを使うことで、モデルは音声出力をより表現豊かで自然に調整する。

データ処理とボコーダー

データ処理のステップは、書かれたフランス語のテキストを音に変換するのを助ける。これは、テキストを音素に分解することを含む。チームはこの変換のためにテキスト処理パイプラインを使った。

最終的な音声生成のために、システムは音声特徴を実際の音波に変換するボコーダーモデルを使用してる。このボコーダーは、生成された音声の質を向上させるために微調整されてる。

トレーニング戦略

音声合成モデルをトレーニングするために、チームは音声出力が望ましい特徴と一致するように異なるタイプの損失を組み合わせた。音声の質のさまざまな側面に焦点を当てることで、高品質な結果を生み出すためのバランスの取れたモデルを作ることを目指してた。

トレーニングプロセスは、チャレンジの各タスクに特定のデータセットを使用する。ハブタスクは、1人の話者からの大きなデータセットを含む一方、スポークタスクは適応のために追加の話者情報を取り入れる。

コンペティションからの結果

コンペティションでは、モデルの性能が他と評価された。参加者は生成された音声がどれだけ自然に聞こえるかを評価する必要があった。両方のタスクで、システムは高得点を獲得し、トップパフォーマーの中に入った。

ハブタスクでは、モデルは自然さと実際の音声への類似性について良い評価を受けた。スポークタスクでは、限られたデータから声を生成する効果を示し、好成績を収めた。

結論

この記事では、自然に聞こえるフランス語の音声を生成することに焦点を当てたコンペティションのために作られた音声合成システムについて説明してる。チームのアプローチは、韻律と音声生成プロセスの全体的な質を改善することに重きを置いてた。

慎重に設計されたモデルとトレーニング戦略を通じて、システムは非常に高品質な結果を出した。この基盤をもとに、今後は話者適応の改善や異なる音声スタイルのコントロールの強化に取り組むことができる。

このプロジェクトでの進展は、よりリアルで適応性のある音声合成システムの開発に寄与してる。

オリジナルソース

タイトル: The DeepZen Speech Synthesis System for Blizzard Challenge 2023

概要: This paper describes the DeepZen text to speech (TTS) system for Blizzard Challenge 2023. The goal of this challenge is to synthesise natural and high-quality speech in French, from a large monospeaker dataset (hub task) and from a smaller dataset by speaker adaptation (spoke task). We participated to both tasks with the same model architecture. Our approach has been to use an auto-regressive model, which retains an advantage for generating natural sounding speech but to improve prosodic control in several ways. Similarly to non-attentive Tacotron, the model uses a duration predictor and gaussian upsampling at inference, but with a simpler unsupervised training. We also model the speaking style at both sentence and word levels by extracting global and local style tokens from the reference speech. At inference, the global and local style tokens are predicted from a BERT model run on text. This BERT model is also used to predict specific pronunciation features like schwa elision and optional liaisons. Finally, a modified version of HifiGAN trained on a large public dataset and fine-tuned on the target voices is used to generate speech waveform. Our team is identified as O in the the Blizzard evaluation and MUSHRA test results show that our system performs second ex aequo in both hub task (median score of 0.75) and spoke task (median score of 0.68), over 18 and 14 participants, respectively.

著者: Christophe Veaux, Ranniery Maia, Spyridoula Papandreou

最終更新: 2023-09-01 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2308.15945

ソースPDF: https://arxiv.org/pdf/2308.15945

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

類似の記事