Simple Science

最先端の科学をわかりやすく解説

# 電気工学・システム科学# 音声・音声処理# 人工知能# 計算と言語

新しいデータセットと多言語テキスト音声変換モデル

CML-TTSは7つの言語でより良いテキスト読み上げシステムを実現するよ。

― 1 分で読む


CMLCMLTTS:マルチリンガル音声ソリューショント読み上げシステムが進化した。新しいデータセットとモデルで多言語テキス
目次

CML-TTSは、テキストを音声に変えるシステムのために作られた新しいデータセットだよ。このデータセットは人工知能に特化した場所から来てて、オランダ語、フランス語、ドイツ語、イタリア語、ポルトガル語、ポーランド語、スペイン語の7つの言語のオーディオブックが含まれてるんだ。

このデータセットを作った目的は、リソースがあまりない言語でも使えるテキスト・トゥ・スピーチシステムを開発するために研究者を助けることなんだ。データセットに加えて、YourTTSというモデルも開発されたよ。このモデルはCML-TTSデータセットから3100時間以上のデータを使って訓練されてて、少量の英語のデータセットも使われたんだ。

最近、テキスト・トゥ・スピーチシステムはディープラーニングの進歩のおかげでめっちゃ人気になってる。これらのシステムはSiriやAlexaみたいなバーチャルアシスタントで見かけることができるよ。以前のテキスト・トゥ・スピーチシステムは複数の部品を組み合わせて作られてたから、構築が難しかったんだけど、今はディープラーニングのおかげで全部の部分を一つのモデルにまとめられるようになって、生成された音声のパフォーマンスやクオリティが向上したんだ。

でも、こういう高度なシステムを訓練するには大量のデータが必要なんだ。ほとんどのテキスト・トゥ・スピーチモデルは英語に焦点を当ててるから、英語のデータセットがたくさんあるんだ。英語の有名なデータセットにはVCTK、LJSpeech、LibriTTSがあるよ。例えばVCTKは109人の英語ネイティブスピーカーの録音があって、合計44時間の音声があるんだ。LJSpeechやLibriTTSはさらに多くの時間とスピーカーを含んでる。

他の言語においてももっとデータセットが増えているから、多言語のテキスト・トゥ・スピーチシステムに対する関心が高まってるんだ。こういうシステムは複数の言語を同時に訓練できたり、新しい言語に適応するのが楽だったりするよ。一部の研究者はリソースが豊富な言語の既存の知識を使って、リソースが少ない言語のシステムを改善しようとしてるんだ。

スピーチ・トゥ・テキストシステムとは違って、テキスト・トゥ・スピーチシステムは高品質の録音が必要なんだ。このデータセットは素晴らしいオーディオ録音を提供することに焦点をあててて、特定の仕様が整ったスタジオ環境で録音しないといけない。だから、既存の多言語スピーチデータセットは直接テキスト・トゥ・スピーチシステムの訓練に使えないんだ。

CML-TTSデータセットを作るために、研究者たちは詳細なプロセスに従ったんだ。まず、パブリックドメインのオーディオブックを提供するLibriVoxプロジェクトからオーディオ録音を集めたよ。オーディオを集めた後、録音が正しいフォーマットとサンプルレートになってるか確認したんだ。別のデータセットであるMLSと一致する言語に焦点をあて、英語はすでにリソースが多くあるからスキップしたんだ。

次に、ほとんどの既存のオーディオデータに句読点が欠けてるから、テキストに句読点を追加する作業をしたよ。句読点があるテキストソースからの文をオーディオファイルと照合することでこれを行ったんだ。また、オーディオセグメントの長さもチェックして、長すぎる部分は句読点に基づいて小さく分けたんだ。

最後に、スピーチ・トゥ・テキストモデルを使って、話された言葉が書かれたテキストと一致するかどうか検証したよ。もしオーディオが十分に一致しなかった場合、そのセグメントは高品質を維持するためにデータセットから取り除かれたんだ。

結果として、CML-TTSデータセットには7つの言語の録音が含まれていて、合計3200時間以上のオーディオが多くのスピーカーと共にあるんだ。バランスの取れたデータセットが重要だから、言語やスピーカーの性別ごとに録音の時間を記録してたよ。男性スピーカーが多い一方で、録音されたスピーチの合計時間が女性スピーカーに対して偏っていることに気づいたんだ。

データセットがテキスト・トゥ・スピーチモデルでどれくらい機能するかを確認するために、YourTTSというモデルを設計したよ。このモデルは入力されたテキストから音声を生成できて、複数の言語を扱えるんだ。モデルが「聞いた」ことのない声からも音声を作成できるように、ターゲットスピーカーの声を短い録音で必要とするよ。

YourTTSは、テキストエンコーダー、長さ予測器、ボコーダーなど、いくつかのコンポーネントを使って機能するんだ。テキストエンコーダーが入力テキストを処理して、ボコーダーがオーディオ表現を実際の音声に変換するんだ。研究者たちはCML-TTSとLibriTTSデータセットを使ってYourTTSを訓練し、訓練中に出会ったことのない声で動作する能力を向上させることに注力したよ。

モデルのパフォーマンスを理解するために、生成された音声を実際の録音と比較して類似性をチェックしたんだ。また、生成された音声が入力テキストを正確に反映しているか、スピーチ・トゥ・テキストモデルを使って評価し、エラーレートを計算して出力が元のテキストとどれだけ一致しているか確認したよ。

結果として、YourTTSはデータセットの言語において効果的に機能することがわかったんだ。ポルトガル語は他の言語ほどのパフォーマンスは出せなかったけど、それは書き方のルールの変更が話し言葉と書き言葉の一致に影響を与えたからなんだ。

まとめると、CML-TTSデータセットは成功裏に作成されて、YourTTSモデルはこのデータセットを使って効果的なテキスト・トゥ・スピーチシステムを訓練できることを示しているんだ。研究者たちは、このデータセットが特に過去にあまり注目されてこなかった言語の多言語音声合成のさらなる進展につながることを期待しているよ。

プロジェクトに関わった人たちに感謝の意を表して、この作業を可能にした協力的な努力を強調しているよ。CML-TTSデータセットは単なるオーディオの集まりではなく、テキスト・トゥ・スピーチ技術を世界中のより多くの言語やコミュニティにアクセス可能にするための一歩なんだ。この分野の継続的な開発は、さまざまな言語でのコミュニケーションやアクセシビリティを向上させ、多くの人々に利益をもたらすことを約束しているよ。

オリジナルソース

タイトル: CML-TTS A Multilingual Dataset for Speech Synthesis in Low-Resource Languages

概要: In this paper, we present CML-TTS, a recursive acronym for CML-Multi-Lingual-TTS, a new Text-to-Speech (TTS) dataset developed at the Center of Excellence in Artificial Intelligence (CEIA) of the Federal University of Goias (UFG). CML-TTS is based on Multilingual LibriSpeech (MLS) and adapted for training TTS models, consisting of audiobooks in seven languages: Dutch, French, German, Italian, Portuguese, Polish, and Spanish. Additionally, we provide the YourTTS model, a multi-lingual TTS model, trained using 3,176.13 hours from CML-TTS and also with 245.07 hours from LibriTTS, in English. Our purpose in creating this dataset is to open up new research possibilities in the TTS area for multi-lingual models. The dataset is publicly available under the CC-BY 4.0 license1.

著者: Frederico S. Oliveira, Edresson Casanova, Arnaldo Cândido Júnior, Anderson S. Soares, Arlindo R. Galvão Filho

最終更新: 2023-06-16 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2306.10097

ソースPDF: https://arxiv.org/pdf/2306.10097

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事