Simple Science

最先端の科学をわかりやすく解説

# 電気工学・システム科学# サウンド# 音声・音声処理

電気喉頭音声変換技術の進展

新しい方法でエレクトロラリンxのユーザーのスピーチの明瞭さが向上!

― 1 分で読む


エレクトロラリンxユーザーエレクトロラリンxユーザーのためのスピーチクリアリティの突破口を向上させる。新しいシステムが電子喉頭患者の声の明瞭さ
目次

喉頭癌で声帯を失った人たちは、話すのが結構難しいことが多いんだ。そういう患者には、エレクトロラリックスっていう装置がよく勧められる。この装置が作る声は、自然な人間の声とは違ってて、聞き取りづらかったり歪んでたりすることがある。エレクトロラリックスで作られたスピーチの質はあまり良くなくて、他の人が理解するのが大変なんだよね。

エレクトロラリンジーでのスピーチの問題

声帯を失った人は、前のように音を出せなくなる。エレクトロラリックスが音を生成してくれるけど、その音はしばしば機械音が混ざってて、はっきりしないんだ。だから、それに頼ってコミュニケーションするのは難しいの。声変換っていう技術があって、これでエレクトロラリンジーのスピーチをもっと自然に聞こえるように変えることができるんだけど、言ってることの意味は変わらないままなんだ。

声変換技術

声変換技術は、エレクトロラリックスのスピーチを普通のスピーチに似せるためのもの。主な目標は、エレクトロラリックスで生成されたスピーチを、他の人が理解しやすい形に変換することだよ。声変換は、フレームベースの技術とシーケンス・ツー・シーケンス技術の二つに分けられる。

フレームベースの技術

フレームベースの技術は、いくつかのステップから成るよ。まず、エレクトロラリックスのスピーチと普通のスピーチから特徴を抽出する。次に、変換モデルがエレクトロラリックスのスピーチの特徴を普通のスピーチのものに変える。最後に、その情報を使ってボコーダーっていうシステムで実際の音声を作るんだ。伝統的には、もっとシンプルなモデルが使われてたけど、最近の進歩ではディープラーニングを使ってより良い結果を出してる。

シーケンス・ツー・シーケンス技術

シーケンス・ツー・シーケンスの方法は、データのフレームを合わせる時の問題を避けるために別のアプローチを利用している。でも、これらのシステムは計算能力を大量に必要とするから、日常的に使うにはちょっと実用的じゃないんだ。

提案されたシステム

私たちのアプローチでは、いろんな特徴を使った新しいエレクトロラリンジーの声変換(ELVC)システムを開発した。このシステムは、伝統的な音の特徴と現代の自己監視学習技術を組み合わせて、より良い結果を生成することに焦点を当ててる。私たちの方法は、スピーチを効果的に処理して変換するための異なる段階を含んでいるよ。

特徴抽出

まず、特徴抽出を二つの部分で行う。第一部は、メルスペクトルやケプストラル係数など、伝統的な音の特徴を含む。第二部は、訓練されたモデルから得られた進んだ表現を使ったSSL特徴を使う。この二種類の特徴がシステムに声変換を改善するための必要な情報を与えるんだ。

二段階の特徴変換

ELデータが限られてるから、二段階の特徴変換プロセスを提案するよ。第一段階では、普通のスピーチデータでモデルを訓練する。このモデルが変換の基礎になるんだ。第二段階では、エレクトロラリックスのスピーチデータを使ってこのモデルを微調整する。この方法は、利用可能な普通のスピーチデータを活用して、限られたエレクトロラリックスデータの変換結果を改善するんだ。

普通のスピーチ変換モデルの訓練

この初期段階では、いろんな話者の録音を使ってモデルを訓練した。複数の音の特徴を扱える特定のアーキテクチャを使って、伝統的な特徴と先進的な特徴の様々な組み合わせをテストして、より良い精度を目指したよ。

スピーチの整列とELVCモデルの訓練

次に、事前にスピーチのセグメントにラベルを付けてELと普通のスピーチを整列させた。二つのスピーチをマッピングする際のエラーを最小化するためのアルゴリズムを適用した。整列したデータを使って、両方のスピーチソースから特徴を給電してモデルを訓練した。この訓練で二種類のスピーチの違いを減らして、変換をより正確にするんだ。

音声の生成

特徴が変換されたら、実際の音声ファイルを作らなきゃいけない。このプロセスでは、新しいスピーチ特徴を使ってボコーダーを訓練する。高品質な音声を生成できるパラレルウェーブGANボコーダーを選んだよ。この段階でいろんな特徴のパフォーマンスを比較して、特徴の組み合わせを使うことで一番音質が良くなることが分かった。

実験の設定

訓練されたプロがエレクトロラリックスを使う患者の話し方を模倣して、ELスピーチデータを集める実験を設定した。多様なデータセットを確保するために、いろんな録音を行った。普通のスピーチデータには、特定の台本を読むためにいくつかの話者を選んだ。全ての録音は、一貫したサンプリングレートで作られて、特徴抽出の際に品質が保たれるようにしたんだ。

評価指標

私たちのシステムのパフォーマンスを評価するために、いくつかの異なる指標を使った。音の歪みや音高の正確性、音高特徴の相関を測定したり、生成された音声がどれほど理解しやすいかを評価するためのリスニングテストも行った。参加者は、音声の理解しやすさを1から5のスケールで評価してもらったんだ。1が理解しづらい、5がクリアで理解しやすいって意味だよ。

実験結果

ダイナミックタイムワーピングアルゴリズムのパフォーマンス

私たちの方法が異なるスピーチ特徴をどれだけ効果的に整列させるかを最初にテストした。結果は、先進的な特徴を使うことでELと普通のスピーチの整列精度が向上したことを示した。先進的な特徴が重要なスピーチの詳細を捉えるのにより良い働きをすることがわかったよ。

ボコーダーの比較

次に、さまざまな特徴で訓練したボコーダーの性能を評価した。結果は、伝統的な特徴と先進的な特徴の組み合わせが最も良い音質を生むことを確認した。このことは、音声生成の全体的な結果を良くするために多様な特徴を使うことの利点を示唆している。

ELVCシステムの全体的な結果

私たちのシステムの異なる設定を比較したとき、先進的な特徴を取り入れることで声変換タスクの効果が大幅に向上したことがわかった。ボコーダーを微調整することで、よりクリアな音声を生成する能力がさらに強化されたんだ。

主観的リスニングテスト

私たちの発見を確かめるために、主観的リスニングテストを実施した。参加者には音声がどれだけ理解しやすく、クリアかを評価してもらった。結果は、特に先進的な特徴で強化されたシステムが、以前の方法よりも理解しやすく、高品質な音声を生成していることを示した。

結論

私たちの研究では、エレクトロラリックスデバイスで生成されたスピーチを改善する新しいアプローチを紹介した。伝統的な音の特徴と先進的な表現を組み合わせることで、声変換において大きな改善を達成したんだ。評価では、私たちの方法が以前の技術よりも優れていて、ユーザーにとってよりクリアで理解しやすい結果を提供していることが示された。これからは、さまざまなモデルや特徴がこの技術をさらに向上させる方法について、より深く掘り下げていくつもりだよ。全体的に、私たちの研究は、エレクトロラリックスのような機器でコミュニケーションを取る人たちに、先進的な音声生成技術が実際に大きな違いをもたらす可能性を示しているんだ。

オリジナルソース

タイトル: Mandarin Electrolaryngeal Speech Voice Conversion using Cross-domain Features

概要: Patients who have had their entire larynx removed, including the vocal folds, owing to throat cancer may experience difficulties in speaking. In such cases, electrolarynx devices are often prescribed to produce speech, which is commonly referred to as electrolaryngeal speech (EL speech). However, the quality and intelligibility of EL speech are poor. To address this problem, EL voice conversion (ELVC) is a method used to improve the intelligibility and quality of EL speech. In this paper, we propose a novel ELVC system that incorporates cross-domain features, specifically spectral features and self-supervised learning (SSL) embeddings. The experimental results show that applying cross-domain features can notably improve the conversion performance for the ELVC task compared with utilizing only traditional spectral features.

著者: Hsin-Hao Chen, Yung-Lun Chien, Ming-Chi Yen, Shu-Wei Tsai, Yu Tsao, Tai-shih Chi, Hsin-Min Wang

最終更新: 2023-06-11 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2306.06653

ソースPDF: https://arxiv.org/pdf/2306.06653

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事