Simple Science

最先端の科学をわかりやすく解説

# 電気工学・システム科学# 音声・音声処理# 信号処理

失語症の人のための典型的な話し方の変換

新しい方法が、異常な話し方を持つ人の音声変換を強化する。

― 1 分で読む


構音障害のための声の変換構音障害のための声の変換ート。革新的な方法が異常な話者の音声認識をサポ
目次

音声変換は、元の言葉をそのままにして誰かの声を変える方法なんだ。あまり探求されていない分野の一つは、典型的な声を非典型的な声に変えることで、特に構音障害みたいな話すのが難しい人たちにとって重要だね。構音障害は、怪我や病気が原因で話し方に影響を与えることがある。聴覚障害や口唇裂みたいな状態も非典型的な話し方につながることがある。非典型的な話し方はよく明瞭さが欠けていて、他の人が理解するのが難しくなっちゃう。

非典型的な話し方の人を助ける一つの方法は音声変換で、これによって自動音声認識(ASR)システムを改善できるかもしれない。このシステムは、非典型的な話者からのデータが限られているせいで、しばしば苦労するんだ。音声変換は、ASRシステムをトレーニングするためのもっと多くの音声例を作り出して、介護者が話すのが難しい人たちを理解し、うまく接するための助けになるんだ。

ASRを改善するための一般的な方法は、普通スピードを変えることなんだけど、このアプローチはある程度効果があるものの、あいまいな発音や声の質など、話し方の障害に関する重要な側面には対処できないんだ。フレームごとの方法やシーケンス間のアプローチなどのもっと進んだ方法は話し方の側面を変えられるけど、通常はトレーニング用のデータがたくさん必要で、非典型的な声の場合は集めるのが難しいんだ。

私たちのアプローチ

これらの課題に取り組むために、DuTa-VCという新しい音声変換の方法を開発したんだ。この方法は、典型的な声と非典型的な声の直接比較がなくてもトレーニングできるんだ。主に3つのステップがあるよ:

  1. 元の声を話者に依存しない形式に変えるエンコーダー。
  2. この形式からターゲットの声を再構築するデコーダー。
  3. 再構築された声を実際の音波に変えるボコーダー。

このアプローチを使うことで、ターゲットの話者のユニークな特徴を守りながら、話し方をより構音障害のある人の声に近づけることができるんだ。

方法の詳細

トレーニングフェーズ

トレーニングフェーズでは、典型的な話者の声をより非典型的な形に変えるのが目標なんだ。UASpeechというデータセットを使っていて、これは典型的な話者と構音障害のある話者の録音を含んでいるよ。各話者は明瞭さに基づいて、非常に低いから高いまで分類されるんだ。トレーニングデータは多様でなきゃいけなくて、各話者が独自の話し方の特徴を持っているからね。

もう一つのデータセット、LibriTTSも使っていて、これはたくさんの典型的な話者の録音が含まれてる。このデータは、UASpeechデータセットで微調整する前にモデルを事前トレーニングするのに役立つんだ。トレーニング中は、話し方のフレームをそれが表す言葉と合わせて、正確な母音の持続時間を得るんだ。

エンコーダーの役割は、言っていることの意味は保ちながら、話者特有の詳細を取り除いた話者に依存しない形式を生成すること。エンコーダーは、話し方のタイミングをターゲットの話者に合わせるのを助ける母音予測器と持続時間予測器と協力して動くんだ。

推論フェーズ

推論フェーズでは、この方法がどれだけうまく機能するかを評価するよ。モデルを使って元の声の母音とその持続時間を予測するんだ。修正モジュールがこの話し方のタイミングを調整して、エンコーダーが修正された声を処理する前にやるんだ。その後、エンコーダーが作業を終えたら、デコーダーがターゲットの声を再構築する役目を担うんだ。

実験と評価

UASpeechを使って、私たちの方法がどれだけうまく機能するかをテストしたんだ。言葉のエラー率のような客観的な指標と、音声言語聴覚士が合成された声をどう感じるかの主観的な評価を見たよ。

結果

結果は私たちの方法が構音障害のある話し方の認識を大きく改善することを示しているよ。従来の方法と比較しても、私たちのアプローチは全ての話者の理解度グループで一貫して優れたパフォーマンスを見せた。合成された声も専門の音声言語聴覚士によって評価され、私たちの声が自然な構音障害のある話し方の特徴をよく保っていると認識されたんだ。

コントロールASRシステムと比べて、私たちの合成音声でトレーニングされたシステムは明らかに改善が見られたんだ。これらのシステムは、典型的な声と構音障害のある話し方のミックス、そしてDuTa-VCによって生成された合成音声の混合でトレーニングされたんだ。

主観的な評価では、合成された声が様々な構音障害の特徴をよく表現していると評価されたよ。合成音声は実際の声と比べると少し自然さが欠けていると感じられたけど、構音障害の重要な要素をよく捉えていた。

結論

要するに、私たちの新しい音声変換の方法は、典型的な話し方を非典型的な話し方にうまく変えることができて、音声認識や介護者のトレーニングにとって貴重なツールになるんだ。話者のアイデンティティを守りながら話し方の特徴を変えることができるから、話し方に困難を抱える人たちへのサポートをより良くすることができるね。

今後の研究では、単語だけじゃなくてフルセンテンスを扱えるようにアプローチを強化していきたいと思ってる。それに、各母音の持続時間を調整するためのより精密な方法も探求していく予定なんだ。モデルを改善することで、非典型的な話し方の人たちに向けて、もっと正確で自然な音声を作りたいと考えてるよ。

全体的に見て、DuTa-VCは音声変換技術において大きな一歩前進を意味していて、特に非典型的な話し方に伴う課題に対応するにあたって重要な役割を果たすんだ。

オリジナルソース

タイトル: DuTa-VC: A Duration-aware Typical-to-atypical Voice Conversion Approach with Diffusion Probabilistic Model

概要: We present a novel typical-to-atypical voice conversion approach (DuTa-VC), which (i) can be trained with nonparallel data (ii) first introduces diffusion probabilistic model (iii) preserves the target speaker identity (iv) is aware of the phoneme duration of the target speaker. DuTa-VC consists of three parts: an encoder transforms the source mel-spectrogram into a duration-modified speaker-independent mel-spectrogram, a decoder performs the reverse diffusion to generate the target mel-spectrogram, and a vocoder is applied to reconstruct the waveform. Objective evaluations conducted on the UASpeech show that DuTa-VC is able to capture severity characteristics of dysarthric speech, reserves speaker identity, and significantly improves dysarthric speech recognition as a data augmentation. Subjective evaluations by two expert speech pathologists validate that DuTa-VC can preserve the severity and type of dysarthria of the target speakers in the synthesized speech.

著者: Helin Wang, Thomas Thebaud, Jesus Villalba, Myra Sydnor, Becky Lammers, Najim Dehak, Laureano Moro-Velazquez

最終更新: 2023-06-18 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2306.10588

ソースPDF: https://arxiv.org/pdf/2306.10588

ライセンス: https://creativecommons.org/publicdomain/zero/1.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事