舌の動きを音声に変える
この研究はMRIの舌データを実際の音声オーディオに変換するんだ。
― 1 分で読む
目次
発話は、舌の複雑な動きによって可能になるんだ。舌には多くの小さな部分があって、一緒に働いている。特別なMRIスキャン、タグ付きMRIを使うことで、これらの部分がどう動くか、そしてそれが話すことにどう寄与しているかが分かる。この研究は、これらのMRIスキャンから得られた情報を実際の音声に似た音に変換することに焦点を当てている。
舌の発話における役割の理解
舌は三次元の構造を持っていて、特定の機能を持ついくつかの部分がある。これらの部分は、話すときに出す音の形を作るのを助ける。タグ付きMRIを使ってこれらの動きをキャッチすると、どうやって連携しているかが観察できる。これらの動きを研究することで、舌がリアルタイムで音を作る方法を学ぶことができるんだ。
非負行列因子分解の利用
タグ付きMRIからのデータを分析するために、非負行列因子分解(NMF)という方法を使う。この方法は、動きのデータを小さな部分、つまり「ビルディングブロック」に分解するのを手助けしてくれる。このおかげで、舌の各部分がどれくらい発話音に寄与しているかを示すマップを作ることができる。これらのマップが実際の音とどう関連しているかを調査すると、発話を生み出す方法について貴重な洞察が得られるんだ。
音声合成の課題
広い2Dマップから音波に変換するのは難しい。いくつかの課題があるよ:
- 異なる表現:重み付けマップのデータと音波は本質的に異なるので、翻訳プロセスが複雑になる。
- サイズの変動:入力マップはサイズがバラバラだけど、音声出力は一定のサイズが必要。これが比較や処理を難しくしている。
- 長い入力:重み付けマップが大きいと分析が複雑になる。従来の方法はこのデータ内のつながりを効果的にモデル化するのが難しい。
- 限られたデータ:サンプルが少ないと、機械が正しく学ぶのが難しくなる。
音声合成への新しいアプローチ
これらの問題に対処するために、2D重み付けマップを音声信号の視覚的表現であるスペクトログラムに変換する新しいシステムを開発した。私たちのシステムは、Plastic Light Transformer(PLT)エンコーダーと2D畳み込みニューラルネットワーク(CNN)デコーダーの2つの主要な部分から構成されている。
Plastic Light Transformer
PLTは、MRIスキャンからの大量のデータを処理しつつ、動きの詳細を維持するために設計された高度なツール。舌の異なる部分間の関係を効果的にキャッチして、正確なマッピングが可能なんだ。このPLTの重要な特徴の一つは、サイズが変わる入力にも対応でき、一貫したサイズの出力を生成できること。重要な情報を失うことなくね。
リアリズムの向上
生成された音声をよりリアルにするために、トレーニング中に追加の技術を実装した。合成された音が互いに一致するようにし、出力の質を向上させるための方法を使った。これらの技術を適用することで、実際の発話に近い音波を生成できるようになった。
システムのテスト
私たちのシステムを評価するために、多様なグループの参加者からペアデータを集めた。これにはMRIシーケンスと特定のフレーズを話している彼らの録音が含まれている。このデータを処理した後、私たちのシステムの出力を元の音声録音と比較して、その性能を確認した。
結果と洞察
結果は、私たちのアプローチが従来のモデルを大きく上回っていることを示した。合成された音声は、質的に本物の発話に非常に近かった。また、私たちのシステムはトレーニング中に安定性を保っていたので、信頼できるモデルの開発には重要なんだ。
統計的測定
合成した音声が実際の録音とどれだけ一致しているかを測定するために、いくつかの統計的ツールを使用した。これには、ピアソンの相関係数や音声品質評価が含まれる。結果は、私たちの方法が他のモデルよりも高品質の音声を生成したことを示している。
結論
この研究は、MRIでキャッチした舌の動きデータを理解可能な音声に変換する成功した方法を示している。異なる入力サイズを管理し、一貫した出力を生成できる新しいフレームワークを使うことで、舌の動きと発話音のつながりを理解する新たな道を開いた。この研究は、音声合成技術を進展させるだけでなく、臨床医や研究者が音声関連の障害に対処するのにも役立つ可能性がある。治療戦略を向上させるためにね。
要するに、MRIデータから音声を合成する私たちの革新的なアプローチは、音声技術における将来の研究や応用への道を切り開き、人間のコミュニケーションの理解をより深めることに貢献しているんだ。
タイトル: Speech Audio Synthesis from Tagged MRI and Non-Negative Matrix Factorization via Plastic Transformer
概要: The tongue's intricate 3D structure, comprising localized functional units, plays a crucial role in the production of speech. When measured using tagged MRI, these functional units exhibit cohesive displacements and derived quantities that facilitate the complex process of speech production. Non-negative matrix factorization-based approaches have been shown to estimate the functional units through motion features, yielding a set of building blocks and a corresponding weighting map. Investigating the link between weighting maps and speech acoustics can offer significant insights into the intricate process of speech production. To this end, in this work, we utilize two-dimensional spectrograms as a proxy representation, and develop an end-to-end deep learning framework for translating weighting maps to their corresponding audio waveforms. Our proposed plastic light transformer (PLT) framework is based on directional product relative position bias and single-level spatial pyramid pooling, thus enabling flexible processing of weighting maps with variable size to fixed-size spectrograms, without input information loss or dimension expansion. Additionally, our PLT framework efficiently models the global correlation of wide matrix input. To improve the realism of our generated spectrograms with relatively limited training samples, we apply pair-wise utterance consistency with Maximum Mean Discrepancy constraint and adversarial training. Experimental results on a dataset of 29 subjects speaking two utterances demonstrated that our framework is able to synthesize speech audio waveforms from weighting maps, outperforming conventional convolution and transformer models.
著者: Xiaofeng Liu, Fangxu Xing, Maureen Stone, Jiachen Zhuo, Sidney Fels, Jerry L. Prince, Georges El Fakhri, Jonghye Woo
最終更新: 2023-09-25 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.14586
ソースPDF: https://arxiv.org/pdf/2309.14586
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。