音声変換技術の進歩
研究者たちは、知覚の理解を深めるために声を操作できるようになった。
― 1 分で読む
ボイスモーフィングは、声の特性を変えてバリエーションや新しい音を作るプロセスだよ。これは、研究者が顔の認識や感情を理解するために顔モーフィングソフトを使ったのと似てる。シンプルな音を操作するのは比較的簡単だけど、声のような複雑な音を同じように扱うのはもっと難しいんだ。
ボイスモーフィングツールは、科学者が声を作り出したり変更したりするのを助けるんだ。例えば、研究者は一つのアイデンティティから別のアイデンティティに徐々に移行する一連の声を作ることができる。これにより、年齢や性別のような声の違いを探ることができて、音の物理的な違いによる混乱を避けられるんだ。
レガシーSTRAIGHT
レガシーSTRAIGHTというオープンソースツールがあって、研究者が声の信号を操作するのを助けてる。このツールは、高品質でスピーチを変更するために設計されてるんだ。多くの研究者に役立って、声の認識や声の感情的内容に関するエキサイティングな発見につながってる。
レガシーSTRAIGHTは、声の信号をいくつかの重要な部分に分解することで機能するんだ:一般的な音の形、声の基本的な周波数、そして音のランダムさ。これにより、音をスムーズにしたり操作したりして、元の音の新しいバージョンを作り出せる。
STRAIGHTはスピーチだけじゃなくて、動物の鳴き声や声の中の感情表現など、他のタイプの声の音を変えるのにも使える。このおかげで、私たちが人間の音と非人間の音を理解する方法について広範な研究ができるんだ。
STRAIGHTMORPHの紹介
新しいツール、STRAIGHTMORPHの目的は、研究者がボイスモーフィングを簡単にできるようにすることだよ。これはレガシーSTRAIGHTの機能をもとにしていて、声の特性を抽出したり組み合わせたりすることに焦点を当てた追加機能が含まれてる。
STRAIGHTMORPHは、Matlabというソフトウェアプログラムで使えるように設計されてる。ユーザーはすべての必要なファイルをダウンロードできる。チュートリアルフォルダには、ユーザーが始めるのを助けるサンプルサウンドが含まれてる。
ステップ1 – 声の情報を抽出する
STRAIGHTMORPHを使う最初のステップは、声の情報を抽出すること、これを'mObject'と呼ぶ。これらのmObjectには、声の波形、周波数の推定、および背景ノイズレベルに関する重要な詳細が含まれてる。
抽出プロセスには注意を要する二つの主なステップがある。一つ目は、声の基本周波数の推定で、これがモーフィングの良い音質にとって重要なんだ。自動的な方法が完璧な結果を出さないこともあるから、必要に応じてユーザーが周波数の制限を手動で調整できるようになってる。
二つ目のステップは、アンカーと呼ばれる参照点を定義すること。このアンカーは、モーフィング中に音を正確に整列させるために重要なんだ。ユーザーは、モーフィングプロセスが高品質な結果を生むことを確保するために、これらのアンカーを慎重に設定する必要がある。
mObjectが作成されたら、元の音のように聞こえるかどうかを確認するために再生してチェックするべき。目立つ違いがあれば、抽出プロセスを繰り返すのがベストだよ。
ステップ2 – mObjectを組み合わせる
次のステップは、複数のmObjectを組み合わせること。このプロセスは、VoiceMultiMorphという機能によって管理される。ユーザーが異なる声を統合したいとき、mObjectをソフトウェアに読み込んで、最終的な製品にどのくらいの声を含めるかを定義するんだ。
この部分の鍵は'mRates'を設定することで、どのくらいの割合でそれぞれの声が新しい音に寄与するかを決める。これにより、ユーザーは声のさまざまなブレンドを作り出すことができる。ツールは声の組み合わせを簡単に扱えるようにしていて、さまざまなタイプのボイスモーフィングに使いやすいんだ。
モーフィングの例
二つの声のモーフィング
一般的な例は、同じ単語を言う男性と女性の声をモーフィングすることだね。この二つの音を組み合わせるとき、ユーザーは両方の声に等しい重みを設定して平均的な音を作ったり、特定のブレンドを作るために重みを調整したりできる。
このプロセスは感情にも適用できるから、研究者が異なる感情状態を示す声をブレンドして、その変化をどう感じるかを研究したい場合もあるよ。
声の一連を作成する
もう一つ面白いアプリケーションは、二つの声の間で音の範囲を生成する、しばしば連続体と呼ばれるものだ。重みを徐々に変えることで、ユーザーは音がスムーズに移行するいくつかの異なるバージョンを作ることができる。これは声の特性の変化が知覚にどのように影響するかを研究するのに役立つ。
複数の声をモーフィングする
VoiceMultiMorphは、研究者が二つ以上の声をモーフィングすることも可能にしている。複数の声を扱うときも、同じ原則が適用される。鍵は、望むすべての声を読み込み、それぞれに適切な重みを設定することだ。これにより、全ての音の平均やブレンドを表現する新しい声を作ることができる。
ランダム刺激のためのボイスモーフィングの使用
既知の声の間でモーフィングするだけでなく、mObjectに適用される重みを変えることでランダムな声のサンプルを作成することもできる。これは、テストや実験のための広範な音を生成するのに役立つよ。
人間の声を超えて
面白いことに、STRAIGHTMORPHは人間の声だけじゃなくて、音楽の音や動物の鳴き声を組み合わせることにも使える。これにより、異なる種の発声に関する研究の新しい道が開けるんだ。
例えば、研究者は人間の声と音楽の音を混ぜることができて、異なる音を一緒にどう感じることができるかを探求できる。STRAIGHTMORPHは動物の音でも機能するんだ、明確な音程情報があればね。
設定を調整することで、STRAIGHTMORPHは人間ではない発声でも意味のある変化を生み出すことができる。例えば、異なる霊長類の鳴き声のミックスを生成することができて、研究者が動物のコミュニケーションを調査するのを助けるかもしれない。
結論
ボイスモーフィングは、研究や実験のための強力なツールだよ。STRAIGHTMORPHのようなソフトウェアの助けを借りれば、科学者はさまざまな方法で声を操作して、知覚やコミュニケーションをより良く理解できる。
技術が進化し続ける中で、これらのツールはさらに洗練されて、新しい視点を提供するようになるだろう。ボイスモーフィングの潜在的な応用は広範で、心理学、言語学、さらにはエンターテイメントの分野にも広がってる。スピーチのニュアンスや声の感情的なニュアンスを研究する際、モーフィングツールは今後の研究において重要な役割を果たすことになるよ。
タイトル: STRAIGHTMORPH: A Voice Morphing Tool for Research in Voice Communication Sciences
概要: The purpose of this paper is to make easily available to the scientific community an efficient voice morphing tool called STRAIGHTMORPH and provide a short tutorial on its use with examples. STRAIGHTMORPH consists of a set of Matlab functions allowing to generate high-quality, parametrically-controlled morphs of an arbitrary number of voice samples. A first step consists in extracting an mObject for each voice sample, with accurate tracking of the fundamental frequency contour and manual definition of Time and Frequency anchors corresponding across samples to be morphed. The second step consists in parametrically combining the mObjects to generate novel synthetic stimuli, such as gender, identity or emotion continua, or random combinations. Although STRAIGHTMORPH has been designed for human voices it can work well with other types of sounds such as non-human primate vocalizations.
著者: Pascal Belin, H. Kawahara
最終更新: 2024-06-06 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.06.04.597359
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.06.04.597359.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。