デジタルシンガーを作る:新しいアプローチ
詳細な声のラベリングなしで歌声を作る方法。
― 1 分で読む
目次
テクノロジーの世界は急速に変わっていて、特にリアルな見た目と声を持つデジタルヒューマンの作成が大きな成長を見せてるよ。これらのデジタル存在をリアルに感じさせるためには、声を与えることが重要なんだ。声には個人の特性がいっぱい詰まってるから、人間みたいに歌えるデジタルシンガーを作るのが大事なんだけど、これが簡単じゃない。歌う時のトーン、スピード、音程、歌詞なんかの要素を全部コントロールするためには、詳細なラベリングが必要で、かなりの時間と労力がかかるんだ。
この記事では、誰かの話してる録音を聞くだけでバーチャルシンガーを作る方法を探っていくよ。このプロセスは詳細なアノテーションが必要ないフレームワークを使ってて、かなりシンプルで早いんだ。変分オートエンコーダ(VAE)というモデルを使うことで、普通の話し声から歌を予測することができるんだ。このフレームワークを使うことで、さまざまな歌スタイルをミックスして新しいバーチャルシンガーを生み出すこともできる。結果的に、この方法は特にAI合唱団を作る時に効果的だってわかったよ。
バーチャルワールドとデジタルヒューマン
デジタルとリアルな世界が合体する時代に突入してるから、その境界がどんどん曖昧になってきてるよ。この変化により、人々は物理的な障壁を越えて繋がったり、AIと深く関わったりできるようになったんだ。デジタルヒューマンを作る主な目的の一つは、できるだけリアルに聞こえるようにすることなんだ。人間の声は言葉だけでなく、アクセント、トーン、リズムといった独特な特性を通じて情報を伝えるから、これはエンターテイメント、バーチャルヘルパー、文化の保存、さらにはデジタルな不死の形を作るためにも重要なんだ。
従来の音声生成方法
通常、機械で人間の声を作る方法はテキスト読み上げ(TTS)って呼ばれてるよ。TTSシステムはテキストを入力して音声を生成するんだ。昔はシンプルな技術が使われてたけど、今はディープラーニングの方法がスタンダードになってる。この方法は、音声録音とスクリプトがペアになった大規模なデータセットが必要で、モデルをトレーニングするんだ。トレーニングが終わると、モデルの一部がテキストをメルスペクトログラムに変換して、別の部分がそれを実際の音声波形に変換するんだ。
でも、歌う時はテキストだけじゃなく、メロディや歌詞も関わってくる。つまり、歌の歌詞とそれがどんな風に聞こえるべきかを求める必要があるんだ。従来の歌声合成(SVS)方法の課題は、たくさんのラベル付きデータが必要なことだよ。そんなデータセットを作るのにかなりの時間がかかるから、カジュアルなユーザーが独自の声モデルを作るのが難しいんだ。
教師あり音声モデリングの課題
歌声のための公的なデータセットはあるけれど、そのデータを集めるのには大量のラベル付けや録音が必要なんだ。この課題はパーソナライズされた声モデルを作る柔軟性を制限し、高度に訓練されたシンガーのスキルを真似するのを難しくしてるよ。可能な解決策は、音声のスタイルを例に基づいて変える歌声変換(SVC)というプロセスなんだけど、これでも個々のシンガーのユニークなスキルを捉えたり、異なる歌唱特性をコントロールするのが難しいんだ。
音声デジタル化の新しい方法
私たちは、アノテーションなしで声をデジタル化する新しい方法を提案するよ。誰かの話してる録音にだけ焦点を当てることで、歌声を予測できるんだ。私たちのアプローチは、ラベル付きデータセットを必要とせず様々な音の特性を見るために、既存のモデルを構築してるんだ。
私たちのフレームワークの最初の部分は、何が言われているかを自動音声認識(ASR)モデルを使って扱うよ。このモデルは特定のオーディオ埋め込みを生成することで内容を認識できるんだ。また、別のモデルを使って話者のアイデンティティをキャッチすることもできるよ。最後に、オーディオからメロディを抽出するために、音声の音程を推定する別のモデルを使うんだ。このプロセスをこれらの重要なステップに分けることで、個人の歌唱特性にマッチする柔軟な声モデルを構築できるんだ。
音響モデルの構築
異なる音声特性を集めたら、これらの埋め込みをメルスペクトログラムに変換する音響モデルを作るよ。このステップで、元の声の詳細な特性を捉えることができるんだ。モデルは話者の声のユニークな特性を反映するように学習するよ。その後、音響モデルはこの情報を使ってボコーダーを通じて音声波形を生成するんだ。
学習プロセスでは、音響モデルとボコーダーを一緒にエンドツーエンドで洗練させていくよ。このテクニックによって、予測されたメルスペクトログラムが実際の音の出力と密接にマッチして、音質が向上するんだ。
コントロール可能なオーディオの生成
音響モデルとボコーダーが整ったら、コントロール可能なオーディオ信号を作ることができるよ。つまり、スピーチ録音からでも、音程やメロディの異なる側面を変更できるんだ。
オーディオコンテンツを作る時には、既存の話されている素材を利用して、望ましいメロディやリズムに合わせることができるよ。埋め込みを調整することで、誰かの声を再現したり、全く新しい声を作ったりできるんだ。
AI合唱団の作成
このフレームワークの面白い応用は、いくつかのバーチャルシンガーで構成されたAI合唱団を生成することだよ。合唱団を作る時は、シンガー間でのコヒーレンスと声の多様性をバランスよく保つのが大事なんだ。この多様性が、リアルな合唱団のようにリッチなサウンドを達成するのを助けるんだ。
この効果を作り出すために、私たちは二段階の方法を開発するよ。最初に、似た声の特性を持つプロトタイプのシンガーを生成するんだ。次のステップでは、これらのプロトタイプの声を組み合わせて複数のバーチャルシンガーを作るよ。結果として、各シンガーが全体的にリッチなサウンドに貢献する調和のとれた合唱団ができるんだ。
AI合唱団の評価
生成した声のパフォーマンスをテストするために、歌声と話し声を含む異なるデータセットに基づいて評価するよ。例えば、質の高い歌の音声を含むOpenCpopデータセットを使って、私たちの方法が声の特性をどれだけうまく捉えているかを確認するんだ。また、カジュアルなスピーチから歌を生成する方法を評価するために、日常会話の声のデータセットも作るよ。
合唱団は異なるバーチャルシンガー間でインターポレーションを行い、彼らの音程やリズムを一致させることで作られるんだ。人間の評価者は、結合された音をレビューして、必要に応じて心地よいミックスを達成するための調整を行う重要な役割を果たすんだ。
方法の結果
いろんな実験を通じて、提案した方法が元のシンガーに非常に似た声を効果的に作り出せることがわかったよ。生成されたオーディオの音程やリズムの正確性を確認した結果、私たちのモデルが指定されたメロディに従えることを確認できたんだ。
話し声だけのデータセットから歌声を生成する際でも、結果は音程の輪郭に高い精度を示したよ。生成されたオーディオは意図されたメロディを反映しながら、異なる話者のアイデンティティを確立できていて、成功した変換を示してるね。
結論
この革新的なフレームワークは、面倒なアノテーションプロセスなしでデジタルな歌声を作る方法を明らかにしてるよ。既存の録音の特性を活用することで、柔軟な声モデルを構築して高品質な歌音声を生成できるようになるんだ。この技術の応用は広範囲にわたり、エンターテインメント業界を革命するバーチャルシンガーの作成、デジタルアシスタントの強化、文化遺産の独自の形での保存を可能にするんだ。これらの方法を精緻化していく中で、声と音の領域での人間とAIのコラボレーションの未来は明るいよ。
タイトル: Learn to Sing by Listening: Building Controllable Virtual Singer by Unsupervised Learning from Voice Recordings
概要: The virtual world is being established in which digital humans are created indistinguishable from real humans. Producing their audio-related capabilities is crucial since voice conveys extensive personal characteristics. We aim to create a controllable audio-form virtual singer; however, supervised modeling and controlling all different factors of the singing voice, such as timbre, tempo, pitch, and lyrics, is extremely difficult since accurately labeling all such information needs enormous labor work. In this paper, we propose a framework that could digitize a person's voice by simply "listening" to the clean voice recordings of any content in a fully unsupervised manner and predict singing voices even only using speaking recordings. A variational auto-encoder (VAE) based framework is developed, which leverages a set of pre-trained models to encode the audio as various hidden embeddings representing different factors of the singing voice, and further decodes the embeddings into raw audio. By manipulating the hidden embeddings for different factors, the resulting singing voices can be controlled, and new virtual singers can also be further generated by interpolating between timbres. Evaluations of different types of experiments demonstrate the proposed method's effectiveness. The proposed method is the critical technique for producing the AI choir, which empowered the human-AI symbiotic orchestra in Hong Kong in July 2022.
著者: Wei Xue, Yiwen Wang, Qifeng Liu, Yike Guo
最終更新: 2023-05-09 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.05401
ソースPDF: https://arxiv.org/pdf/2305.05401
ライセンス: https://creativecommons.org/publicdomain/zero/1.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。