多言語音声技術の進展
モデルは多言語環境でのスピーチタスクを改善し、コードスイッチングの課題に対処する。
Jing Xu, Daxin Tan, Jiaqi Wang, Xiao Chen
― 1 分で読む
目次
大きな言語モデル(LLM)は、スピーチの世界で強力なツールで、主に話された言語を生成したり理解したりするために使われてる。でも、ほとんどのモデルは一度に一つの言語にしか焦点を当ててないから、複数の言語を扱ったり、同じ文の中で言語を混ぜたりするのが苦手。これは人々が言語を切り替えること、つまりコードスイッチングがある状況で特に関係してくる。
多くのバイリンガルやマルチリンガルなコミュニティでは、コードスイッチングがよく起こるけど、スピーチシステムはそれに苦しんでる。問題は、言語間の音やルール、リズムの違いに加えて、扱えるデータがあまりないこと。結果的に、システムはスピーチを理解するためか、生成するためか、どちらか一方で訓練されがち。
問題
現在のシステムは、スピーチを理解する(自動音声認識、ASR)こととテキストからスピーチを生成する(テキスト音声合成、TTS)ことを別々のタスクとして扱ってる。この分離は非効率や制限を生むことがあって、特に多言語の文脈でそうなる。例えば、昔の言語モデルが普通にマンダリンと英語のスピーチを生み出せても、同じ文の中でマンダリンから英語に切り替わる文を作るのは苦手だった。
加えて、これらのモデルを訓練するための良いデータを集めるのは時間がかかって高コスト。従来の方法は声を適応させたり、複雑なセットアップを要求する技術を使ったりしようとしてた。最近の進展の中には、コードスイッチングに対応できるシステムを作ろうとするものもあったけど、まだどの言語が話されているかを識別することに頼ってた。
解決策
これらの課題を解決するために、マルチリンガル・マルチタスク(MLMT)モデルという新しいアプローチが提案された。このモデルはASRとTTSを一つのセットアップに組み合わせて、複数の言語やコードスイッチされた文を効果的に扱える。
MLMTモデルは、必要なデータを構築するためのユニークな方法を使用してる。既存の高品質なコードスイッチデータに頼るのではなく、異なる言語の単語を分けて混ぜて新しい文を作れる。これによって、システムは言語が混じっていても自然なスピーチを生成することを学ぶ。
モデルの仕組み
MLMTシステムは、主に三つの部品に依存してる:マルチリンガルスピーチトークナイザー、強力な言語モデルのバックボーン、マルチリンガルスピーチデトークナイザー。
マルチリンガルスピーチトークナイザー
この部分は、異なる言語のスピーチ音をシステムが理解できる単位に変換する。さまざまな言語からのスピーチの例を取り入れ、それを異なる音を表すピースに分解することで実現してる。これにより、モデルはマンダリンと英語をシームレスに扱えるようになる。
LLMバックボーン
モデルのバックボーンは、大量のマルチリンガルデータで訓練された大きな言語モデル。これによって、複数の言語で理解し応答する能力を持ってる。以前に作成したスピーチ単位を使って、スピーチを生成したり、スピーチをテキストに変換したりするタスクを実行する。
マルチリンガルスピーチデトークナイザー
モデルが離散的なスピーチ単位の形で応答を生成した後、デトークナイザーがこれらを人間が理解できるスピーチ信号に戻す。この部分は生成されたスピーチがスムーズで自然に聞こえるようにする。
データ構築戦略
モデルにコードスイッチングの能力を持たせるために、特別なデータ構築戦略が使われる。簡単に言うと、既存のスピーチとテキストデータを取り入れて言語が切り替わる新しい有意義な文を作るってこと。このプロセスは次のようなステップを含む:
アラインメントとセグメンテーション:システムはまず、テキストを対応するスピーチと合わせて、各単語や音のタイミングを理解する。次に、それを扱いやすいピースに分ける。
サンプリングと連結:その後、各言語からランダムに単語を選び、新しい文を作る。この新しいデータは、モデルが高品質なデータを大量に必要とせずにコードスイッチングを扱えるようにするためのトレーニングに役立つ。
三種類の構築されたデータセットが作成される:
- デュアルリンク:二つの言語を交互に含む文。
- トリプルリンク:二つの言語の間で行き来する文。
- ミックス:前の二つのタイプをバランスよく含む。
モデルのトレーニング
MLMTモデルを効果的に教えるために、二つのトレーニング戦略が使われる。
ワンステージトレーニング:これは、新しく作成されたデータと既存のモノリンガルデータを直接使ってモデルを訓練する。
ツーステージトレーニング:この方法では、まず単一の言語でモデルを訓練してから、混合データを後に紹介する。このアプローチにより、モデルはより複雑なタスクに取り組む前に基礎をしっかり築ける。
どちらのトレーニング方法も、モデルがスピーチを理解し生成する能力を向上させるのに役立ち、必要に応じて言語を切り替えることができるようにする。
実験結果
MLMTモデルはいろんなテストを受けて、その性能を確認した。テストには、マンダリンと英語の大規模データセットを使って多様なトレーニング環境を作ることが含まれてた。結果として、MLMTモデルは特に混合言語の文で既存のモデルよりも良いパフォーマンスを発揮した。
具体的には、新しいアプローチは単語誤認率の大幅な削減を達成した。これはモデルがスピーチを認識したり生成したりする際にどれだけ間違えたかを測る指標。実際の話者に似た、より自然な音のスピーチを生成する能力も向上した。
今後の方向性
現在は言語が混ざったスピーチを生成することに焦点を当ててるけど、今後はコードスイッチングを扱う際の音声認識を含める計画がある。これにより、システムは混合言語のスピーチを生成するだけでなく、それを正確に理解してトランスクリプトできるようになる。
要するに、MLMTモデルはマルチリンガルかつコードスイッチされたスピーチタスクを一つのシステムに統合するための大きな一歩を示してる。大量の高品質データがなくても効果的なトレーニングデータを構築できるこのモデルは、現代の多言語コミュニティのニーズに適応できる。言語生成と理解のギャップを埋めることで、MLMTはスピーチ技術の分野での研究と実用化の新しい道を開く。
タイトル: Enhancing Multilingual Speech Generation and Recognition Abilities in LLMs with Constructed Code-switched Data
概要: While large language models (LLMs) have been explored in the speech domain for both generation and recognition tasks, their applications are predominantly confined to the monolingual scenario, with limited exploration in multilingual and code-switched (CS) contexts. Additionally, speech generation and recognition tasks are often handled separately, such as VALL-E and Qwen-Audio. In this paper, we propose a MutltiLingual MultiTask (MLMT) model, integrating multilingual speech generation and recognition tasks within the single LLM. Furthermore, we develop an effective data construction approach that splits and concatenates words from different languages to equip LLMs with CS synthesis ability without relying on CS data. The experimental results demonstrate that our model outperforms other baselines with a comparable data scale. Furthermore, our data construction approach not only equips LLMs with CS speech synthesis capability with comparable speaker consistency and similarity to any given speaker, but also improves the performance of LLMs in multilingual speech generation and recognition tasks.
著者: Jing Xu, Daxin Tan, Jiaqi Wang, Xiao Chen
最終更新: 2024-09-17 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2409.10969
ソースPDF: https://arxiv.org/pdf/2409.10969
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。