テキスト読み上げシステムにおける同綴異義語の扱い
新しいシステムがTTSの難しい同綴異義語の処理を改善する。
― 1 分で読む
テキスト読み上げ(TTS)技術は、機械が自然な感じでテキストを音読できるようにするんだ。この技術の重要な部分は、グラフェムからフォネームへの変換(G2P)っていうもので、書かれた単語を音に変えるんだ。これがちょっと難しいのが、英語みたいな言語で、同じスペルの言葉でも意味によって発音が違う場合があるから。そういう言葉をヘテロニムって呼ぶよ。
ヘテロニムの例を含むデータセットを作るのは難しくてコストがかかるんだ。正しくラベル付けするには人間の手が必要だからね。この記事では、スピーチデータの中でこういう面倒な単語を自動で処理するシステムについて話すよ。TTSモデルのトレーニングに使いやすくなるんだ。
ヘテロニムって何?
ヘテロニムは、見た目は同じだけど音が違う単語のことだよ。たとえば、「read」って単語は、文脈によって/rEd/(過去形)や/rid/(現在形)って発音されることがある。これが機械にとっては混乱を生むんだ。どの発音を使えばいいか分からないからね。
多くのTTSシステムは音素トレーニングに頼ってて、単語の音を使って発音を学ぶんだ。でも、ヘテロニムは意味も音も違うから、TTSシステムにとって大きな課題なんだ。
データの現状の制限
ヘテロニムのラベル付きデータを作るのは、高品質な例がどれだけあるかに制限されるんだ。TIMITやBuckeye Speech Corpusみたいなデータセットは音声とテキストの転写を提供してるけど、小さすぎたり、信頼できないノイズのあるラベルが含まれてたりする。よく知られているヘテロニムのオープンソースデータセットであるWikipedia Homograph Data (WikiHomograph)にもいくつか限界があるよ。全種類の例が揃っていなかったり、発音の表現に偏りがあったりするんだ。
こうした問題のせいで、既存のトレーニングモデルは予期しない単語や難しい単語に対処するのが困難で、新しい単語やあまり一般的でない用語に直面すると、パフォーマンスが悪くなることが多いんだ。
提案する解決策
ヘテロニムの問題に取り組むために、RAD-TTS Alignerというモデルを使ったシステムを提案するよ。このモデルは、オーディオデータセットのヘテロニムに対して自動的に正しい発音を選ぶように設計されてる。これによって、TTSの精度を向上させて、データ作成のプロセスを効率的にするための大きなラベル付きトレーニングデータを作ることを目指してるんだ。
システムの動作方法
提案するパイプラインは一連のステップで構成されてる:
- 入力テキスト: システムは入力テキストを分析する。
- 明確な単語の置換: 明確な単語(発音が一つだけの単語)は辞書を使って音素に変換される。
- 候補文の生成: ヘテロニムを含む文について、システムはそのヘテロニムをそれぞれの発音オプションに置き換えて複数のバージョンを生成する。
- スコアリング: 各候補発音は、対応するオーディオとのマッチ具合に基づいてスコアがつけられる。
- 最適な発音の選択: 最もスコアが高い発音が選ばれる。
- 不明な単語の処理: 認識されない単語(語彙外やOOVの単語)はマスクされて、特別な注意が必要なことを示す。
発音のスコアリング
スコアリングシステムは、オーディオがどれだけ発音オプションと合致しているかを評価することに依存してる。モデルは、オーディオの音声表現と書かれたテキストの音素表現の距離を比較して、どの発音が最適なのかを判断するんだ。
システムはRAD-TTS Alignerを使って、与えられたヘテロニムのすべての可能な発音オプションにスコアをつける。スコアが最も高いものを選ぶことで、話し言葉を最も正確に反映した発音を選ぶことができるんだ。
データ品質管理
このシステムには、生成されたデータが信頼できることを保証するための品質管理のメカニズムも含まれてる。選ばれた発音がオーディオにどれだけ近いかを評価することで、一定の信頼度に満たないオプションをフィルタリングできるんだ。これは、最良の候補発音と最悪の候補発音の違いに基づいてスコアを計算することで行われる。
しきい値を設定することで、信頼できないサンプルをトレーニングデータに含めないようにして、TTSシステムの高いパフォーマンスを維持するのに役立つんだ。
アライナーモデルのトレーニング
RAD-TTS Alignerは、オーディオサンプルとそれに対応するテキストを含むいくつかのデータセットを使用してトレーニングされる。このトレーニングによって、モデルは音を効果的に書かれた単語に合わせる方法を学ぶんだ。
トレーニングでは、ヘテロニムを含む文だけを使用して、モデルがこういう難しい単語を区別することに集中できるようにしている。トレーニングプロセスには、データセットのバランスを取ったり、特定の発音に偏らないようにしたりするためのさまざまな設定が含まれていて、ヘテロニムのすべての形が適切に表現されるようになってるんだ。
人間の評価
アプローチの効果を確認するために、アライナーモデルが生成した文について人間評価を行ったんだ。テスト担当者がさまざまなヘテロニムのために選ばれた発音の正確さを分析した結果、モデルは多くの場合発音を正確に選ぶことができたけど、発音が似ているケースでは苦労してることが分かったよ。
結果と発見
このシステムは既存のデータセットに対してテストされ、生成されたデータが分類精度とTTSモデル全体のパフォーマンスの両方で改善を示したんだ。結果として、我々の自動ラベリングシステムは、ヘテロニムに対処するだけでなく、TTSシステムに利用可能なトレーニングデータも強化していることが示されたんだ。
結論
要するに、我々の提案したアプローチは、テキストから音声へのシステムにおけるヘテロニムの課題を自動で処理する方法を提供するよ。RAD-TTS Alignerを使うことで、通常このタスクに必要な膨大な手動努力なしに、より正確なトレーニングデータを生成できるんだ。
この方法は、ラベル付きデータセットの作成の効率を向上させて、テキスト読み上げ技術を強化する新たな可能性を開くんだ。私たちは、このシステムがヘテロニムの課題に対処して、TTSアプリケーションのパフォーマンスを向上させる重要な役割を果たすことができると信じているよ。
質の高い自然な音声の需要が高まる中、こうした進展は期待に応えるために欠かせないんだ。最終的には、この取り組みが将来のテキスト読み上げ技術の発展のための強固な基盤を作ることを目指しているよ。
タイトル: Automatic Heteronym Resolution Pipeline Using RAD-TTS Aligners
概要: Grapheme-to-phoneme (G2P) transduction is part of the standard text-to-speech (TTS) pipeline. However, G2P conversion is difficult for languages that contain heteronyms -- words that have one spelling but can be pronounced in multiple ways. G2P datasets with annotated heteronyms are limited in size and expensive to create, as human labeling remains the primary method for heteronym disambiguation. We propose a RAD-TTS Aligner-based pipeline to automatically disambiguate heteronyms in datasets that contain both audio with text transcripts. The best pronunciation can be chosen by generating all possible candidates for each heteronym and scoring them with an Aligner model. The resulting labels can be used to create training datasets for use in both multi-stage and end-to-end G2P systems.
著者: Jocelyn Huang, Evelina Bakhturina, Oktai Tatanov
最終更新: 2023-02-28 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2302.14523
ソースPDF: https://arxiv.org/pdf/2302.14523
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。