Simple Science

最先端の科学をわかりやすく解説

# 電気工学・システム科学# 計算と言語# 人工知能# サウンド# 音声・音声処理

音声とテキストの共同学習の進展

新しいモデルが音声とテキストの整合性を改善して、自動認識をより良くするよ。

― 1 分で読む


共同スピーチ・テキスト学習共同スピーチ・テキスト学習のブレークスルー向上させました。新しいモデルが音声とテキストの認識性能を
目次

最近の技術の進歩で、テキストプロンプトに基づいて画像を生成することができるようになってきたんだ。このアイデアは自動音声認識(ASR)にも応用されて、システムが音声とテキストのデータを一緒に使えるようになったんだ。でも、音声とテキストの長さが合わないときに困難があるんだよね。この不一致は、シーケンスの処理方法を変えたり、シーケンスを明示的に揃える方法を使ったりすることで対処できるんだ。

この研究では、音声とテキストのシステムがシーケンスの長さに厳密に注意しなくても良く機能する証拠を示すよ。音声とテキストの表現の一貫性に焦点を当てることで、長さの違いがあってもこれらのシステムはパフォーマンスが良くなるんだ。また、一貫性を使う方法が、単一言語に対応するシステムや複数言語に対応するシステムの単語エラー率を改善できることも示しているよ。

大量のデータで訓練された大きなモデルの成功が明らかになってきたんだ。これは、前例なしでもタスクを実行できるテキストベースのシステムや、さまざまな音の課題に適応するオーディオシステムで顕著だよ。この成功は、データが完璧にペアリングされていなくても、テキストと音声の両方を効果的に扱う解決策の必要性を促しているんだ。

問題に対処する一つの効果的な方法は、音声とテキストの両方で機能する大きなモデルを訓練することだよ。これにより、例を交互に使用できるようになる。画像とテキストのケースでは、このアプローチはさまざまなタスクで高いパフォーマンスを発揮しているんだ。ASRにおける音声とテキストの組み合わせも探求されていて、未ペアのテキストと音声データから学習できる共同モデルが作られているよ。

でも、ASRには独自の課題があって、音声は通常テキストよりも長いシーケンスを含むため、両タイプのデータを同じ空間で表現するのが複雑なんだ。これを解決するために、過去のアプローチはテキストシーケンスを修正するか、別のモデルを使ってアラインメントを実現してきたよ。

一つの選択肢は、プロセス中にテキストをアップスケールすることで、これはASRタスクに成功裏に適用されているんだ。この方法は、モデルが効果的に学ぶために近似のアラインメントで十分であることを示しているよ。別のアプローチでは、正確なアラインメントを保証するために別途訓練されたモデルを使い、システムが音声とテキストの出力を直接比較できるようにしているんだ。

一貫性の正則化は、生成モデルから引き出した概念で、システムがマッチした例を整列させるために働くんだ。これは明示的にも暗黙的にも行うことができる。音声とテキストの間の正確なアラインメントを知らなくても、一貫性を達成できるのかが問題だよ。

私たちの研究では、他のシステムで学ばれたものに似た暗黙のアラインメントを使用して、一貫性の正則化を適用できるかを調査しているんだ。これにより、明示的な方法と同じ利益を得られるかを確認しているよ。そのために、音声とテキストの例の間で最適なアラインメントを特定するアルゴリズムを開発したよ。このアラインメントは訓練中に学ばれて、モデルが深くなるにつれて改善するんだ。

一貫性の正則化に関する基準を調整することで、より良いアラインメントを促し、別のアラインメントモデルを必要とせずに単語エラー率の大幅な改善をもたらすことができるよ。私たちの発見は、クロスモーダル表現の一貫性を維持することが、ある程度の不整合を許容することで達成できることを示しているんだ。

提案する方法論

私たちの方法論は、音声とテキストの共同モデルに基づいた半教師ありASRシステムを構築することだよ。以前の研究に触発された最良アラインメントアルゴリズムと関連する一貫性の損失を提案するよ。

モデルアーキテクチャには、音声入力を処理するオーディオエンコーダーとテキスト入力を処理するテキストエンコーダーが含まれているんだ。また、両モダリティの情報を結合する共有コンポーネントも含まれているよ。これによって、音声とテキストの共同表現が可能になるんだ。

訓練プロセスには、ASRとマスクされたテキスト再構築という2つの主要なタスクがあるよ。ASRでは、オーディオをオーディオエンコーダーに入力し、出力を実際のテキストと比較するよ。マスクされたテキスト再構築では、テキストの一部をマスクして、モデルが欠落部分を予測できるように訓練するんだ。

一貫性の損失を定義するために、音声とテキストのペアの例に注目するよ。これらの例は長さが異なるから、マッチさせる方法が必要だよ。アラインメントを、オーディオフレームを関連するテキストフレームにマッチさせるためのインデックスのリストと定義することで、オーディオフレームがテキストシーケンスに正しく対応するようにするんだ。

一貫性の損失は、オーディオとテキストの共有表現がどれだけ似ているかを測定するもので、類似度を評価するための指標を使うんだ。学習したアラインメントモデルに頼るのではなく、既存のデータに基づいて最良のアラインメントを計算することを目指しているんだ。

最良アラインメントと結果

動的時間歪み法を使って、音声とテキストのシーケンス間の最良アラインメントを特定する方法を採用しているよ。アラインメントに基づいて2つのシーケンスを比較するコストを計算する方法を示すことで、オーディオをテキストにマッチさせる最適な方法を見つけるための再帰アルゴリズムを確立するんだ。

私たちの分析では、ベースラインモデルがペアの音声とテキストの例を整列させるためにどれだけうまく学習するかを評価しているよ。異なるアラインメントを比較するために小さなランダム例のセットを使い、最良アラインメントの性質を素朴な仮定と比較しているんだ。

私たちの視覚化は、共有エンコーダー全体で音声とテキストの間に明確なアラインメントが存在していることを示し、このアラインメントの質はモデルが深くなるにつれて改善することを示しているよ。発見は、両モダリティが埋め込み空間で同様に表現できる方法があることを示唆しているんだ。

評価では、さまざまな設定で最良アラインメントの損失を適用した結果を調べているよ。結果は、高リソースの英語のみのシナリオで最良アラインメントの損失を使用したときに単語エラー率が控えめに改善されることを示しているよ。しかし、多言語の文脈では、挑戦が増すにつれてより大きな成果を観察して、改善の余地があることが分かるんだ。

結論

共同音声とテキストのために設計された半教師ありモデルが、両モダリティを効果的に表現できることを示したよ。音声とテキストの間の最良アラインメントに焦点を当て、一貫性の損失で最適化することで、さまざまなシナリオで基本モデルよりも改善を達成しているんだ。私たちのアプローチは、モデルの複雑さを増やすことなくパフォーマンスを向上させるもので、共同音声-テキスト表現のさらなる進展への有望な道を提供しているよ。

オリジナルソース

タイトル: Improving Joint Speech-Text Representations Without Alignment

概要: The last year has seen astonishing progress in text-prompted image generation premised on the idea of a cross-modal representation space in which the text and image domains are represented jointly. In ASR, this idea has found application as joint speech-text encoders that can scale to the capacities of very large parameter models by being trained on both unpaired speech and text. While these methods show promise, they have required special treatment of the sequence-length mismatch inherent in speech and text, either by up-sampling heuristics or an explicit alignment model. In this work, we offer evidence that joint speech-text encoders naturally achieve consistent representations across modalities by disregarding sequence length, and argue that consistency losses could forgive length differences and simply assume the best alignment. We show that such a loss improves downstream WER in both a large-parameter monolingual and multilingual system.

著者: Cal Peyser, Zhong Meng, Ke Hu, Rohit Prabhavalkar, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, Kyunghyun Cho

最終更新: 2023-08-11 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2308.06125

ソースPDF: https://arxiv.org/pdf/2308.06125

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事