Simple Science

最先端の科学をわかりやすく解説

# 電気工学・システム科学# 音声・音声処理# 機械学習# サウンド

キーワード発見の新しいアプローチ

言語を超えてスピーチのキーワードを認識する柔軟な方法を紹介します。

― 1 分で読む


適応型キーワードスパッティ適応型キーワードスパッティング法システム。音声中のキーワードを認識するための柔軟な
目次

キーワードスポッティング(KWS)は、音声認識システムの重要な部分なんだ。これは連続する音声ストリームの中から特定の単語やフレーズを見つけることに焦点を当ててる。この能力は、自動文字起こしサービスや音声起動アシスタントなどの多くのアプリケーションにとって必要不可欠だよ。

技術が進歩しても、KWSにはまだ課題があるんだ。その一つは適応性とカスタマイズ。通常、キーワードスポッティングシステムはあらかじめ定義されたキーワードリストしか認識できないから、各キーワードにたくさんのラベル付きデータが必要になる。これがその有用性を制限しちゃうんだ。

新しいキーワードを認識するためにモデルを適応させるには再訓練が必要なことも多く、時間とリソースがかかる。最近は、少数ショット学習みたいな新しい方法がKWSをもっと柔軟に扱おうとしてるけど、新しいキーワードや語彙外のキーワードに対してうまく機能するのは難しいんだ。特にリソースが少ない言語では、十分なデータを見つけるのが大変だから、これが特に難しい。

KWSの目標は、追加の例や調整なしにユーザー定義のキーワードを複数の言語で認識できるシステムを作ることだ。最近の方法の中には、トレーニング中に見たことがないキーワードを認識するために適応できるオープンボキャブラリーのキーワードスポッティングシステムがある。これらのシステムは通常、音声とテキスト情報を共有空間に結びつけるためにテキストエンコーダを使用する。ただ、課題は残っているんだ。

一つの課題は、音声とテキストのために二つの別々のエンコーダを使用すると、両者の間に不一致が生じる可能性があること。もう一つの制限は、これらの方法の一部が音素モデルに依存していることで、リソースが少ない言語にはうまく機能しないかもしれない。最後に、これらのアプローチの大半は主に英語データで評価されているので、多様な言語や方言での効果について疑問が残る。

提案するキーワードスポッティングの方法

これらの問題に対処するために、適応インスタンス正規化を使用した新しいキーワードスポッティングの方法を紹介するよ。音声とテキストを共同空間で整合させようとするのではなく、入力キーワードを正規化パラメータに変換するキャラクターベースのエンコーダを使ってる。このパラメータがキーワード適応用に特別に設計されたモジュールを通じて音声を処理するのに役立つんだ。

適応モジュールは、標準的な正規化レイヤーを適応インスタンス正規化レイヤーに置き換える。これらのレイヤーは、画像編集などのさまざまなタスクで効果的であることが示されてる。トレーニング中に似たような音のキーワードの誤検出を減らすために、困難なネガティブ例を見つけるための新しい手法を開発したんだ。

以前の方法は、ターゲットキーワードだけを含むセグメント音声サンプルでキーワードスポッティングモデルをトレーニングしていたけど、私たちは完全な文でモデルをトレーニングするよ。これにより、キーワードを音声セグメントと整合させる心配をする必要がなくて、もっと多くのトレーニングデータを使えるようになったんだ。

キーワードスポッティングモデルの構成要素

モデルは、テキストエンコーダと音声分類器の二つの主要な部分から成り立ってる。音声分類器には音声エンコーダとキーワード適応モジュールが含まれてる。私たちの音声エンコーダには、事前トレーニングされたモデルを使って、実験中は変更を加えない。音声を音声エンコーダに入力すると、音声表現が生成されて、キーワード適応モジュールに供給される。各モジュールは特定のキーワードにリンクされた正規化パラメータを使って音声を処理する。

軽量なテキストエンコーダもあって、ターゲットキーワードを正規化パラメータにマッピングする。この設定により、モデルは異なるキーワード間で情報を共有しつつ、特定のキーワードに効果的に適応できるんだ。

ネガティブサンプリング手法

多様なネガティブ例を作ることは、効果的なトレーニングにとって重要だよ。私たちは、各トレーニングバッチのためにハードネガティブ例を生成するネガティブサンプリングアプローチを使用してる。トレーニングデータは、スピーチ発話やその文字起こし、そして一連のキーワードから成り立ってる。

例えば、ポジティブトレーニング例を作るために、ランダムにキーワードを選んでそれに対応する音声とペアにする。ネガティブ例を作るためには、いくつかの戦略を使えるよ:

  1. ランダムネガティブサンプリング:ランダムにキーワードを選ぶ。ただ、この方法は効果的でない場合もあって、ランダムに選ばれたキーワードがターゲットキーワードとはかなり違う音になることがある。

  2. キャラクター置換:ポジティブキーワードの一つ以上のキャラクターを変えて新しいものを作る。これはランダムにキャラクターを選んだり、似た音のキャラクターのマップを使ったりすることができる。

  3. キーワードの連結:ポジティブなキーワードを他のランダムなキーワードと組み合わせてネガティブ例を作る。

  4. 最近傍キーワードサンプリング:テキスト表現を見て、ポジティブキーワードに音響的に似たキーワードを見つける。

これらの方法は、音が似ているキーワードの区別をより良くするためにモデルをトレーニングするのに役立つんだ。

パフォーマンス評価

私たちの方法は、その効果を評価するためにさまざまなデータセットでテストされたよ。使用した主要なデータセットの一つはVoxPopuliで、多数の多言語スピーチサンプルを含んでる。また、ハードとイージーなスプリットの両方を備えたキーワードスポッティング用のベンチマークであるLibriPhraseも使用した。

私たちの方法をいくつかの他の方法と比較したとき、一貫して私たちのアプローチが既存のモデルを上回っていることがわかったよ。例えば、VoxPopuliデータセットでは、私たちのモデルがベースライン方法よりも良い結果を示して、複数の言語での効率性を示したんだ。

さらに、私たちのモデルが新しいリソースが少ない言語に一般化する能力も評価した。別のデータセットからの言語のサブセットでテストしたけど、ファインチューニングなしでも強いパフォーマンスを発揮できることが確認できた。

アブレーションスタディ

異なるネガティブサンプリング戦略がモデルのパフォーマンスにどのように影響するかを調査するために、さらなる分析を行ったよ。結果は、私たちが提案するネガティブサンプリング技術がキーワードスポッティングモデルの効果に大きく貢献していることを示している。

結論

要するに、適応インスタンス正規化を利用した新しいキーワードスポッティングのアプローチを提示したよ。この方法により、モデルは動作中に新しいキーワードに適応できるようになって、その汎用性が高まった。困難なネガティブ例を生成するための革新的な戦略を導入することで、オープンボキャブラリーの設定でトップクラスの結果を達成できたんだ、しかも複数の言語にわたってね。

さらに、私たちの方法は見たことのない言語やデータセットに適応する強い能力を示している。この進展は、現在のキーワードスポッティング手法を改善するだけでなく、この重要な音声認識の分野でさらなる研究の道を開くことにもつながるんだ。

オリジナルソース

タイトル: Open-vocabulary Keyword-spotting with Adaptive Instance Normalization

概要: Open vocabulary keyword spotting is a crucial and challenging task in automatic speech recognition (ASR) that focuses on detecting user-defined keywords within a spoken utterance. Keyword spotting methods commonly map the audio utterance and keyword into a joint embedding space to obtain some affinity score. In this work, we propose AdaKWS, a novel method for keyword spotting in which a text encoder is trained to output keyword-conditioned normalization parameters. These parameters are used to process the auditory input. We provide an extensive evaluation using challenging and diverse multi-lingual benchmarks and show significant improvements over recent keyword spotting and ASR baselines. Furthermore, we study the effectiveness of our approach on low-resource languages that were unseen during the training. The results demonstrate a substantial performance improvement compared to baseline methods.

著者: Aviv Navon, Aviv Shamsian, Neta Glazer, Gill Hetz, Joseph Keshet

最終更新: 2023-09-13 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2309.08561

ソースPDF: https://arxiv.org/pdf/2309.08561

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事