吃音者のための音声認識の改善
吃音のあるユーザー向けにASRシステムを強化する方法。
― 1 分で読む
目次
自動音声認識(ASR)システムは、私たちの日常生活で一般的になってきた。これらのシステムは、話された言語をテキストに変換する。ここ数年で大きく改善されたけど、例えば吃音の人の話す言葉にはまだ苦労している。この論文では、吃音の人々にも使いやすいようにASRシステムをテストする方法について話すよ。
ASRシステムにおけるアクセシビリティの必要性
多くの人がASRシステムを使っていて、その中には障害のある人も含まれている。吃音がある人のためにこれらのシステムをより使いやすくすることは重要だよ。吃音があると誤解を招くことがあるから、ASRシステムがこの種類の話し方を正確に認識することが必要なんだ。でも、既存のASRシステムは吃音の話を処理するのが難しいんだよね。
ASRシステムのテストの課題
吃音の話を処理する能力についてASRシステムをテストするのは簡単じゃない。大きな問題は、吃音のある人から記録された多様な音声データセットが不足していることだ。ほとんどのデータセットは、吃音がどのように現れるかを十分に表していないし、正しいテキストの転写も欠けているから、ASRシステムをテストするために効果的には使えない。
効果的なテストの目標は、ASRシステムの弱点を明らかにするために吃音の話の多様な例を作成することだ。この研究では、ASRシステムを正確に評価するために使える吃音の音声サンプルを生成する方法を提案するよ。
吃音の音声サンプルの生成
ASRシステムを効果的にテストするために、吃音の音声サンプルを生成する技術を紹介する。この技術は、吃音のある人が話す様子を模倣した音声ファイルを作成することを含むけど、生成されたサンプルが多様であることも重要だよ。
吃音の種類
吃音はさまざまな形で現れ、私たちの技術はこれらのバリエーションをシミュレートすることを目指している。一般的な吃音の種類には:
- ブロック: 単語の途中で一時停止すること。
- 延長: 音節が通常の時間を超えて引き伸ばされること。
- 音の繰り返し: 音節が繰り返されること。
- 単語の繰り返し: 単語全体が繰り返されること。
- 間投詞: 話の中で「うーん」や「えーと」などのフィラーを入れること。
これらのバリエーションを取り入れることで、私たちの方法はテスト用のリアルな吃音サンプルを生成する。
ASRシステムの評価
生成された吃音の音声サンプルでASRシステムがどれくらいパフォーマンスを発揮するかを測るために、オープンソースと商用のASRシステムを使って一連のテストを実施した。このテストでは、スピーチを転写する際にシステムがどれだけ間違えたかを測定したよ。
パフォーマンス指標
ASRシステムを評価するために、主に3つの指標を使用した:
- 単語誤り率(WER): ASRの転写における不正確な単語の割合を元のテキストと比較して測る。
- マッチ誤り率(MER): 不正確に転写された単語の数と元のテキストと一致した単語の数を評価する。
- 単語情報損失(WIL): ASRシステムが元のテキストと比較してどれだけ情報を失ったかを評価する。
これらの指標は、ASRシステムが吃音の話をどれくらい認識できるかを理解するのに役立つ。
評価結果
私たちはテスト手法を実施し、4つのオープンソースASRモデルと3つの商用ASRシステムのパフォーマンスを評価した。結果は、生成された吃音サンプルがテストされたすべてのシステムで認識エラーを大きく増加させることを示したよ。
ユーザースタディ
技術的評価に加えて、生成された吃音の音声サンプルがリアルに聞こえるかをチェックするためにユーザースタディを実施した。参加者には、生成されたサンプルとリアルなサンプルのペアが提示され、リアルなサンプルを特定するタスクが与えられた。結果は、参加者が生成された音声サンプルとリアルな吃音音声を区別するのに苦労したことを示し、サンプルのリアリズムを確認したよ。
各吃音の種類の影響
また、各タイプの吃音がASRシステムのパフォーマンスにどう影響するかを調べた。5つの吃音の種類それぞれを個別にテストして、どれがASRの認識率に最も大きな影響を与えるかを見たんだ。
ブロックタイプの吃音が最も高いエラー率を生み出し、次に間投詞と延長が続いた。単語と音の繰り返しもエラーに寄与したけど、影響は少なかった。この理解は、ASRシステムが特に難しいと感じる吃音の側面を特定するのに役立つ。
ASRシステムの比較
さまざまなASRシステムのパフォーマンスを比較して、顕著な違いを見つけた。商用システムは一般的にオープンソースのものよりもパフォーマンスが良かったけど、吃音の話を認識するのに依然としてかなりのエラーがあった。商用システムの中では、一つが他のシステムよりも優れた認識率を達成したよ。
堅牢なテストの重要性
私たちの発見は、ASRシステムのための堅牢なテスト手法の必要性を強調している。リアルな吃音の話をシミュレートすることで、開発者はシステムの弱点をよりよく理解し、より正確で包括的な技術を作り出すための努力ができる。
生成された吃音音声でASRシステムをテストすることは、進展を促進するために重要だよ。これにより、吃音のある人々が音声認識技術を使う際の体験が良くなるようにするんだ。
今後の方向性
この研究は、今後の仕事に向けていくつかの道を開く。さらなる調査で、より多様な吃音パターンとそれらがASRのパフォーマンスに与える影響を探求できる。また、ASR技術が進化し続ける限り、アクセシビリティの向上を維持するために継続的なテストが必要になるだろう。
結論
ASRシステムのアクセシビリティは、特に吃音のあるユーザーにとって非常に重要だ。私たちのリアルな吃音音声サンプルを生成する方法は、ASRシステムを評価するためのしっかりとしたテスト基盤として機能する。現在のモデルの弱点を特定することで、研究者と開発者がより良くて、より包括的な音声認識技術を作るために協力できるんだ。
タイトル: ASTER: Automatic Speech Recognition System Accessibility Testing for Stutterers
概要: The popularity of automatic speech recognition (ASR) systems nowadays leads to an increasing need for improving their accessibility. Handling stuttering speech is an important feature for accessible ASR systems. To improve the accessibility of ASR systems for stutterers, we need to expose and analyze the failures of ASR systems on stuttering speech. The speech datasets recorded from stutterers are not diverse enough to expose most of the failures. Furthermore, these datasets lack ground truth information about the non-stuttered text, rendering them unsuitable as comprehensive test suites. Therefore, a methodology for generating stuttering speech as test inputs to test and analyze the performance of ASR systems is needed. However, generating valid test inputs in this scenario is challenging. The reason is that although the generated test inputs should mimic how stutterers speak, they should also be diverse enough to trigger more failures. To address the challenge, we propose ASTER, a technique for automatically testing the accessibility of ASR systems. ASTER can generate valid test cases by injecting five different types of stuttering. The generated test cases can both simulate realistic stuttering speech and expose failures in ASR systems. Moreover, ASTER can further enhance the quality of the test cases with a multi-objective optimization-based seed updating algorithm. We implemented ASTER as a framework and evaluated it on four open-source ASR models and three commercial ASR systems. We conduct a comprehensive evaluation of ASTER and find that it significantly increases the word error rate, match error rate, and word information loss in the evaluated ASR systems. Additionally, our user study demonstrates that the generated stuttering audio is indistinguishable from real-world stuttering audio clips.
著者: Yi Liu, Yuekang Li, Gelei Deng, Felix Juefei-Xu, Yao Du, Cen Zhang, Chengwei Liu, Yeting Li, Lei Ma, Yang Liu
最終更新: 2023-08-29 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.15742
ソースPDF: https://arxiv.org/pdf/2308.15742
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://sites.google.com/view/
- https://www.overleaf.com/project/63d47619cd6b75fb9e458bc8stuttering
- https://www.asha.org/practice-portal/clinical-topics/fluency-disorders/
- https://leader.pubs.asha.org/do/10.1044/leader.FTR2.28012023.ai-treatment-slp.50/
- https://www.thelancet.com/journals/landig/article/PIIS2589-7500
- https://forms.gle/EmbnqLY7ezqptxAr7
- https://www.nscc.sg
- https://sites.google.com/view/aster-speech/pareto-frontier-code