音声認識を通じた自閉症診断の進展
ASD評価のために子どもの音を識別するのに機械学習を使う研究。
― 1 分で読む
自閉症スペクトラム障害(ASD)は、子どもが社会的に発達したりコミュニケーションしたりする方法に影響を与える状態で、早い段階で現れることが多いんだ。ASDを診断するには、訓練を受けた医療専門家が子どもの行動を観察してメモを取ることが一般的で、これには時間がかかるし、たくさんの労力が必要なんだ。子どもが大人と話すときの音を自動的に認識して分類できるシステムがあれば、時間を節約できて、医療専門家が親とよりよくコミュニケーションを取ったり、新しいスタッフを教育したりするのに役立つだろうね。
この研究では、Wav2Vec 2.0(W2V2)という機械学習モデルを使って、子どもと大人の会話を聞いて、誰が話していて、子どもがどんな音を出しているかを分析するシステムを作ってるんだ。会話は大体3〜5分くらいで、Rapid-ABCコーパスという特定の録音セットを使ってる。特に4歳未満の子どもが出す泣き声や笑い声みたいな音を理解して分類するのが目的なんだ。
テクノロジーを使ってASDの診断をサポート
ASDは、子どもの行動を注意深く観察することで診断されるんだけど、その行動は幅広く変わることがあるよ。アメリカでは、子ども36人に1人がASDを持ってるって推定されてるんだ。でも、十分な医療専門家がいないから、診断を受けるまでに時間がかかることが多いの。そういう遅れは、子どもの音から関連する特徴を自動的に特定する機械学習モデルで解決できるかもしれないね。
過去の取り組みでは、医療者と子どもとの録音インタビューで誰が話しているかを認識するモデルを作ることが考えられてきたんだけど、これらのインタビューは子どもから話を引き出すために構造化されたプロトコルを使うことが多いんだ。しかし、多くの研究は年齢の高い子どもに焦点を当てていて、完全な文を使わないような年齢の低い子どもを支援するツールが必要なんだ。
ASDを持つ子どもは、あまり話さなかったり、非言語的な音を出したりすることが多いよ。この状況を改善するために、この研究では子どもが会話中に出す音をもっと正確に分類することを目指してるんだ。
音声録音の役割
この研究では、Rapid-ABCコーパスの音声録音を使用して、1〜2歳の子どもと医療者との短いインタラクションを含んでいるんだ。各録音は約3〜5分で、子どもと大人の録音を別々に持ってるよ。子どもの声を、音声(非言語)、言葉を含むスピーチ、泣き声、笑い声などのカテゴリに分類してるんだ。
正確性を確保するために、大人の音声の一部を手動でラベル付けして、異なる人々がどれだけ一致したかを確認したんだ。51セッションの音声録音を分析したよ。結果の信頼性を確保するために、クロスバリデーションという方法を使ってモデルを評価したんだ。
子どもの音でモデルをトレーニング
モデルをトレーニングするために、2つの異なる情報源を使ったんだ。最初の情報源はMySTで、年齢の高い子どもがチューターと話している会話を含んでいるよ。2つ目の情報源はProvidenceで、若い子どもが母親とやりとりしている録音が含まれてる。これらのデータセットを使うことで、子どもが出す音を理解するためにモデルを訓練することを目指したんだ。
2つの情報源の特徴を組み合わせる独自のアプローチを使ったよ。一つの方法では、子どもと大人の両方の話者の音声を組み合わせて、モデルが音を認識する能力を高めたんだ。この統合は、特に子どもの音の分類を改善するのに役立ったよ。
音声認識の改善
様々な音声の特徴を組み合わせたことで、モデルの子ども音を分類する能力が向上したんだ。子どもの音を認識するために特に設計された特徴を導入したことで、異なるテストセットでモデルのパフォーマンスが一貫して改善されたのが見られたよ。
実験では、2つの異なるデータセットを使ってシステムを評価したんだ。追加の特徴を持つモデルと持たないモデルのパフォーマンスを比較した結果、子どもの音を認識するために特別に設計された特徴を含めることで、子どもの声の理解が向上したことがわかったよ。
パフォーマンスの評価
システムのパフォーマンスを評価するために、成人と子どもからの音をどれだけ正確に分類できたかを測定するためによく知られた指標を使用したんだ。どれだけモデルが子どもが出すさまざまな種類の音を正しく識別できたか、そして誰が話しているかをどれだけよく認識できたかに焦点を当てたよ。
子どもと大人の音声ストリームを結合する異なる方法も試してみたんだ。最も効果的だったのは、両方の話者からの情報を特定の方法で組み合わせて、全体的により効果的な音声認識システムを作る方法だったよ。
見解と今後の方向性
私たちの発見は、W2V2のような機械学習モデルを使って、若い子どもが大人とのやりとり中に出す音を分類する可能性を強調してるよ。私たちは強い結果を得たけど、限界もあるんだ。たとえば、ASDを持つ子どもとそうでない子どもを区別できなかったから、システムの効果を測るのに影響するかもしれないね。
将来的には、子どもがASDかどうかを特定するためのデータをもっと含めて研究を広げる予定なんだ。これによって、音の分類をさらに改善して、若い子どもにおける自閉症の診断と理解をサポートできるようにしたいんだ。
結論
この研究は、テクノロジーが臨床インタラクション中に子どもの声を評価するのをサポートできることを示してるよ。高度な音声認識技術を使用することで、ASDの診断とサポートに役立つツールの作成に近づいてるんだ。得られるメリットには、医療専門家の時間を節約し、親との子どもの発達についてのコミュニケーションをより明確にすることが含まれてるよ。
タイトル: Enhancing Child Vocalization Classification with Phonetically-Tuned Embeddings for Assisting Autism Diagnosis
概要: The assessment of children at risk of autism typically involves a clinician observing, taking notes, and rating children's behaviors. A machine learning model that can label adult and child audio may largely save labor in coding children's behaviors, helping clinicians capture critical events and better communicate with parents. In this study, we leverage Wav2Vec 2.0 (W2V2), pre-trained on 4300-hour of home audio of children under 5 years old, to build a unified system for tasks of clinician-child speaker diarization and vocalization classification (VC). To enhance children's VC, we build a W2V2 phoneme recognition system for children under 4 years old, and we incorporate its phonetically-tuned embeddings as auxiliary features or recognize pseudo phonetic transcripts as an auxiliary task. We test our method on two corpora (Rapid-ABC and BabbleCor) and obtain consistent improvements. Additionally, we outperform the state-of-the-art performance on the reproducible subset of BabbleCor. Code available at https://huggingface.co/lijialudew
著者: Jialu Li, Mark Hasegawa-Johnson, Karrie Karahalios
最終更新: 2024-06-05 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.07287
ソースPDF: https://arxiv.org/pdf/2309.07287
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。