声の病理検出の進歩
新しい方法が声の問題を早期に発見するのに役立つ声帯源の特徴を使ってるよ。
― 1 分で読む
話すことはコミュニケーションの重要な方法だよね。声帯の動きで音を変えて作られ、舌、顎、唇の動きが関わってるんだ。メッセージを伝えるだけじゃなくて、話し方からその人のアクセント、性別、年齢、気持ちなんかもわかっちゃう。時には声に問題が出ることもあって、これを声病って言うんだ。感染や体の問題、ストレス、声の使い方の誤りが原因になることが多いよ。特に歌うことや教えること、接客業ではよくあるよね。早期に声の問題を見つけることで治療が助けられるんだ。
声の問題を検出する自動システムは、客観的な評価を提供して早期介入をサポートしてくれるからいいんだ。通常、このシステムは二つの主要なステップがあって、まず声から特徴を抽出して、その後、声が正常か問題があるかを判断する方法を使うよ。この文章は主に最初のステップに焦点を当ててるんだ。
声病の検出
声の問題を検出するための特徴は、主に三つのグループに分けられるよ:
揺らぎの測定: これらの特徴は声のパターンの不規則性を示すんだ。一般的な測定には、音程の短期的な変化を見ているジッターと、音量の短期的な変化を見ているシマーが含まれるよ。多くの研究ではジッターとシマーが使われてるけど、必ずしも臨床での使用に信頼できるわけじゃないんだ。
スペクトルとケプストラルの測定: これらの特徴は声の周波数成分を分析するんだ。メル周波数ケプストラル係数(MFCC)は、このカテゴリで人気があって、人間が音を聞く方法を模倣してるよ。他には線形予測ケプストラル係数(LPCC)や知覚線形予測(PLP)係数もあって、声の問題の検出を助けるんだ。
複雑性の測定: これらの特徴は声信号の不規則性や予測不可能性を考慮するんだ。声が時間とともにどう変化するかのパターンを検出して、声の生成に関する問題を理解する手がかりを提供するよ。
これらの特徴を抽出するのは大変なこともあるんだ。いくつかの特徴は声の基本周波数を正確に推定することに頼っていて、病的な声では難しいことも多いからね。
声源特徴
最近の研究では、声帯から出る音の起源である声源が、健康な声と問題のある声を区別するための貴重な情報を提供することがわかってきたんだ。この文章では、声源の特徴を使って声病を分析・検出する方法を詳しく見ていくよ。
声源特徴を抽出する方法
声源特徴を抽出するために使われる具体的な方法は、準閉じ相(QCP)法とゼロ周波数フィルタリング(ZFF)法の二つだよ。
QCP法
QCP法は、音声サンプルを使って声源の波形を推定するんだ。分析フレームからの全サンプルを考慮して、声道の影響を最小限にする技術を使うことで、声帯の動きのより良い推定をもたらすよ。この方法は、正常な音声と異常な発声タイプの両方で、以前の方法よりも良い結果を示してるんだ。
ZFF法
ZFF法は、声信号に含まれるエネルギーに焦点を当てて、特に声帯の閉じる相の影響を認識するんだ。音声信号を処理して声源の信号を分析するために、声帯の活動をより明確にする方法で処理するんだ。
声源特徴の抽出
QCP法を使う: QCP法からは、声帯の活動のタイミングや期間の詳細を捉える時間領域の特徴と、周波数にわたるエネルギー分布を分析する周波数領域の特徴が抽出できるよ。
時間領域の特徴: これには声帯サイクルの異なる相に費やす時間の比率や、声の強さと閉じるダイナミクスを測る振幅関連の特徴が含まれる。
周波数領域の特徴: これらは声源信号のスペクトル分析から導き出されるもので、声の質に関する洞察を提供する。
ZFF法を使う: ZFF法から抽出される特徴には:
- 励起の強さ(SoE): 声帯が閉じる強さを測定する。
- 励起のエネルギー(EoE): 声の生成中に使われるエネルギーを評価する。
音響声信号から直接: 声の音声から声源波形を抽出せずに直接計算できる特徴もあって、声の急激さ、スペクトル傾斜、周期性、閉じる特性を捉えるパラメータが含まれる。
正常な声と病的な声の分析
正常な声と病的な声の声源特徴を比較することで、二つを区別するパターンを見つけられるんだ。例えば、QCP法から派生したいくつかの特徴は、正常な声と病的な声を比較したときに顕著な違いを示すよ。周波数領域の特徴は、一般的に時間領域の特徴よりも優れた識別力を持ってる。
検出実験での性能
声源特徴の効果を評価するために、臨床環境で録音された声を含む異なる音声データセットを使ったテストが行われたよ。様々な特徴の組み合わせも試されて、どう組み合わさるかが見られた。
- 結果は、個々の声源特徴がMFCCやPLPのような従来の特徴よりもよく機能することが多いことを示したよ。組み合わせることで、声源特徴と従来の特徴が一緒に働いて性能を改善することも示された。
結論
声源特徴を通じて声病を理解し検出することは、声に問題を抱える人へのより効果的な評価と治療につながるんだ。ここで話したQCP法とZFF法は、声の状態に関する貴重な洞察を提供するよ。研究が進むにつれて、これらの自動検出システムはさらに優れた診断能力を提供できるようになるかもしれないし、声の問題の深刻さを分類することも可能になるかもしれない。
ここで研究された声源特徴は、声病検出の新しい可能性を開いて、臨床環境で重要なツールになるかもしれないね。今後の研究では、リアルタイムでの声分析のためにこれらの技術を強化することを目指すよ。
タイトル: Analysis and Detection of Pathological Voice using Glottal Source Features
概要: Automatic detection of voice pathology enables objective assessment and earlier intervention for the diagnosis. This study provides a systematic analysis of glottal source features and investigates their effectiveness in voice pathology detection. Glottal source features are extracted using glottal flows estimated with the quasi-closed phase (QCP) glottal inverse filtering method, using approximate glottal source signals computed with the zero frequency filtering (ZFF) method, and using acoustic voice signals directly. In addition, we propose to derive mel-frequency cepstral coefficients (MFCCs) from the glottal source waveforms computed by QCP and ZFF to effectively capture the variations in glottal source spectra of pathological voice. Experiments were carried out using two databases, the Hospital Universitario Principe de Asturias (HUPA) database and the Saarbrucken Voice Disorders (SVD) database. Analysis of features revealed that the glottal source contains information that discriminates normal and pathological voice. Pathology detection experiments were carried out using support vector machine (SVM). From the detection experiments it was observed that the performance achieved with the studied glottal source features is comparable or better than that of conventional MFCCs and perceptual linear prediction (PLP) features. The best detection performance was achieved when the glottal source features were combined with the conventional MFCCs and PLP features, which indicates the complementary nature of the features.
著者: Sudarsana Reddy Kadiri, Paavo Alku
最終更新: 2023-10-17 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.14080
ソースPDF: https://arxiv.org/pdf/2309.14080
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。