より正確な音質メトリクスの更新
新しいラウドネス計算方法を使って音質メトリクスを向上させる。
― 1 分で読む
音質指標(SQM)として、シャープネス、ラフネス、フラクチュエーション強度があって、これらは私たちがいろんな音をどう感じるかを理解するのに役立つよ。これらの指標は、商品デザイン、音楽制作、環境分析などのいろんな分野で重要なんだ。これらの指標を計算するには、通常、大きさを測る方法に頼ってて、特に耳の働きを真似た聴覚フィルターバンクを使うんだ。
最近、大きさの計算方法が更新されたから、SQMで使うモデルも更新する必要があるんだ。従来、Zwicker法が大きさの計算の標準として使われていたけど、新しく導入されたMoore-Glasberg法みたいな方法が、SQMモデルに変更を要求してきて、正確さを保つために必要なんだ。
なぜ音質指標を更新するの?
大きさの計算方法が進化してきたんだ。Zwicker法は長年の実績があるけど、公式に見直されたんだ。Moore-Glasberg法は静かな音には役立つけど、時間とともに変わる音にはあんまり効果的じゃない。これがラフネスやフラクチュエーション強度みたいな指標のために正確なSQMモデルを作るのに困難をもたらしてるんだ。
Moore-Glasberg法で使われる典型的な聴覚フィルターバンクは、他の方法と同じ反応をしないから、正確なSQMモデルを導き出すのが難しい。だから、時間領域のフィルターバンク、特にガンマトーンとガンマチップフィルターバンクを使うことを提案するよ。
大きさ計算の提案方法
大きさを計算するには、従来の方法を時間領域のガンマトーンまたはガンマチップ聴覚フィルターバンクに置き換えることを提案するよ。この変更で、より効果的に大きさを計算できて、ISO 532-2の更新された基準にもより合致するんだ。
提案する方法は以下に集中してる:
- 入力音をフィルタリングして耳の働きを模倣する。
- 音を周波数チャネルに分けるために選んだフィルターバンクを使う。
- 特定の大きさを計算するために、これらのフィルターの出力を分析して結果を合計する。
聴覚フィルターバンク
ガンマトーンフィルターバンク
ガンマトーンフィルターバンクは、音をどう感じるかを模倣してる。特定のフィルタリング技術を使って音の周波数成分を分析できるんだ。このアプローチは、いろんな音がどんなふうに相互作用しているか、そして周波数内容に基づいてどう感じられるかを理解する手助けをするんだ。
ガンマチップフィルターバンク
ガンマチップフィルターバンクは、音圧レベルによる聴覚反応の違いに対処することで、ガンマトーンフィルターバンクを改善してる。特に、音の大きさが変わるときにどんなふうに感じるかを効果的にキャッチするんだ。
興奮からの大きさ計算
フィルターバンクを通して音を処理したら、内耳が音にどう反応するかを模擬できるんだ。これを達成するためのステップは以下の通り:
- フィルターからの出力を整流して負の値を取り除く。
- 結果を二乗して大きな音を強調する。
- 時間的に反応をスムーズにするためにローパスフィルターを適用する。
出力は、私たちの聴覚システムが音にどう反応するかに基づいて、大きさのより明確な図を提供するよ。
音質指標
シャープネス
シャープネスは音の明るさや明瞭さを測る指標なんだ。提案されるシャープネスモデルは、分析対象の音の大きさを考慮するよ。平均周波数内容を計算することで、古いモデルに比べてより正確にシャープネスを評価できるんだ。
ラフネス
ラフネスは、音の感じられるテクスチャーとその変動を指すよ。提案するラフネスモデルは、時間にわたる大きさの変動を分析し、それが人間の感覚とどう相関しているかを考慮するんだ。このモデルは、変調周波数や音圧レベルなどの要素を考慮して、正確なラフネス指標を提供するよ。
フラクチュエーション強度
フラクチュエーション強度は、音の大きさがどれだけ急速に変わるかを測る。提案されるこの指標に対するモデルはラフネスのアプローチを反映してるけど、変動の感覚を生み出す変調周波数に焦点を当ててるんだ。これが音がどれだけダイナミックに感じられるかを正確に評価するのに役立つよ。
提案モデルの評価
提案した方法を検証するために、計算した大きさ、シャープネス、ラフネス、フラクチュエーション強度を既存の人間データと比較したんだ。結果は、新しいモデルがこれらの指標を予測する際にエラーが少ないことを示していて、その効果を証明しているよ。
大きさの評価
いろんな周波数の音を使って、私たちの方法で大きさを計算し、Moore-Glasberg法の結果と比較した。結果はほぼ一致していて、私たちの提案する大きさ計算の正確さを裏付けてる。
シャープネスの評価
私たちの提案するシャープネスモデルの両バージョンは、古いモデルと比べて改善が見られた。私たちのモデルからのシャープネス指標は人間の感覚に非常に近くなったから、実用的なアプリケーションでより信頼できるんだ。
ラフネスの評価
提案するラフネスモデルは、さまざまな変調周波数を評価する際に古いモデルよりも優れた結果を出した。結果は人間のラフネス感覚に密接に一致していて、モデルの正確さを際立たせてる。
フラクチュエーション強度の評価
フラクチュエーション強度に対する評価でも、私たちの提案モデルが以前のモデルよりも優れた推定を提供したことがわかる、特に異なる変調周波数や音圧レベルに関して。
結論
まとめると、大きさと関連する音質指標の計算方法は、現在の聴覚認知の理解により合致している。時間領域のガンマトーンとガンマチップフィルターバンクを利用することで、シャープネス、ラフネス、フラクチュエーション強度の指標の正確さを向上できるんだ。
さらに、これらのモデルを改善して、時間とともに変化する音をより適切に扱えるようにして、音質測定の既存の方法を引き続き進化させていくつもりだよ。
タイトル: Computational models of sound-quality metrics using method for calculating loudness with gammatone/gammachirp auditory filterbank
概要: Sound-quality metrics (SQMs), such as sharpness, roughness, and fluctuation strength, are calculated using a standard method for calculating loudness (Zwicker method, ISO532B, 1975). Since ISO 532 had been revised to contain the Zwicker method (ISO 5321) and Moore-Glasberg method (ISO 532-2) in 2017, the classical computational SQM model should also be revised in accordance with these revisions. A roex auditory filterbank used with the Moore-Glasberg method is defined separately in the frequency domain not to have impulse responses. It is therefore difficult to construct a computational SQM model, e.g., the classical computational SQM model, on the basis of ISO 532-2. We propose a method for calculating loudness using the time-domain gammatone or gammachirp auditory filterbank instead of the roex auditory filterbank to solve this problem. We also propose three computational SQM models based on ISO 532-2 to use with the proposed loudness method. We evaluated the root-mean squared errors (RMSEs) of the calculated loudness with the proposed and Moore-Glasberg methods. We then evaluated the RMSEs of the calculated SQMs with the proposed method and human data of SQMs. We found that the proposed method can be considered as a time-domain method for calculating loudness on the basis of ISO 532-2 because the RMSEs are very small. We also found that the proposed computational SQM models can effectively account for the human data of SQMs compared with the classical computational SQM model in terms of RMSEs.
著者: Takuto Isoyama, Shunsuke Kidani, Masashi Unoki
最終更新: 2023-05-18 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.13213
ソースPDF: https://arxiv.org/pdf/2305.13213
ライセンス: https://creativecommons.org/publicdomain/zero/1.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/lppl.txt
- https://jstorage-2018.jaist.ac.jp/s/8Wk6tgt4LS6YTDo
- https://doi.org/10.1016/j.apacoust.2008.09.015
- https://doi.org/10.1016/j.apacoust.2018.01.027
- https://doi.org/10.1016/j.apacoust.2020.107479
- https://doi.org/10.1016/j.apacoust.2022.108839
- https://doi.org/10.1121/1.5016193
- https://doi.org/10.1250/ast.20.397
- https://doi.org/10.48465/fa.2020.0701
- https://doi.org/10.2299/jsp.25.141
- https://doi.org/10.1121/2.0000410
- https://doi.org/10.1016/0378-5955
- https://doi.org/10.1121/1.417975
- https://doi.org/10.1121/1.2228539
- https://doi.org/10.1121/1.1367253
- https://doi.org/10.1109/TASL.2006.874669