Méthodes innovantes pour évaluer la qualité audio
De nouvelles techniques inspirées du traitement d'images améliorent l'évaluation de la qualité audio.
― 8 min lire
Table des matières
La qualité audio est super importante pour kiffer la musique et les sons. Mais, mesurer à quel point l’audio est bon peut être un peu compliqué. Dans cet article, on va voir une nouvelle manière d’évaluer la qualité audio en utilisant des outils qui évaluent généralement les images. En représentant l'audio sous forme de Spectrogrammes, qui montrent visuellement les fréquences sonores dans le temps, on espère trouver de meilleures méthodes pour comprendre la qualité audio.
Contexte
Traditionnellement, mesurer la qualité audio repose sur des méthodes basiques ou des modèles compliqués qui sont durs à comprendre. Pour la parole, y’a quelques outils dispo, mais l’évaluation de la qualité de la musique est souvent à la traîne. Les méthodes utilisées se concentrent généralement sur des propriétés physiques, comme le bruit présent dans l’audio.
À l'inverse, le domaine de l'imagerie a développé plein de modèles perceptuels pour aider à mesurer la qualité des images. Ces méthodes prennent en compte comment les humains perçoivent les images, ce qui les rend plus efficaces dans certains cas. On pense qu’on peut appliquer des concepts similaires pour évaluer la qualité audio.
Lien entre le traitement audio et visuel
Des recherches ont montré que nos cerveaux traitent le son et les images de manière similaire. Par exemple, les deux systèmes peuvent s’ajuster à des facteurs comme la luminosité des images et le volume des sons. Ces traits communs peuvent nous aider à créer de meilleures méthodes pour mesurer la qualité audio en empruntant des idées au traitement des images.
Un concept clé est la Normalisation divisive, qui concerne la façon dont fonctionnent les systèmes visuels et auditifs. Dans l'imagerie, ça a aidé à comprendre la structure et la qualité des images. Donc, ça peut aussi améliorer les métriques de qualité audio en considérant comment les sons sont traités de manière similaire.
Utilisation des spectrogrammes
Pour relier les métriques de qualité audio et image, on peut utiliser des spectrogrammes. Ces images représentent les signaux audio comme une grille 2D, où un axe est le temps et l'autre la fréquence. Chaque point de la grille montre à quel point le son est puissant à un moment et une fréquence spécifiques, un peu comme les images montrent couleur et luminosité.
En traitant l'audio comme ça, on peut appliquer des modèles conçus pour les images afin d’évaluer la qualité audio. Cette méthode peut nous permettre de tirer parti des connaissances déjà acquises dans le traitement des images.
Approche proposée
La première étape de notre approche est de tester si des métriques de qualité d'image connues peuvent faire mieux que des métriques audio spécialement conçues. On utilise un ensemble de données contenant des extraits de musique, en testant comment les métriques se corrèlent avec les avis humains sur la qualité audio. Les avis humains sont cruciaux, car ils reflètent des expériences réelles.
On personnalise aussi une des métriques de qualité d'image pour prendre en compte comment le son se comporte. Ça implique de faire des ajustements basés sur les facteurs qui affectent la perception audio, en mettant l'accent sur les caractéristiques qui comptent le plus.
Métriques de qualité
Les métriques de qualité visent à quantifier à quel point deux exemples audio se ressemblent ou diffèrent en fonction de la perception humaine. Pour ça, on peut projeter les données audio dans un espace significatif et déterminer à quel point deux morceaux d'audio sont éloignés l'un de l'autre.
Métriques de qualité d'image
Les métriques de qualité d'image tombent généralement dans deux catégories. La première est la similarité structurelle, qui compare la structure globale des images. La seconde est la visibilité des erreurs, qui mesure à quel point les défauts des images sont visibles pour les spectateurs.
Par exemple, la similarité structurelle multi-échelles (MS-SSIM) mesure la similarité structurelle à différents niveaux de détail. Une autre métrique, la distance de pyramide laplacienne normalisée (NLPD), évalue à quel point les erreurs sont visibles en incorporant le traitement biologique qu'on trouve dans notre système visuel. Ce processus peut également être important pour évaluer la qualité audio.
Métriques de qualité audio
Il existe plusieurs métriques de qualité audio, mais elles peuvent varier en efficacité. La Distance Audio de Fréchet (FAD) est une métrique utilisée pour évaluer l’audio généré en le comparant à des références de haute qualité. Le listener objectif de qualité de la parole virtuelle (ViSQOL) évalue la qualité audio perceptuelle en analysant les spectrogrammes.
Ces métriques sont complétées par des modèles d'apprentissage basés sur des données audio passées pour prédire comment les humains perçoivent la qualité audio.
Adaptation de NLPD pour l'audio
La distance de pyramide laplacienne normalisée (NLPD) sert d'exemple précieux sur comment adapter des métriques d'image existantes pour l'évaluation audio. NLPD implique un processus de compression et d'encodage, décomposant une image en plusieurs niveaux de détail. En optimisant cette métrique pour l'audio, on peut capturer des caractéristiques importantes liées à la qualité sonore.
Cette adaptation nécessite de comprendre comment les signaux sonores et les images interagissent avec certains processus. Pour l’audio, on cherche à apprendre des poids qui aident à façonner comment on interprète le son, permettant de créer des métriques qui reflètent précisément la perception humaine.
Tester la méthode proposée
Pour évaluer notre méthode, on a rassemblé un ensemble de données de clips musicaux qui incluent diverses distorsions audio. Chaque clip a été noté par des individus pour déterminer sa qualité. Cet ensemble de données fournit une base pour tester à quel point les métriques de qualité d'image se transfèrent à l'évaluation de la qualité audio.
On suit un processus de formation et de test où on évalue plusieurs clips audio. Chaque clip est transformé en spectrogrammes, et on applique les métriques pour évaluer la qualité en fonction des retours humains.
Résultats
Les résultats ont montré une tendance surprenante. Les métriques de qualité d'image, en particulier celles qu'on a adaptées, ont souvent surpassé les métriques audio traditionnelles dans la plupart des distorsions. Cependant, pour certains cas, comme les filtres passe-bas, les métriques audio ont légèrement mieux performé.
Le réglage de NLPD pour l'audio révèle qu'il peut fournir des informations précieuses sur la qualité audio. Les corrélations avec les avis humains suggèrent qu'adapter les métriques d'image peut bénéficier à l'évaluation audio de manière significative.
Discussion
Analyser les résultats met en avant le potentiel d'utiliser des métriques de qualité d'image pour évaluer l'audio. Cette étude souligne l'importance de continuer à explorer la relation entre le traitement visuel et auditif.
Le processus de normalisation divisive booste significativement l'exactitude des métriques quand il est utilisé pour l'audio, reflétant comment nos cerveaux interprètent le son. Cependant, il y a des variations selon le type de distorsion, ce qui suggère qu'une investigation plus profonde est nécessaire pour mieux comprendre ces relations.
Directions futures
On reconnait le besoin de plus d'ensembles de données en libre accès qui se concentrent sur l'évaluation de la qualité audio, similaire à ce qui existe dans le domaine de l'image. Cette expansion est cruciale pour améliorer la façon dont la qualité audio est évaluée et comprise.
En avançant, on prévoit de rechercher comment la normalisation divisive pourrait être adaptée encore plus pour les signaux audio. Cela pourrait impliquer de créer différents filtres pour le temps et la fréquence, améliorant l’efficacité du modèle.
On compte aussi utiliser les nouvelles métriques développées dans des modèles génératifs, visant des échantillons audio qui imitent des sons de haute qualité avec moins de distorsions perceptuelles. En plus, on va explorer comment différentes méthodologies de formation peuvent mieux guider les participants pour évaluer la qualité audio.
En affinant notre approche pour mesurer la qualité audio, on espère améliorer comment les modèles audio s'alignent sur les attentes humaines. Ce travail peut renforcer la confiance et la transparence des résultats produits par les modèles audio génératifs, bénéficiant finalement à la communauté audio au sens large.
Titre: What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics
Résumé: In this study, we investigate the feasibility of utilizing state-of-the-art image perceptual metrics for evaluating audio signals by representing them as spectrograms. The encouraging outcome of the proposed approach is based on the similarity between the neural mechanisms in the auditory and visual pathways. Furthermore, we customise one of the metrics which has a psychoacoustically plausible architecture to account for the peculiarities of sound signals. We evaluate the effectiveness of our proposed metric and several baseline metrics using a music dataset, with promising results in terms of the correlation between the metrics and the perceived quality of audio as rated by human evaluators.
Auteurs: Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez, Valero Laparra, Jesus Malo
Dernière mise à jour: 2023-08-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.11582
Source PDF: https://arxiv.org/pdf/2305.11582
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.