BWSNet : Faire avancer l'évaluation de la perception audio
Un nouveau modèle évalue la perception audio grâce aux retours humains en utilisant le Best-Worst Scaling.
― 7 min lire
Table des matières
- L'importance de l'évaluation perceptuelle
- Qu'est-ce que le Best-Worst Scaling ?
- Présentation de BWSNet
- Comment fonctionne BWSNet
- Entraînement de BWSNet
- Étude I : Attitudes sociales de la parole
- Étude II : Timbre instrumental
- Le chemin vers l'amélioration
- Évaluation des performances du modèle
- Résultats des études
- Analyse des résultats de BWSNet
- Espaces latents pour les attitudes sociales
- Espaces latents pour le timbre
- Conclusion
- Source originale
BWSNet est un nouveau modèle conçu pour évaluer comment les gens perçoivent les signaux audio. Il apprend grâce à des retours humains récoltés avec une méthode appelée Best-Worst Scaling (BWS). En gros, ça veut dire que les participants écoutent des échantillons audio et indiquent quels sont les meilleurs et les pires en fonction de certaines qualités. BWSNet utilise ces retours pour créer une représentation de l'audio qui reflète fidèlement la perception humaine.
L'importance de l'évaluation perceptuelle
Quand on veut comprendre comment les gens réagissent au son, on s'appuie souvent sur des expériences. Dans ces expériences, les participants écoutent des échantillons audio et les notent sur des qualités comme la qualité, le naturel ou le ton émotionnel. Ces méthodes peuvent impliquer des systèmes différents comme des comparaisons par paires ou des échelles de notation. Bien que ces méthodes soient efficaces, elles ont souvent des biais, ce qui signifie que les résultats peuvent varier selon la manière dont les questions sont posées ou comment les échantillons sont présentés.
Avec les avancées technologiques en matière de son, il y a un besoin plus grand d’évaluer précisément les sorties audio. Les méthodes courantes, comme demander aux participants de noter les échantillons sur une échelle, peuvent parfois ne pas être à la hauteur par rapport aux mesures objectives. C'est pourquoi les chercheurs cherchent de meilleures façons de recueillir des retours.
Qu'est-ce que le Best-Worst Scaling ?
Le Best-Worst Scaling (BWS) est une méthode unique où les participants voient plusieurs éléments (comme des échantillons audio) et doivent choisir le meilleur et le pire en fonction des qualités étudiées. Cette méthode est considérée comme plus fiable que les échelles de notation traditionnelles parce qu'elle aide à recueillir des informations sur ce que les gens ressentent vraiment par rapport à différents sons.
Cependant, un défi avec le BWS est qu'il nécessite beaucoup d'input humain pour être efficace, ce qui peut coûter cher et prendre du temps. Pour résoudre ce problème, les chercheurs explorent des moyens d'automatiser le processus d'évaluation.
Présentation de BWSNet
BWSNet est un modèle développé pour évaluer automatiquement les signaux audio en utilisant les données BWS. Contrairement aux méthodes qui prédisent des scores basés sur des notations passées, BWSNet se concentre sur la compréhension des relations entre différents échantillons audio. Il apprend à représenter ces échantillons dans un espace mathématique où la distance entre eux correspond à leur similarité ou différence en fonction des retours humains.
L'idée principale est de mapper les échantillons audio dans cet espace spécial et de le concevoir de manière à refléter fidèlement les opinions humaines.
Comment fonctionne BWSNet
Pour entraîner BWSNet, les développeurs utilisent des Mel-spectrogrammes, qui sont des représentations visuelles du son. Ce type de représentation a montré qu'il capture des qualités importantes du son, comme les caractéristiques de la parole. Quand les échantillons audio sont entrés dans BWSNet, ils produisent ce qu'on appelle des "BWS embeddings". Ces embeddings changent à mesure que le modèle apprend, lui permettant de mieux refléter les relations observées dans les jugements humains.
Pour ce faire, BWSNet interprète les choix meilleurs et pires faits par les participants lors des essais BWS comme des comparaisons de distance. Au fur et à mesure de l'entraînement, le modèle ajuste ces distances pour créer une représentation qui correspond aux jugements humains.
Entraînement de BWSNet
BWSNet est entraîné à l'aide de deux études principales.
Étude I : Attitudes sociales de la parole
Cette étude impliquait une collection d'échantillons de parole où des acteurs exprimaient différentes attitudes sociales, comme l'amabilité ou la dominance. Les participants ont noté ces échantillons pour aider le modèle à apprendre comment différentes attitudes sont perçues à travers le son.
Étude II : Timbre instrumental
Dans la deuxième étude, des experts en son ont évalué un large éventail d'échantillons d'instruments de musique basés sur des qualités timbrales telles que la brillance et la chaleur. L'objectif était de voir comment ces différents sons pouvaient être représentés de manière à capturer leurs caractéristiques uniques.
Le chemin vers l'amélioration
Pour rendre BWSNet efficace, les développeurs ont dû s'assurer qu'il pouvait apprendre avec précision des relations entre les échantillons. Ils ont fait cela en concevant des fonctions de perte spécifiques, qui guident le processus d'entraînement, en veillant à ce que le modèle ajuste sa compréhension des échantillons sonores de manière significative.
Cela a impliqué la création de marges dynamiques qui tiennent compte de la différence entre les échantillons, aidant à affiner encore plus les prédictions du modèle.
Évaluation des performances du modèle
Après l'entraînement, BWSNet a été évalué pour voir à quel point il pouvait prédire les relations entre des échantillons audio non vus. Les développeurs ont utilisé plusieurs métriques pour mesurer le succès, vérifiant à quel point le modèle remplissait fidèlement les relations indiquées par les participants dans les études originales.
Résultats des études
BWSNet a montré des résultats prometteurs. Pour les attitudes de la parole, il a correctement identifié environ 70 % des relations impliquant de nouveaux échantillons, ce qui indique qu'il comprend comment ces échantillons se rapportent aux perceptions humaines. Pour les données timbrales, l'exactitude était un peu plus basse, autour de 56 %, mais ces résultats soulignent toujours le potentiel de BWSNet pour diverses applications de tâches audio.
Analyse des résultats de BWSNet
Pour comprendre ce que le modèle a appris, les chercheurs ont examiné la sortie de BWSNet. Ils ont analysé comment différents échantillons audio étaient arrangés dans l'espace latent, qui est la représentation mathématique que BWSNet a créée pendant le traitement des données d'entraînement.
Espaces latents pour les attitudes sociales
L'analyse a révélé des arrangements distincts pour différentes attitudes sociales. Par exemple, les échantillons notés haut en amabilité étaient positionnés loin de ceux notés bas en amabilité. Cette découverte suggère que BWSNet a efficacement capturé les perceptions variées des attitudes sociales.
Espaces latents pour le timbre
En examinant les qualités timbrales, le modèle a révélé que les échantillons présentaient des relations complexes. Les sons partageant des qualités timbrales similaires étaient regroupés plus près les uns des autres dans l'espace latent, montrant comment BWSNet pouvait comprendre et visualiser ces interactions.
Conclusion
BWSNet représente un pas important vers l'automatisation de l'évaluation perceptuelle de l'audio. Le modèle réussit à mapper les échantillons audio dans un espace qui représente la perception humaine, remplissant la majorité des relations même avec des échantillons non vus. Cette capacité signifie que BWSNet a un fort potentiel pour être utilisé dans diverses tâches nécessitant une évaluation audio.
Alors que les chercheurs continuent de peaufiner le modèle et de recueillir plus de données, il est probable que BWSNet ne fasse qu'améliorer. Les informations tirées de ce modèle non seulement améliorent notre compréhension de la perception audio mais ouvrent aussi la voie à de futures innovations dans les technologies d'évaluation sonore.
Titre: BWSNet: Automatic Perceptual Assessment of Audio Signals
Résumé: This paper introduces BWSNet, a model that can be trained from raw human judgements obtained through a Best-Worst scaling (BWS) experiment. It maps sound samples into an embedded space that represents the perception of a studied attribute. To this end, we propose a set of cost functions and constraints, interpreting trial-wise ordinal relations as distance comparisons in a metric learning task. We tested our proposal on data from two BWS studies investigating the perception of speech social attitudes and timbral qualities. For both datasets, our results show that the structure of the latent space is faithful to human judgements.
Auteurs: Clément Le Moine Veillon, Victor Rosi, Pablo Arias Sarah, Léane Salais, Nicolas Obin
Dernière mise à jour: 2024-01-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.02592
Source PDF: https://arxiv.org/pdf/2309.02592
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.