Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Son

BWSNet : Faire avancer l'évaluation de la perception audio

Un nouveau modèle évalue la perception audio grâce aux retours humains en utilisant le Best-Worst Scaling.

― 7 min lire


BWSNet : Modèle deBWSNet : Modèle dePerception Audioaudio en utilisant le retour humain.Un modèle qui évalue la perception
Table des matières

BWSNet est un nouveau modèle conçu pour évaluer comment les gens perçoivent les signaux audio. Il apprend grâce à des retours humains récoltés avec une méthode appelée Best-Worst Scaling (BWS). En gros, ça veut dire que les participants écoutent des échantillons audio et indiquent quels sont les meilleurs et les pires en fonction de certaines qualités. BWSNet utilise ces retours pour créer une représentation de l'audio qui reflète fidèlement la perception humaine.

L'importance de l'évaluation perceptuelle

Quand on veut comprendre comment les gens réagissent au son, on s'appuie souvent sur des expériences. Dans ces expériences, les participants écoutent des échantillons audio et les notent sur des qualités comme la qualité, le naturel ou le ton émotionnel. Ces méthodes peuvent impliquer des systèmes différents comme des comparaisons par paires ou des échelles de notation. Bien que ces méthodes soient efficaces, elles ont souvent des biais, ce qui signifie que les résultats peuvent varier selon la manière dont les questions sont posées ou comment les échantillons sont présentés.

Avec les avancées technologiques en matière de son, il y a un besoin plus grand d’évaluer précisément les sorties audio. Les méthodes courantes, comme demander aux participants de noter les échantillons sur une échelle, peuvent parfois ne pas être à la hauteur par rapport aux mesures objectives. C'est pourquoi les chercheurs cherchent de meilleures façons de recueillir des retours.

Qu'est-ce que le Best-Worst Scaling ?

Le Best-Worst Scaling (BWS) est une méthode unique où les participants voient plusieurs éléments (comme des échantillons audio) et doivent choisir le meilleur et le pire en fonction des qualités étudiées. Cette méthode est considérée comme plus fiable que les échelles de notation traditionnelles parce qu'elle aide à recueillir des informations sur ce que les gens ressentent vraiment par rapport à différents sons.

Cependant, un défi avec le BWS est qu'il nécessite beaucoup d'input humain pour être efficace, ce qui peut coûter cher et prendre du temps. Pour résoudre ce problème, les chercheurs explorent des moyens d'automatiser le processus d'évaluation.

Présentation de BWSNet

BWSNet est un modèle développé pour évaluer automatiquement les signaux audio en utilisant les données BWS. Contrairement aux méthodes qui prédisent des scores basés sur des notations passées, BWSNet se concentre sur la compréhension des relations entre différents échantillons audio. Il apprend à représenter ces échantillons dans un espace mathématique où la distance entre eux correspond à leur similarité ou différence en fonction des retours humains.

L'idée principale est de mapper les échantillons audio dans cet espace spécial et de le concevoir de manière à refléter fidèlement les opinions humaines.

Comment fonctionne BWSNet

Pour entraîner BWSNet, les développeurs utilisent des Mel-spectrogrammes, qui sont des représentations visuelles du son. Ce type de représentation a montré qu'il capture des qualités importantes du son, comme les caractéristiques de la parole. Quand les échantillons audio sont entrés dans BWSNet, ils produisent ce qu'on appelle des "BWS embeddings". Ces embeddings changent à mesure que le modèle apprend, lui permettant de mieux refléter les relations observées dans les jugements humains.

Pour ce faire, BWSNet interprète les choix meilleurs et pires faits par les participants lors des essais BWS comme des comparaisons de distance. Au fur et à mesure de l'entraînement, le modèle ajuste ces distances pour créer une représentation qui correspond aux jugements humains.

Entraînement de BWSNet

BWSNet est entraîné à l'aide de deux études principales.

Étude I : Attitudes sociales de la parole

Cette étude impliquait une collection d'échantillons de parole où des acteurs exprimaient différentes attitudes sociales, comme l'amabilité ou la dominance. Les participants ont noté ces échantillons pour aider le modèle à apprendre comment différentes attitudes sont perçues à travers le son.

Étude II : Timbre instrumental

Dans la deuxième étude, des experts en son ont évalué un large éventail d'échantillons d'instruments de musique basés sur des qualités timbrales telles que la brillance et la chaleur. L'objectif était de voir comment ces différents sons pouvaient être représentés de manière à capturer leurs caractéristiques uniques.

Le chemin vers l'amélioration

Pour rendre BWSNet efficace, les développeurs ont dû s'assurer qu'il pouvait apprendre avec précision des relations entre les échantillons. Ils ont fait cela en concevant des fonctions de perte spécifiques, qui guident le processus d'entraînement, en veillant à ce que le modèle ajuste sa compréhension des échantillons sonores de manière significative.

Cela a impliqué la création de marges dynamiques qui tiennent compte de la différence entre les échantillons, aidant à affiner encore plus les prédictions du modèle.

Évaluation des performances du modèle

Après l'entraînement, BWSNet a été évalué pour voir à quel point il pouvait prédire les relations entre des échantillons audio non vus. Les développeurs ont utilisé plusieurs métriques pour mesurer le succès, vérifiant à quel point le modèle remplissait fidèlement les relations indiquées par les participants dans les études originales.

Résultats des études

BWSNet a montré des résultats prometteurs. Pour les attitudes de la parole, il a correctement identifié environ 70 % des relations impliquant de nouveaux échantillons, ce qui indique qu'il comprend comment ces échantillons se rapportent aux perceptions humaines. Pour les données timbrales, l'exactitude était un peu plus basse, autour de 56 %, mais ces résultats soulignent toujours le potentiel de BWSNet pour diverses applications de tâches audio.

Analyse des résultats de BWSNet

Pour comprendre ce que le modèle a appris, les chercheurs ont examiné la sortie de BWSNet. Ils ont analysé comment différents échantillons audio étaient arrangés dans l'espace latent, qui est la représentation mathématique que BWSNet a créée pendant le traitement des données d'entraînement.

Espaces latents pour les attitudes sociales

L'analyse a révélé des arrangements distincts pour différentes attitudes sociales. Par exemple, les échantillons notés haut en amabilité étaient positionnés loin de ceux notés bas en amabilité. Cette découverte suggère que BWSNet a efficacement capturé les perceptions variées des attitudes sociales.

Espaces latents pour le timbre

En examinant les qualités timbrales, le modèle a révélé que les échantillons présentaient des relations complexes. Les sons partageant des qualités timbrales similaires étaient regroupés plus près les uns des autres dans l'espace latent, montrant comment BWSNet pouvait comprendre et visualiser ces interactions.

Conclusion

BWSNet représente un pas important vers l'automatisation de l'évaluation perceptuelle de l'audio. Le modèle réussit à mapper les échantillons audio dans un espace qui représente la perception humaine, remplissant la majorité des relations même avec des échantillons non vus. Cette capacité signifie que BWSNet a un fort potentiel pour être utilisé dans diverses tâches nécessitant une évaluation audio.

Alors que les chercheurs continuent de peaufiner le modèle et de recueillir plus de données, il est probable que BWSNet ne fasse qu'améliorer. Les informations tirées de ce modèle non seulement améliorent notre compréhension de la perception audio mais ouvrent aussi la voie à de futures innovations dans les technologies d'évaluation sonore.

Plus d'auteurs

Articles similaires