Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Apprentissage automatique# Traitement de l'audio et de la parole

Prédire les préférences de qualité audio à travers des données personnelles

Cette étude examine comment les détails personnels influencent les préférences en matière de qualité audio.

― 6 min lire


Étude sur la prédictionÉtude sur la prédictiondes préférences audioaudio.personnelles influencent les choixAnalyser comment les données
Table des matières

Cet article parle de comment prédire quelle Qualité audio les gens préfèrent quand ils écoutent la même chanson dans différents formats, en utilisant à la fois des entrées sonores et des infos sur les auditeurs. L'objectif est de comprendre quel segment audio les auditeurs aiment mieux selon leurs détails personnels et la qualité de l'audio.

Contexte

La qualité audio est super importante pour plein d'activités comme écouter de la musique, participer à des réunions en ligne ou profiter de podcasts. Les gens choisissent souvent leur téléphone en fonction de la qualité audio quand ils écoutent de la musique ou passent des appels. Donc, savoir comment mesurer et prédire les Préférences de qualité audio peut vraiment améliorer l'expérience d'écoute pour de nombreux utilisateurs.

Certaines études se sont concentrées sur la manière dont tout le monde évalue la qualité audio en moyenne, tandis que d'autres ont essayé de faire des prédictions selon les goûts personnels. Par exemple, certains chercheurs ont classé les utilisateurs en groupes et utilisé ces catégories pour évaluer des segments audio. D'autres ont ajouté des infos personnelles comme l'âge et le sexe pour voir si ces facteurs influençaient les préférences musicales.

Ce qu'on essaie de faire

Contrairement aux études précédentes qui se contentaient de regarder des scores généraux, cette étude vise à rassembler des données sur des individus pour prédire leurs préférences pour deux clips audio qui ont le même contenu mais une qualité différente. On examine différents designs de réseau et types de données personnelles pour voir quelles combinaisons fonctionnent le mieux pour prédire les préférences audio.

Collecte de données

Pour rassembler des clips audio, on a sélectionné des segments de chansons et les a joués sur différents appareils, en enregistrant les résultats. On a utilisé sept segments de chansons pop dans différentes langues. Chaque clip dure environ 10 à 15 secondes et a été joué sur cinq téléphones différents à deux niveaux de volume : volume maximal et volume normal.

Le matériel d'enregistrement incluait un microphone binaural et une interface informatique pour capturer le son de manière précise. On s'est assuré que la configuration était la même pour tous les enregistrements, y compris la distance entre le microphone et le téléphone.

Après l'enregistrement, on a créé des questionnaires pour les auditeurs. Chaque questionnaire contenait des paires de clips audio, chaque paire provenant de téléphones différents. Les Participants ont écouté ces paires et ont choisi celle qu'ils préféraient. Ils ont évalué leurs choix sur une échelle de 1 à 5, les nombres plus élevés indiquant une préférence plus forte pour le deuxième clip audio. On a converti ces scores dans une plage de -2 à 2 pour faciliter l'analyse.

Participants

Un total de 31 personnes ont participé à l'étude, dont 27 hommes et 4 femmes, âgés de 21 à 46 ans. On a collecté des infos sur leurs modèles et spécifications de casques, comme l'impédance, la réponse en fréquence et la sensibilité. Après avoir filtré les données incomplètes, on a fini avec 23 participants et 2 000 paires d'évaluations audio.

Structure du modèle

Pour prédire les préférences audio, on a utilisé une structure appelée réseau siamois. Cette approche permet au modèle de comparer deux clips audio et de décider lequel est préféré. La structure contient différentes parties conçues pour traiter les infos audio seules, les infos personnelles seules, ou les deux combinées.

  1. Entrée audio seulement : Un modèle simple qui utilise uniquement des caractéristiques audio.
  2. Combinaison audio et infos subjectives tardivement : Ce modèle prend à la fois des caractéristiques audio et des Informations personnelles, les combinant plus tard dans le processus.
  3. Combinaison tôt : Dans ce cas, les détails personnels sont fusionnés avec les données audio plus tôt dans le modèle.
  4. Information parallèle : Les détails personnels sont utilisés comme outils pour traiter l'audio en parallèle avec l'entrée audio.

Entraînement et test du modèle

On a divisé les participants en différents groupes pour tester la capacité du modèle à prédire les préférences pour des gens qu'il n'a pas déjà vus. Chaque groupe de test a été validé avec un groupe d'âge différent. On a fait le processus d'entraînement pendant 50 époques, en s'arrêtant plus tôt si la performance du modèle ne s'améliorait pas.

On a utilisé un ordinateur avec une grande puissance de traitement pour entraîner le modèle.

Résultats

Après avoir évalué divers modèles, on a découvert que le modèle combinant audio et infos personnelles fonctionnait mieux que celui utilisant seulement l'audio. L'exactitude s'est légèrement améliorée, mais cela a montré qu'inclure des infos personnelles aide à faire de meilleures prédictions.

Bien que certaines structures de modèle aient bien performé, d'autres ont eu du mal. Un modèle qui a essayé de combiner l'information trop tôt n'a pas fait aussi bien que prévu, probablement parce que la complexité a augmenté sans assez de données.

Importance des infos personnelles

On a aussi regardé combien de données personnelles affectent les prédictions. On a trouvé qu'utiliser juste l'âge et le sexe ne marchait pas aussi bien que d'utiliser des spécificités plus détaillées des casques. Quand on a combiné toutes les infos personnelles, le modèle a montré des performances plus constantes.

Conclusions et futures directions

Cette étude démontre qu'il est possible de prédire les préférences de qualité audio basées à la fois sur l'audio lui-même et sur les infos de l'auditeur. Les meilleurs résultats sont venus d'un modèle combinant différents types de données audio et personnelles.

Les recherches futures devraient se concentrer sur l'obtention d'une gamme d'âges plus large parmi les participants pour mieux voir comment l'âge affecte les préférences audio. De plus, collecter des infos sur les environnements et l'utilisation des auditeurs pourrait mener à des prédictions encore meilleures.

En comprenant ces préférences, on peut aider à améliorer les dispositifs audio et les services pour offrir les meilleures expériences d'écoute possibles.

Remerciements

Ce travail a été soutenu par une grande entreprise technologique, et on apprécie aussi les ressources fournies par un centre spécialisé en informatique haute performance.

Plus d'auteurs

Articles similaires