Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Calcul et langage# Apprentissage automatique# Son

Avancées dans la technologie de reconnaissance des émotions à partir de la voix

Nouvelles idées pour identifier les émotions dans la parole en utilisant des données sonores et des mots.

― 7 min lire


Percée dans laPercée dans lareconnaissance desémotions dans la paroleémotions au milieu du bruit.Les modèles améliorent la détection des
Table des matières

La reconnaissance des émotions dans la parole, c'est le truc pour identifier l'état émotionnel d'un orateur à partir de ce qu'il dit et de comment il le dit. Cette technologie est super importante pour rendre les interactions entre humains et ordinateurs plus fluides. Par exemple, les assistants vocaux pourraient être plus utiles et compréhensifs s'ils reconnaissent les émotions. En plus, ça peut aussi aider des applis de santé mentale, comme l'analyse vocale en thérapie.

Types d'Émotions

Les chercheurs étudient souvent les émotions de deux manières : les émotions discrètes et les émotions dimensionnelles. Les émotions discrètes comprennent des catégories claires comme la peur, la colère, la joie et la tristesse. Leur nombre peut varier de six à vingt-sept. Mais utiliser des émotions discrètes peut poser des problèmes de cohérence et rater des sentiments rares ou complexes.

D'un autre côté, les émotions dimensionnelles utilisent un modèle en trois dimensions. Ce modèle inclut :

  1. Activation : ça montre le niveau d'énergie dans la voix.
  2. Valence : ça indique si l'émotion est positive ou négative.
  3. Dominance : ça reflète à quel point une voix sonne forte ou faible.

Le Rôle des Modèles pré-entraînés

Les modèles pré-entraînés ont été utiles dans plein de domaines, comme la compréhension de la parole et du langage naturel. Pour la reconnaissance des émotions dans la parole, des modèles comme BERT et HuBERT créent des représentations détaillées des mots et des sons. Ça aide à transformer le langage parlé en formes que les ordinateurs peuvent choper.

Dans notre recherche, on a regardé comment ces modèles pré-entraînés pouvaient aider à estimer les dimensions émotionnelles à partir de la parole. On a remarqué que, pour estimer la valence, le sens des mots jouait un grand rôle. Par contre, pour l'activation et la dominance, la qualité du son était plus importante.

Fusion des Représentations

On a combiné différents types d'infos des modèles pré-entraînés pour faire de meilleures estimations des émotions dans la parole. Cette approche a vraiment amélioré notre capacité à déterminer la valence des émotions par rapport aux méthodes traditionnelles.

On a aussi examiné comment ces modèles pouvaient gérer le bruit de fond et les variations de qualité sonore. Étrangement, on a découvert que les représentations au niveau des mots s'en sortent mieux avec les distorsions que celles au niveau du son. Ça suggère qu'utiliser les deux types de données ensemble peut créer des modèles plus résistants.

Importance des Modèles Robustes

Les modèles de reconnaissance des émotions dans la parole doivent bien fonctionner même dans des environnements bruyants. Les appareils contrôlés par la voix tournent souvent dans des maisons où il y a des distractions comme le bruit des appareils, de la musique ou des conversations. Donc, c'est crucial d'évaluer comment ces modèles gèrent tout ce bruit de fond.

Des études précédentes ont montré que le bruit peut vraiment affecter les performances des systèmes de reconnaissance des émotions. Mais on n'a pas beaucoup regardé comment les modèles pré-entraînés résistent à ce bruit. Notre recherche voulait combler cette lacune.

Tester les Modèles

Pour analyser nos modèles, on a utilisé des données d'un gros dataset public avec des enregistrements de locuteurs anglophones. Ces enregistrements comprenaient de courts segments où les orateurs exprimaient des émotions. On a veillé à inclure des scores pour la valence, l'activation et la dominance pour guider nos évaluations.

On a ajouté différents niveaux de bruit aux enregistrements pour simuler des conditions de la vie réelle. Ça impliquait de reproduire des sons d'appareils ménagers courants. Le bruit était introduit à divers niveaux d'intensité pour voir comment les modèles étaient affectés.

Architecture du Modèle

On a utilisé une conception de modèle spécifique pour l'estimation des émotions. La structure de base consistait en une couche de convolution temporelle suivie de deux couches d'Unités Récurrentes Gated (GRUs). La sortie était traitée pour créer une couche finale qui prédit les émotions.

Pour les modèles à modalité unique (utilisant juste un type de données) et à modalité multiple (utilisant les données des mots et des sons), on a entraîné ces modèles. La combinaison de différents types de données a montré une augmentation significative des performances, surtout pour estimer la valence émotionnelle.

Évaluation des Performances

On a comparé les performances des différents modèles pour estimer les dimensions émotionnelles. Nos résultats ont montré que l'utilisation de modèles pré-entraînés – qu'on se concentre sur des sons ou des mots – améliorait significativement la précision de l'estimation de la valence par rapport à des modèles acoustiques traditionnels.

Dans des tests multi-modaux, où on a combiné des données sonores et de mots, on a obtenu les meilleures performances. Ça montre que l'utilisation de plusieurs sources d'infos renforce la capacité des modèles à évaluer les émotions avec précision.

Robustesse au Bruit

En examinant comment les modèles gèrent le bruit, on a observé que les caractéristiques acoustiques traditionnelles avaient du mal avec les sons de fond par rapport aux représentations des modèles pré-entraînés. Les embeddings lexicaux (données centrées sur les mots) étaient généralement plus résistants au bruit que leurs homologues acoustiques.

On a aussi testé l'efficacité d'ajouter du bruit pendant l'entraînement. Pour les modèles entraînés avec des données sonores, cette technique a amélioré leur capacité à gérer les conditions bruyantes. Néanmoins, le même niveau de bénéfice n'a pas été observé pour les modèles reposant sur des données de mots.

Distillation des Connaissances

Un autre aspect de notre recherche a impliqué de transférer des connaissances des modèles multi-modaux vers des modèles acoustiques plus simples. Ce processus, qu'on appelle distillation des connaissances, visait à améliorer les performances et la robustesse de ces modèles plus simples dans des environnements bruyants.

Nos résultats ont montré que distiller l'info des modèles multi-modaux a aidé à améliorer les performances des modèles acoustiques. Cette technique a montré sa valeur en offrant une meilleure robustesse contre les environnements bruyants.

Conclusions

Avec ce travail, on a établi que les représentations lexicales (basées sur les mots) et acoustiques (basées sur le son) jouent des rôles essentiels dans la reconnaissance des émotions à partir de la parole. Tandis que les représentations lexicales étaient efficaces pour déterminer la valence, elles n'étaient pas aussi utiles pour estimer l'activation et la dominance.

Les caractéristiques acoustiques de bas niveau avaient tendance à être plus sensibles au bruit mais pouvaient être améliorées grâce à des méthodes d'entraînement ciblées. La combinaison de différents types de représentations, ou fusion multi-modale, a permis d'obtenir de meilleures performances globales et une meilleure résistance au bruit de fond.

Dans nos futures études, on prévoit d'explorer comment les changements de contexte pourraient affecter la performance de ces modèles, notamment pour les caractéristiques au niveau des mots et leur capacité à estimer la valence avec précision. Ces recherches en cours peuvent mener à une meilleure compréhension et à une technologie améliorée dans le domaine de la reconnaissance des émotions dans la parole, ouvrant la voie à des interactions plus empathiques entre humains et machines.

Source originale

Titre: Pre-trained Model Representations and their Robustness against Noise for Speech Emotion Analysis

Résumé: Pre-trained model representations have demonstrated state-of-the-art performance in speech recognition, natural language processing, and other applications. Speech models, such as Bidirectional Encoder Representations from Transformers (BERT) and Hidden units BERT (HuBERT), have enabled generating lexical and acoustic representations to benefit speech recognition applications. We investigated the use of pre-trained model representations for estimating dimensional emotions, such as activation, valence, and dominance, from speech. We observed that while valence may rely heavily on lexical representations, activation and dominance rely mostly on acoustic information. In this work, we used multi-modal fusion representations from pre-trained models to generate state-of-the-art speech emotion estimation, and we showed a 100% and 30% relative improvement in concordance correlation coefficient (CCC) on valence estimation compared to standard acoustic and lexical baselines. Finally, we investigated the robustness of pre-trained model representations against noise and reverberation degradation and noticed that lexical and acoustic representations are impacted differently. We discovered that lexical representations are more robust to distortions compared to acoustic representations, and demonstrated that knowledge distillation from a multi-modal model helps to improve the noise-robustness of acoustic-based models.

Auteurs: Vikramjit Mitra, Vasudha Kowtha, Hsiang-Yun Sherry Chien, Erdrin Azemi, Carlos Avendano

Dernière mise à jour: 2023-03-03 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.03177

Source PDF: https://arxiv.org/pdf/2303.03177

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires