Personnaliser les systèmes de reconnaissance des émotions dans la parole
Adapter la technologie de reconnaissance des émotions améliore la précision pour des intervenants divers.
― 8 min lire
Table des matières
- L'Importance de la Personnalisation
- Résultats Clés et Méthodologie
- Contexte sur la Reconnaissance des Émotions dans la Parole
- Formulation du Problème
- L'Ensemble de Données
- Encodeur de Parole Pré-entraîné
- Aperçu des Méthodes Proposées
- Mise en Œuvre et Entraînement
- Évaluation des Performances
- Évaluation des Locuteurs Non Vus
- Discussion sur la Variabilité de la Performance des Locuteurs
- Conclusion
- Source originale
Les gens expriment leurs émotions de différentes manières, influencées par leur culture et leur personnalité. Cette variation peut rendre difficile pour les machines d'identifier correctement les émotions à partir de la parole. Pour améliorer ça, il est essentiel de personnaliser les systèmes de Reconnaissance des émotions dans la parole. En ajustant la technologie pour qu'elle corresponde à la façon dont chaque individu exprime ses émotions, on peut créer un modèle meilleur et plus précis qui reconnaît les sentiments d'un groupe diversifié de personnes.
Personnalisation
L'Importance de laLa reconnaissance des émotions dans la parole (SER) devient super importante maintenant que les technologies vocales sont partout. Bien que le SER ait beaucoup avancé, capter la vraie émotion derrière les paroles est encore compliqué. Plusieurs facteurs, comme le contexte culturel, le genre et l'âge, créent des différences dans l'expression émotionnelle. Personnaliser ces systèmes peut les rendre plus efficaces pour détecter les émotions spécifiques à chaque orateur.
La plupart des études actuelles sur la reconnaissance des émotions personnalisées s'appuient sur des caractéristiques de parole spécifiques et des ensembles de données avec très peu de locuteurs. Les avancées récentes utilisent de grands encodeurs de parole pré-entraînés, qui sont des modèles formés sur des ensembles de données vastes, ce qui leur permet de bien fonctionner. Cela soulève trois questions principales :
- Comment l'écart de performance dans la personnalisation change-t-il avec l'ajout de plus de locuteurs ?
- Comment les méthodes de personnalisation existantes fonctionnent-elles lorsque les caractéristiques de parole varient ?
- Comment intégrer la personnalisation dans des Modèles pré-entraînés pour améliorer les résultats ?
Pour répondre à ces questions, nous avons réalisé des expériences en utilisant un grand ensemble de données appelé MSP-Podcast, qui comprend plus de 1 000 locuteurs.
Résultats Clés et Méthodologie
Nos expériences ont montré que plus il y a de locuteurs inclus, plus l'écart de performance entre les modèles qui s'ajustent aux locuteurs et ceux qui ne le font pas tend à se réduire. Cela souligne la nécessité de méthodes personnalisées avant de peaufiner ces modèles pré-entraînés. Nous avons introduit une nouvelle façon de continuer l'entraînement de l'encodeur de parole avec des caractéristiques spécifiques aux locuteurs.
De plus, nous avons créé une méthode simple pour ajuster les étiquettes d'émotions prédites en fonction de locuteurs similaires. Cet ajustement utilise des locuteurs semblables du jeu d'entraînement pour corriger les résultats prédits pour les locuteurs de test. Cette technique est non supervisée, ce qui signifie qu'elle ne nécessite pas de connaissances préalables sur les étiquettes d'émotions, ce qui la rend plus facile à mettre en œuvre.
Les résultats expérimentaux se sont concentrés sur deux aspects des émotions : l'Excitation et la Valence. Nos méthodes ont non seulement surpassé les modèles existants, mais ont aussi obtenu les meilleurs résultats pour estimer la valence.
Contexte sur la Reconnaissance des Émotions dans la Parole
Le pré-entraînement adaptatif est un concept qui consiste à continuer l'entraînement d'un modèle sur des données spécifiques à un domaine ou une tâche. Cette approche a prouvé son efficacité dans des domaines comme le traitement du langage et la reconnaissance d'images. Cependant, il y a peu de recherches sur l'adaptation des modèles pré-entraînés spécifiquement pour la reconnaissance des émotions personnalisées.
Certaines méthodes ont été proposées, mais elles utilisent souvent des ensembles de données limités. Une méthode personnelle non supervisée tente d'associer des locuteurs dans l'ensemble d'entraînement avec ceux dans l'ensemble de test basés sur leurs schémas de parole. Cela a montré des résultats positifs, mais nécessite un entraînement supplémentaire, ce qui le rend moins polyvalent pour de nouveaux locuteurs.
En revanche, notre travail se concentre sur l'utilisation de modèles affinés au lieu de caractéristiques fixes, ce qui mène à de meilleures performances. Nos résultats indiquent que peaufiner le modèle pour chaque locuteur avant les tests mène à une reconnaissance des émotions plus précise.
Formulation du Problème
Nous avons travaillé sur la reconnaissance des émotions personnalisées non supervisée, en utilisant un ensemble de données contenant des phrases parlées notées pour leur contenu émotionnel. Pendant l'entraînement, nous avons utilisé toutes les informations disponibles à l'exception des étiquettes d'émotion dans l'ensemble de test. Notre objectif était de créer un modèle solide capable de surpasser un modèle qui n'utilisait pas les informations des locuteurs. De plus, nous voulions que notre méthode fonctionne bien avec de nouveaux locuteurs qui n'étaient pas dans les données d'entraînement.
L'Ensemble de Données
L'ensemble de données MSP-Podcast est l'une des plus grandes collections pour étudier les émotions de la parole en anglais. Il contient des segments de podcasts qui expriment une gamme d'émotions. Chaque segment est étiqueté avec des mesures continues d'excitation, de valence et d'autres émotions. Pour notre travail, nous nous sommes concentrés sur l'excitation et la valence, qui sont des facteurs clés dans l'expression émotionnelle.
Encodeur de Parole Pré-entraîné
Nous avons utilisé HuBERT comme encodeur pré-entraîné pour cette recherche en raison de son efficacité. Le modèle HuBERT se compose de deux parties principales : un CNN 1D qui traite l'audio brut et un encodeur Transformer qui améliore les caractéristiques audio en utilisant un mécanisme d'attention. Pendant son entraînement, HuBERT utilise une méthode appelée pseudo-étiquetage, où il prédit des étiquettes pour des parties des données qui sont masquées.
Aperçu des Méthodes Proposées
Nos méthodes proposées incluent :
Pré-entraînement Adaptatif Personnalisé (PAPT) : Cette méthode continue l'entraînement de HuBERT avec l'ajout de caractéristiques spécifiques aux locuteurs, rendant ainsi les résultats plus adaptés à chaque individu.
Calibration de Distribution d'Étiquettes Personnalisées (PLDC) : Cette technique ajuste les étiquettes prédites en les comparant aux statistiques de locuteurs similaires à partir des données d'entraînement.
Ces méthodes ont été testées pour voir à quel point elles fonctionnaient bien dans la reconnaissance des émotions dans la parole et comment elles pouvaient gérer efficacement de nouveaux locuteurs non vus.
Mise en Œuvre et Entraînement
Nous avons entraîné nos modèles pendant dix époques en utilisant un seul puissant GPU. Notre entraînement impliquait une combinaison des ensembles d'entraînement et de validation officiels tout en validant sur un ensemble de test séparé. Pour les expériences finales, nous avons ajouté un modèle simple au-dessus de HuBERT pour traiter les sorties.
Nous avons comparé nos méthodes à trois baselines établies : une méthode standard de fine-tuning, une approche de pondération des données, et une méthode de pré-entraînement adaptatif à la tâche.
Évaluation des Performances
Nos résultats ont montré que nos méthodes surpassaient celles des baselines de manière significative tant pour l'estimation de l'excitation que de la valence. Nous avons obtenu la meilleure performance globale pour l'estimation de la valence comparée aux études précédentes. De plus, la méthode PLDC a considérablement augmenté la performance individuelle, même si elle a parfois conduit à une baisse des résultats globaux en raison du nombre variable d'échantillons par locuteur.
Évaluation des Locuteurs Non Vus
Nous avons également testé la robustesse de notre approche sur des locuteurs qui n'étaient pas dans l'ensemble d'entraînement. Pour chaque nouveau locuteur, nous avons utilisé un locuteur similaire des données d'entraînement comme référence pour aider à faire des prédictions. Cette méthode s'est avérée efficace, car nos modèles continuaient à surpasser les méthodes de base pour l'estimation de l'excitation et de la valence.
Discussion sur la Variabilité de la Performance des Locuteurs
Bien que le fine-tuning de HuBERT ait montré de bonnes performances globales, nous avons observé des différences considérables dans la reconnaissance de différents locuteurs. Pour comprendre cette variation, nous avons analysé les décalages dans les caractéristiques et les étiquettes pour chaque locuteur, révélant que les deux aspects affectaient la performance des modèles. Nos résultats suggèrent que s'attaquer à ces décalages peut conduire à une meilleure reconnaissance des émotions.
Conclusion
Ce travail présente deux méthodes efficaces pour personnaliser les systèmes de reconnaissance des émotions dans la parole. Grâce au pré-entraînement adaptatif avec des embeddings de locuteurs et à la calibration de distribution d'étiquettes après inférence, nous améliorons les capacités des encodeurs de parole pré-entraînés. Nos expériences approfondies ont montré des avancées significatives en performance, surtout dans l'estimation de la valence, tout en prouvant que nos modèles peuvent gérer avec succès des locuteurs non vus. La personnalisation ouvre de nouvelles portes pour rendre les technologies vocales plus inclusives et efficaces dans la compréhension des émotions humaines.
Titre: Personalized Adaptation with Pre-trained Speech Encoders for Continuous Emotion Recognition
Résumé: There are individual differences in expressive behaviors driven by cultural norms and personality. This between-person variation can result in reduced emotion recognition performance. Therefore, personalization is an important step in improving the generalization and robustness of speech emotion recognition. In this paper, to achieve unsupervised personalized emotion recognition, we first pre-train an encoder with learnable speaker embeddings in a self-supervised manner to learn robust speech representations conditioned on speakers. Second, we propose an unsupervised method to compensate for the label distribution shifts by finding similar speakers and leveraging their label distributions from the training set. Extensive experimental results on the MSP-Podcast corpus indicate that our method consistently outperforms strong personalization baselines and achieves state-of-the-art performance for valence estimation.
Auteurs: Minh Tran, Yufeng Yin, Mohammad Soleymani
Dernière mise à jour: 2023-09-05 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.02418
Source PDF: https://arxiv.org/pdf/2309.02418
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.