Avancées dans la reconnaissance des émotions vocales avec LGFA
Une nouvelle méthode améliore la détection des émotions dans la parole grâce à des techniques avancées de transformateurs.
― 6 min lire
Table des matières
La Reconnaissance des émotions dans la parole (SER) est un domaine important de la technologie qui vise à identifier les émotions à partir du langage parlé. Ce domaine a attiré l'attention ces dernières années en raison de ses applications potentielles dans des domaines tels que le service client, la santé et l'interaction homme-machine. Le défi de la SER réside dans l'isolement des signaux émotionnels à partir de divers facteurs acoustiques comme le bruit de fond, les différentes langues et l'identité du locuteur.
Signaux Émotionnels dans la Parole
Les émotions ne sont pas réparties uniformément dans la parole. Elles apparaissent souvent dans des parties spécifiques connues sous le nom de cadres ou segments. Cependant, il y a aussi des moments dans la parole où les émotions sont absentes, appelés cadres ou segments vides. Par conséquent, une approche efficace de la SER se concentre sur la reconnaissance des motifs émotionnels répartis dans ces cadres ou segments.
Méthodes Traditionnelles en SER
Beaucoup de méthodes traditionnelles pour la SER se sont basées sur des réseaux de neurones récurrents (RNN), en particulier LSTM (Mémoire à Long et Court Terme) et Bi-LSTM (Bi-directionnel LSTM). Bien que ces méthodes aient montré du succès, elles présentent des difficultés. Elles nécessitent beaucoup de puissance de traitement et se concentrent principalement sur des données séquentielles, examinant une pièce d'information à la fois. Cela rend difficile la capture de signaux émotionnels larges à travers différents cadres de parole.
Avancées avec les Transformers
L'introduction des modèles Transformer a changé la donne en SER. Contrairement aux RNN, les Transformers peuvent évaluer les relations entre tous les cadres de parole simultanément, ce qui leur permet de saisir un contexte plus large. Ils effectuent également des calculs plus efficacement en traitant les données en parallèle.
Cependant, il y a encore des lacunes. De nombreux modèles Transformer divisent les données de parole en parties égales appelées morceaux. Cette approche peut négliger les relations locales entre les cadres qui portent des informations émotionnelles vitales et peut endommager la plage de fréquences des données vocales.
La Méthode d'Agrégation de Caractéristiques Locales à Globales
Pour remédier à ces problèmes, une nouvelle méthode appelée Agrégation de Caractéristiques Locales à Globales (LGFA) a été proposée. L'idée principale derrière LGFA est de combiner deux types de Transformers : un Transformer de Cadre et un Transformer de Segment. Le Transformer de Cadre se concentre sur les corrélations émotionnelles locales, tandis que le Transformer de Segment examine les traits émotionnels globaux à travers des segments plus longs.
Comment Fonctionne LGFA
Transformer de Cadre : Ce modèle traite les cadres individuels de la parole, reconnaissant les liens émotionnels locaux. Les résultats créent des embeddings de cadre qui portent un contexte émotionnel.
Transformer de Segment : Cette partie recueille les informations du Transformer de Cadre et les traite avec les caractéristiques de segment, créant une compréhension complète des émotions à un niveau supérieur.
Combinaison des Caractéristiques : Cette méthode prend des insights des sorties du Transformer de Cadre et du Transformer de Segment pour créer une image complète de la parole émotionnelle.
En reliant correctement les émotions locales dans les cadres et les tendances plus larges à travers les segments, LGFA vise à améliorer la capacité de détection des émotions des modèles SER.
Configuration Expérimentale
Pour valider la performance de LGFA, des expériences ont été menées à l'aide de deux bases de données de parole émotionnelle bien connues : l'Interactive Emotional Dyadic Motion Capture (IEMOCAP) et la China Emotional Database (CASIA).
Collecte de Données
La base de données IEMOCAP se compose de données de parole en anglais capturées dans divers états émotionnels provenant de plusieurs acteurs. La base de données CASIA est un ensemble de données de parole chinoise qui inclut des enregistrements d'acteurs exprimant différentes émotions. Pour les deux bases de données, des extraits sélectionnés ont été utilisés pour l'entraînement et le test des modèles.
Méthodologie
Les données de parole ont été prétraitées pour les préparer à l'analyse. Cela a impliqué le rééchantillonnage de l'audio et le découpage en segments de longueur égale tout en veillant à ce que les informations émotionnelles pertinentes soient préservées. Le LGFA a été construit et testé en utilisant des tailles et des configurations spécifiques pour les Transformers de Cadre et de Segment.
Résultats et Analyse
Les résultats des expériences ont révélé que LGFA a surpassé de nombreuses méthodes SER existantes sur les ensembles de données IEMOCAP et CASIA. Lorsqu'il est comparé aux méthodes basées sur les RNN, LGFA a montré des capacités de reconnaissance émotionnelle plus fortes. De plus, les comparaisons avec d'autres modèles Transformer récents ont indiqué que LGFA capturait spécifiquement les dépendances émotionnelles à long terme plus efficacement.
Métriques de Performance
Différentes métriques ont été utilisées pour évaluer la performance de LGFA, y compris le rappel moyen pondéré (WAR) et le rappel moyen non pondéré (UAR). Ces métriques aident à évaluer non seulement l'exactitude globale mais aussi la performance du modèle à travers différentes catégories émotionnelles.
Études d'Ablation
Pour mieux comprendre comment fonctionne LGFA, plusieurs études d'ablation ont été menées. En modifiant l'architecture de LGFA et en observant les changements de performance, il a été constaté que le fait d'avoir à la fois des Transformers de Cadre et de Segment contribuait significativement à de meilleurs résultats en SER par rapport à l'utilisation de l'un ou l'autre indépendamment.
Extension de LGFA
D'autres études ont examiné l'extension de LGFA en modifiant la manière dont les données de parole étaient segmentées. Au lieu d'une segmentation strictement dans le domaine temporel, des variations supplémentaires ont inclus des approches dans le domaine des fréquences et le domaine temps-fréquence. Cette exploration a révélé que, bien que les approches dans le domaine temporel fonctionnent généralement mieux pour capturer le contexte émotionnel, la segmentation basée sur les fréquences offrait des insights précieux dans des environnements d'enregistrement plus propres.
Conclusion
En résumé, la méthode d'Agrégation de Caractéristiques Locales à Globales offre une direction prometteuse pour la reconnaissance des émotions dans la parole. En combinant habilement les informations émotionnelles locales et globales, LGFA se distingue comme une approche plus efficace pour comprendre les émotions dans la parole. Les résultats encourageants des expériences valident son potentiel, ouvrant la voie à de meilleures applications dans divers domaines, des interactions avec les clients aux évaluations de santé mentale.
L'exploration continue des stratégies de découpage et des améliorations du modèle garantit que LGFA peut s'adapter et s'améliorer dans la capture des nuances des émotions dans le langage parlé.
Titre: Learning Local to Global Feature Aggregation for Speech Emotion Recognition
Résumé: Transformer has emerged in speech emotion recognition (SER) at present. However, its equal patch division not only damages frequency information but also ignores local emotion correlations across frames, which are key cues to represent emotion. To handle the issue, we propose a Local to Global Feature Aggregation learning (LGFA) for SER, which can aggregate longterm emotion correlations at different scales both inside frames and segments with entire frequency information to enhance the emotion discrimination of utterance-level speech features. For this purpose, we nest a Frame Transformer inside a Segment Transformer. Firstly, Frame Transformer is designed to excavate local emotion correlations between frames for frame embeddings. Then, the frame embeddings and their corresponding segment features are aggregated as different-level complements to be fed into Segment Transformer for learning utterance-level global emotion features. Experimental results show that the performance of LGFA is superior to the state-of-the-art methods.
Auteurs: Cheng Lu, Hailun Lian, Wenming Zheng, Yuan Zong, Yan Zhao, Sunan Li
Dernière mise à jour: 2023-06-02 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.01491
Source PDF: https://arxiv.org/pdf/2306.01491
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.