Améliorer la reconnaissance des émotions dans la voix pour le service client
Transformer les interactions clients grâce à une meilleure reconnaissance des émotions vocales.
― 8 min lire
Table des matières
- L'importance de la reconnaissance des émotions
- Agents conversationnels et leur développement
- Notre approche de la reconnaissance des émotions dans la parole
- Collecte de données et création du dataset
- Défis de la reconnaissance des émotions dans la parole
- Avancées dans les modèles de reconnaissance des émotions dans la parole
- Configuration expérimentale pour l'entraînement du modèle
- Résultats et découvertes
- Limitations de l'étude
- Directions futures
- Conclusion
- Source originale
- Liens de référence
La Reconnaissance des émotions dans la parole est super importante pour rendre les conversations avec les machines plus humaines. Ça compte vraiment dans des domaines comme le service client, où comprendre les sentiments d'un client peut aider à donner de meilleures réponses. Mais la plupart des recherches dans ce domaine ont utilisé des enregistrements d'acteurs dans des endroits calmes. Dans la vraie vie, les conversations de service client sont souvent bruyantes et impliquent des gens qui changent de langue.
Pour régler ce souci, un nouveau dataset appelé le Natural Speech Emotion Dataset (NSED) a été créé. Ce dataset comprend de vraies conversations de service client où les émotions, les sentiments et d'autres ressentis sont étiquetés pour la reconnaissance. En utilisant ce dataset, on peut construire des systèmes qui répondent aux clients de manière plus compréhensive et empathique.
L'importance de la reconnaissance des émotions
Quand les clients expriment des Émotions négatives, c'est super important que les agents de support ou les Agents conversationnels réagissent vite et efficacement. Si ces émotions ne sont pas prises en compte, ça peut provoquer des problèmes plus importants comme plus de plaintes et un mécontentement des clients.
Du coup, développer des systèmes capables de reconnaître rapidement les émotions négatives est crucial. Ça peut améliorer l'expérience générale des clients et aider les entreprises à maintenir de bonnes relations avec eux. Avoir des machines qui comprennent les émotions humaines peut rendre les interactions plus fluides et efficaces.
Agents conversationnels et leur développement
Les agents conversationnels comme les chatbots ont évolué avec le temps. Ils ont commencé par des interactions simples basées sur du texte, puis sont passés à la voix, et maintenant à des systèmes complètement interactifs. Les derniers modèles, comme ChatGPT, peuvent gérer des conversations complexes tout en se souvenant du contexte. Mais ces systèmes travaillent principalement avec du texte écrit ou tapé.
Pour le support client, les interactions basées sur la parole peuvent être plus pratiques et conviviales. Donc, un agent conversationnel qui prend des entrées vocales et donne des réponses vocales est la prochaine étape logique. Pour être efficaces, ces agents doivent être équipés pour reconnaître les émotions de la personne qui leur parle.
Notre approche de la reconnaissance des émotions dans la parole
L'objectif principal de ce travail est d'améliorer la reconnaissance des émotions dans la parole (SER) dans des conversations où les gens changent souvent de langue. Cela passe par un modèle qui prend de l'audio brut et identifie les émotions exprimées, ainsi que des valeurs spécifiques qui montrent l'intensité et la nature de ces émotions.
En utilisant une méthode qui intègre des valeurs au niveau des mots pour les émotions, on a trouvé un moyen d'augmenter les taux de reconnaissance des émotions négatives de 2 % par rapport aux modèles existants. Cette amélioration est vitale dans les scénarios de service client, car les agents doivent répondre rapidement et efficacement aux clients mécontents.
Collecte de données et création du dataset
Pour créer le NSED, on a collaboré avec une société bien connue dans le domaine de l'IA conversationnelle. Ils ont fourni plus de 18 000 enregistrements d'interactions de service client. Chaque enregistrement durait de quelques secondes à environ une heure, capturant de vraies conversations entre clients et agents de support.
Les enregistrements ont été traités pour créer des clips audio plus petits, en se concentrant sur chaque tour de la conversation. Ces clips ont ensuite été associés à des transcriptions écrites, qui ont été corrigées pour des erreurs. Des annotateurs ont écouté ces clips audio pour les étiqueter avec des émotions, des sentiments et des valeurs qui mesurent l'intensité émotionnelle.
Les émotions incluaient différentes catégories comme la colère, le bonheur, la tristesse, et plus encore. Chacune de ces émotions était ensuite décrite à l'aide de trois valeurs : la valence (à quel point l'émotion est positive ou négative), l'excitation (à quel point l'émotion est intense), et la dominance (combien de contrôle la personne ressent).
Défis de la reconnaissance des émotions dans la parole
Travailler avec des conversations naturelles présente des défis uniques. Un des principaux soucis est la qualité de l'audio. Beaucoup d'enregistrements étaient difficiles à comprendre à cause du bruit de fond et des problèmes avec le matériel d'enregistrement. Les erreurs de transcription se produisaient aussi fréquemment à cause des conversations multilingues et de la technologie de reconnaissance vocale qui n'était pas parfaite.
Des conversations neutres constituaient une grande partie du dataset, rendant plus difficile pour le modèle d'apprendre à identifier les autres émotions avec précision. Le changement constant entre les langues compliquait encore plus le processus d'extraction de caractéristiques utiles de la parole.
Avancées dans les modèles de reconnaissance des émotions dans la parole
Plusieurs méthodes ont été utilisées pour améliorer la reconnaissance des émotions. Traditionnellement, les chercheurs se basaient sur des caractéristiques spécifiques de la parole combinées avec des techniques d'apprentissage automatique. Cependant, les modèles de deep learning comme Wav2Vec 2.0 ont récemment montré de meilleurs résultats en apprenant automatiquement des représentations utiles à partir des données vocales.
Cette étude utilise Wav2Vec 2.0 pour extraire des caractéristiques importantes des enregistrements audio. De plus, on combine les caractéristiques textuelles issues des transcriptions et les valeurs émotionnelles au niveau des mots pour améliorer la performance de notre modèle de SER.
En utilisant un modèle basé sur BiLSTM, qui est efficace pour analyser des séquences, on fusionne ces caractéristiques ensemble pour prédire les résultats émotionnels de chaque tour de conversation.
Configuration expérimentale pour l'entraînement du modèle
Le NSED a été divisé en ensembles d'entraînement, de validation et de test. Ces ensembles différents ont permis d'entraîner le modèle et de mesurer son efficacité avec des données invisibles. Pendant les expériences, différents types de fonctionnalités ont été testés pour voir ce qui fonctionnait le mieux.
La performance du modèle a été évaluée sur sa capacité à reconnaître différents émotions. La performance de base a été établie en utilisant juste les Caractéristiques audio. Ensuite, l'ajout de caractéristiques textuelles et de valeurs VAD a montré des améliorations.
Résultats et découvertes
En ajoutant des caractéristiques textuelles aux données audio, notre modèle a beaucoup mieux performé dans la reconnaissance des émotions négatives. Bien que les émotions positives aient été plus difficiles à identifier pour le modèle à cause de leur présence limitée dans le dataset, il a quand même réussi à bien performer pour les émotions négatives.
Ce résultat est particulièrement favorable pour les applications de service client, où les clients expriment souvent leur mécontentement. Le modèle a obtenu une nette amélioration en utilisant des valeurs émotionnelles au niveau des mots pour de meilleures prédictions émotionnelles.
Limitations de l'étude
Malgré les avancées, il y avait des défis qui limitaient l'efficacité du modèle. La taille du dataset était relativement petite par rapport à d'autres datasets émotionnels disponibles. Ce déséquilibre a rendu plus difficile l'entraînement efficace du modèle, surtout pour les émotions positives.
De plus, l'outil de reconnaissance vocale automatique avait du mal à produire des transcriptions précises pour tous les enregistrements. Cela a conduit à des indices émotionnels manquants et a compliqué davantage le processus de reconnaissance.
Directions futures
Ce travail ouvre la voie à des agents conversationnels plus complets et réactifs. Les efforts à venir se concentreront sur l'expansion du dataset pour inclure une plus grande variété d'expressions émotionnelles, en s'attaquant aux limitations actuelles concernant la taille des échantillons pour certaines émotions.
Explorer des techniques d'apprentissage non supervisées sera également essentiel, car cela pourrait aider à réduire les coûts liés aux annotations manuelles. Mettre en œuvre des stratégies d'augmentation de données pourrait fournir plus d'exemples pour l'entraînement sans avoir besoin d'enregistrements supplémentaires.
Conclusion
En résumé, construire de meilleurs systèmes de reconnaissance des émotions dans la parole est crucial pour créer des agents conversationnels plus compréhensifs et sociaux. Le Natural Speech Emotion Dataset offre un aperçu précieux sur la façon dont ces systèmes peuvent efficacement reconnaître les émotions dans des scénarios réels. En se concentrant sur la compréhension des émotions des clients, les entreprises peuvent améliorer leurs interactions et maintenir des relations clients plus heureuses. Développer ces modèles davantage améliorera non seulement l'expérience client, mais ouvrira aussi la voie à des réponses automatisées plus empathiques et polies dans divers domaines.
Titre: "We care": Improving Code Mixed Speech Emotion Recognition in Customer-Care Conversations
Résumé: Speech Emotion Recognition (SER) is the task of identifying the emotion expressed in a spoken utterance. Emotion recognition is essential in building robust conversational agents in domains such as law, healthcare, education, and customer support. Most of the studies published on SER use datasets created by employing professional actors in a noise-free environment. In natural settings such as a customer care conversation, the audio is often noisy with speakers regularly switching between different languages as they see fit. We have worked in collaboration with a leading unicorn in the Conversational AI sector to develop Natural Speech Emotion Dataset (NSED). NSED is a natural code-mixed speech emotion dataset where each utterance in a conversation is annotated with emotion, sentiment, valence, arousal, and dominance (VAD) values. In this paper, we show that by incorporating word-level VAD value we improve on the task of SER by 2%, for negative emotions, over the baseline value for NSED. High accuracy for negative emotion recognition is essential because customers expressing negative opinions/views need to be pacified with urgency, lest complaints and dissatisfaction snowball and get out of hand. Escalation of negative opinions speedily is crucial for business interests. Our study then can be utilized to develop conversational agents which are more polite and empathetic in such situations.
Auteurs: N V S Abhishek, Pushpak Bhattacharyya
Dernière mise à jour: 2023-08-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.03150
Source PDF: https://arxiv.org/pdf/2308.03150
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.