Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Intelligence artificielle# Son

Améliorer la compréhension de la parole et des émotions par l'IA

Une nouvelle méthode forme l'IA à mieux reconnaître la parole et les émotions dans des environnements bruyants.

― 7 min lire


Amélioration de laAmélioration de laReconnaissance de laParole et des Émotionsenvironnements bruyants.performances de l'IA dans desDe nouvelles méthodes améliorent les
Table des matières

Les systèmes modernes d'IA qui interagissent avec les gens, comme les assistants vocaux dans les voitures ou les chatbots de service client, doivent comprendre à la fois ce que quelqu'un dit et comment il se sent. Cette capacité combine deux tâches : la Reconnaissance Automatique de la Parole (ASR), qui convertit les mots parlés en texte, et la Reconnaissance des émotions dans la parole (SER), qui identifie le ton émotionnel derrière les mots.

Dans des environnements bruyants, comme des centres d'appels animés ou des voitures, il peut être difficile pour ces systèmes de bien fonctionner. Souvent, l'ASR et la SER sont traitées séparément, ce qui signifie qu'elles ne profitent pas aux forces de l’autre. Cet article examine une nouvelle façon d'entraîner ces systèmes ensemble pour les rendre meilleurs dans la gestion de la parole et des émotions, même avec du Bruit de fond.

Le besoin de meilleurs systèmes

Comprendre les émotions est important pour les systèmes qui interagissent avec les gens. Par exemple, dans un centre d'appels, une IA pourrait identifier la frustration d'un client à partir de son ton et ajuster ses réponses pour fournir un meilleur service. Pour faire cela efficacement, l'ASR et la SER doivent travailler ensemble. Cependant, elles rencontrent souvent des problèmes :

  1. Traditionnellement, l'ASR et la SER sont développées séparément.
  2. Il n'y a pas assez de données disponibles ayant à la fois des mots parlés et des indices émotionnels, ce qui rend difficile l'entraînement de modèles pour les deux tâches ensemble.

Défis de l'apprentissage conjoint

Bien que des recherches aient montré que former l'ASR et la SER ensemble peut améliorer la détection des émotions, cela n’a pas bien exploré comment ces modèles se comportent dans des environnements bruyants. Le bruit peut venir de nombreuses sources, comme des discussions en arrière-plan ou de la musique, et peut embrouiller les modèles.

Certaines études ont travaillé sur la résistance des systèmes ASR ou SER individuels au bruit, mais peu ont examiné comment un entraînement conjoint affecte leurs performances dans des environnements bruyants. Cet article vise à combler cette lacune.

Nos contributions

Nous proposons une méthode d'apprentissage conjoint pour l'ASR et la SER qui vise à améliorer les performances pour les deux tâches. Notre approche inclut :

  1. Une structure d'apprentissage multitâche qui utilise à la fois l'ASR et la SER comme tâches principales plutôt que l'une étant secondaire.
  2. Une exploration de la manière dont ce modèle conjoint gère différents types de bruit de fond.

Nous avons utilisé des modèles pré-entraînés pour aider avec les données limitées disponibles, rendant notre méthode adaptée aux environnements à faibles ressources.

Ensemble de données et configuration de l'expérience

Pour tester notre approche, nous avons utilisé le jeu de données IEMOCAP, qui contient des enregistrements d'acteurs parlants avec différentes tonalités émotionnelles. Le jeu de données comprend environ 12 heures de données de parole, et nous nous sommes concentrés sur quatre catégories émotionnelles : bonheur, tristesse, colère et neutralité.

Nous avons également ajouté du bruit aux données de parole propres en utilisant un autre jeu de données qui inclut divers types de musique, de parole et de bruit de fond. En mélangeant ces sons, nous avons créé des scénarios difficiles pour tester les performances de nos modèles.

Modèles de référence

Nous avons développé des modèles pour l'ASR et la SER séparément avant de les combiner. Pour l'ASR, nous avons entraîné un modèle pour convertir la parole en texte à partir de discours propres et bruyants. Nous avons utilisé un modèle populaire appelé wav2vec2 pour extraire des caractéristiques audio, ce qui aide le système à mieux comprendre la parole.

Pour la SER, nous avons également utilisé wav2vec2 mais en nous concentrant sur la classification de l'émotion affichée dans cette parole. La classification des émotions implique de déterminer si un locuteur a l'air heureux, triste, en colère ou neutre.

Architecture du modèle conjoint

Notre modèle conjoint fonctionne en traitant l'audio sur deux chemins parallèles : un pour l'ASR et un pour la SER. Le chemin ASR convertit les sons de parole en texte, tandis que le chemin SER essaie de déterminer l'émotion derrière la parole. Nous combinons les informations des deux chemins pour améliorer la compréhension du modèle.

Nous avons également introduit une nouvelle façon de combiner les caractéristiques audio et linguistiques, facilitant l'apprentissage du modèle à partir des deux types d'informations. En faisant cela, nous avons visé à rendre notre modèle plus précis et robuste, surtout dans des environnements difficiles.

Résultats et performances

Nous avons testé nos modèles dans différentes conditions : parole propre et parole bruyante. Les résultats ont indiqué que le modèle conjoint fonctionnait significativement mieux que les modèles ASR ou SER séparés.

Lorsqu'il était formé sur des données propres, le modèle conjoint a montré une amélioration notable dans la reconnaissance de la parole et des émotions par rapport aux références. Il a réduit les erreurs dans l'ASR et amélioré la précision de la SER.

Dans des conditions bruyantes, notre approche conjointe a continué de surpasser les modèles séparés. Par exemple, lorsque du bruit de musique ou d'autres conversations a été ajouté, notre modèle a tout de même réussi à comprendre la parole et l'émotion mieux que lorsque l'ASR et la SER étaient traitées séparément.

Analyse de la robustesse au bruit

L'un des aspects les plus importants de notre recherche était d'analyser comment les modèles performaient dans différentes situations bruyantes. Nous avons testé notre modèle conjoint avec divers types de bruit de fond à différentes intensités.

Les résultats ont suggéré que l'entraînement avec des données bruyantes améliorait la capacité du modèle à gérer des situations réelles où le bruit est inévitable. Pour la plupart des tests, le modèle conjoint gérait beaucoup mieux le bruit de fond que les modèles séparés.

Cependant, il y avait certaines conditions où les modèles de référence surpassaient le modèle conjoint, en particulier dans des scénarios avec du discours de fond (babillage) et de la musique à des volumes plus bas. Les travaux futurs devront chercher des moyens d'améliorer la performance du modèle conjoint dans ces situations.

Conclusion

En résumé, combiner l'ASR et la SER en une seule tâche d'apprentissage semble entraîner des améliorations des deux côtés. Notre modèle conjoint a montré une résistance accrue au bruit par rapport aux modèles séparés, ce qui le rend précieux pour des applications réelles comme le service client et les assistants vocaux.

Les découvertes indiquent que former ces tâches ensemble aide non seulement à améliorer les performances dans des environnements calmes, mais aussi à préparer le modèle à relever les défis des environnements bruyants. À mesure que l'IA continue d'évoluer, développer des systèmes qui comprennent non seulement les mots mais aussi les émotions qui les sous-tendent améliorera considérablement l'expérience utilisateur.

Les recherches futures peuvent s'appuyer sur ces résultats pour s'attaquer aux défis restants et améliorer la façon dont les systèmes d'IA interagissent avec les gens dans des situations quotidiennes.

Source originale

Titre: On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion and Automatic Speech Recognition

Résumé: New-age conversational agent systems perform both speech emotion recognition (SER) and automatic speech recognition (ASR) using two separate and often independent approaches for real-world application in noisy environments. In this paper, we investigate a joint ASR-SER multitask learning approach in a low-resource setting and show that improvements are observed not only in SER, but also in ASR. We also investigate the robustness of such jointly trained models to the presence of background noise, babble, and music. Experimental results on the IEMOCAP dataset show that joint learning can improve ASR word error rate (WER) and SER classification accuracy by 10.7% and 2.3% respectively in clean scenarios. In noisy scenarios, results on data augmented with MUSAN show that the joint approach outperforms the independent ASR and SER approaches across many noisy conditions. Overall, the joint ASR-SER approach yielded more noise-resistant models than the independent ASR and SER approaches.

Auteurs: Lokesh Bansal, S. Pavankumar Dubagunta, Malolan Chetlur, Pushpak Jagtap, Aravind Ganapathiraju

Dernière mise à jour: 2023-05-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.12540

Source PDF: https://arxiv.org/pdf/2305.12540

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires