Avancées dans la génération de discours émotionnel
De nouvelles méthodes améliorent l'expression émotionnelle dans la synthèse vocale des machines.
― 8 min lire
Table des matières
- L'Importance des Caractéristiques prosodiques
- Les Défis de la Modification du Rythme
- Le Processus de Modification
- Mécanisme de Modification de la Longueur
- Prédire la Saillance Émotionnelle
- Une Approche Réseau de Neurones
- Facteurs de Modification Utilisant l'Apprentissage par Renforcement
- Évaluation du Système
- Intelligibilité et ses Défis
- Conclusion
- Source originale
- Liens de référence
La parole humaine est pleine d'infos qui vont au-delà des simples mots. Ça révèle des détails sur les sentiments et les intentions du locuteur. Cette recherche vise à rendre les machines capables de produire de la parole qui transmet des émotions, ce qui a des applications dans plein de domaines comme le support client, la thérapie vocale pour les personnes âgées, et les interactions humain-machine. En ajustant des caractéristiques de la parole comme la hauteur et l'énergie, on peut ajouter des indices émotionnels à une parole neutre ou changer le style global de la parole.
Caractéristiques prosodiques
L'Importance desLes caractéristiques prosodiques, qui incluent des aspects comme la hauteur, l'intensité et le Rythme, sont cruciales pour transmettre des émotions dans la parole. De plus, elles aident à évaluer à quel point les machines peuvent interagir avec les humains. Dans des études récentes, les chercheurs se sont concentrés sur l’apprentissage de la transformation de la parole d'une émotion à une autre en cartographiant ces caractéristiques prosodiques.
Malgré l'importance du rythme dans la transmission des émotions, peu d'études se sont penchées sur la modification du rythme dans la synthèse de la parole émotionnelle. Ce manque de recherche existe probablement parce que le rythme est plus difficile à modéliser par rapport à la hauteur et à l'intensité. Les méthodes traditionnelles qui reposent sur de grandes quantités de données ont des limites, ce qui a poussé à explorer de nouvelles techniques pour améliorer la génération de parole émotionnelle.
Les Défis de la Modification du Rythme
Modifier le rythme de la parole est un vrai casse-tête parce que c’est complexe et souvent imprévisible. La plupart des méthodes existantes qui tentent de changer le rythme exigent de grandes quantités de données d'entraînement de haute qualité, ce qui peut être difficile et coûteux à rassembler. Par exemple, certaines méthodes précédentes utilisaient des algorithmes de déformation dynamique pour modifier directement le rythme, mais ces approches nécessitaient souvent un apprentissage supervisé, ce qui nécessite encore beaucoup de données.
Face à ces défis, une nouvelle méthode utilisant une stratégie d'Apprentissage par renforcement a été développée. Cette méthode vise à simplifier le problème de la modification du rythme de la parole tout en explorant d'autres caractéristiques prosodiques. Le processus commence par trois tâches principales :
- Identifier les segments importants d'émotion dans la parole.
- Prédire comment chaque segment doit être modifié.
- Ajuster le rythme de ces segments en conséquence.
Cette approche ne modifie pas chaque phonème ou syllabe d'une énonciation. Au lieu de cela, elle se concentre uniquement sur les segments les plus significatifs identifiés, en utilisant une stratégie appelée masquage de Markov.
Le Processus de Modification
La première étape consiste à reconnaître quelles parties de la parole transmettent des infos émotionnelles significatives. Cela se fait en appliquant un masque temporel de Markov. Ce masque identifie des segments qui peuvent inclure des syllabes ou des mots entiers, ce qui peut également impliquer de courtes pauses. Une fois ces segments trouvés, le système prédit des facteurs de modification comme la durée, la hauteur et l'intensité. Ces facteurs prévus sont ensuite appliqués uniformément aux segments identifiés.
Au final, l'objectif est de changer le ton émotionnel de la parole en altérant ses caractéristiques prosodiques. Ce modèle est unique parce qu'il fonctionne dans un cadre d'apprentissage complètement non supervisé, visant plusieurs caractéristiques prosodiques au sein d'un système unifié.
Mécanisme de Modification de la Longueur
Divers algorithmes permettent de modifier la longueur de la parole, y compris le méthode de superposition-ajout et la superposition-ajout de similarité d'onde (WSOLA). Ces méthodes fonctionnent en divisant la parole d'entrée en segments, puis en dupliquant ou supprimant des parties pour allonger ou raccourcir la durée de la parole. Bien qu'efficaces, les méthodes traditionnelles peuvent introduire des artefacts notables, rendant la parole peu naturelle.
L’algorithme WSOLA aide à réduire ces artefacts grâce à une stratégie de recherche pour trouver les meilleurs segments à reconstruire. Cependant, cela pose un défi, car il n'est pas différentiable. Pour y remédier, une stratégie d'apprentissage par renforcement est employée. Cela signifie que l'opération WSOLA est considérée comme une partie de l'environnement d'interaction de l'agent d'apprentissage, lui permettant d'apprendre sans avoir besoin de rétropropager l'erreur à travers le WSOLA.
Prédire la Saillance Émotionnelle
L'étape suivante consiste à prédire quels segments sont les plus pertinents pour transmettre l'émotion. Une stratégie de masquage est utilisée, similaire aux cartes d'attention, pour trouver des portions continues de parole qui impactent la perception émotionnelle humaine. Un ensemble de données spécifique est utilisé pour l’entraînement, qui étiquette des échantillons de parole avec cinq catégories émotionnelles : neutre, en colère, heureux, triste et effrayé. Chaque échantillon de parole a des annotations qui indiquent à quel point une émotion particulière est exprimée.
La tâche du modèle consiste à prédire des scores de perception émotionnelle basés sur le contenu des segments de parole masqués. Le masque aide à s'assurer que seuls des segments significatifs sont pris en compte, permettant au modèle de manipuler efficacement les caractéristiques prosodiques.
Une Approche Réseau de Neurones
Un réseau de neurones spécifique est conçu à cet effet avec trois parties principales :
- Un extracteur de caractéristiques qui simplifie l'entrée audio brute.
- Un générateur de masques qui produit le masque basé sur les caractéristiques.
- Un prédicteur de saillance qui estime l'importance émotionnelle des portions masquées.
Cette architecture aide à estimer quelles parties de la parole sont cruciales pour transmettre des émotions, permettant ainsi des modifications efficaces.
Facteurs de Modification Utilisant l'Apprentissage par Renforcement
Une fois que les portions émotionnelles sont identifiées, la prochaine tâche est de prédire comment elles doivent être modifiées. La méthode utilisée repose sur l'apprentissage par renforcement, ce qui aide à déterminer une distribution sur différents facteurs de modification. Ces facteurs incluent des changements dans la durée de la parole.
La stratégie implique de créer des classes discrètes pour les facteurs de modification, ce qui permet à l'agent d'apprentissage de travailler dans une plage définie. En fonction de l'état des segments de parole et de la description émotionnelle cible, l'agent peut prédire quel facteur de modification appliquer. Après avoir appliqué ces facteurs, un signal de récompense est généré en fonction de la façon dont la modification s'aligne avec l'émotion cible.
Évaluation du Système
L'efficacité du système de synthèse émotionnelle est évaluée à l'aide de mesures objectives et subjectives. Les métriques objectives incluent les performances sur divers ensembles de données, où la capacité du modèle à prédire les émotions avec précision est quantifiée. Les évaluations subjectives impliquent des auditeurs humains déterminant si les échantillons de parole modifiés reflètent avec précision les émotions ciblées.
Une bonne partie des auditeurs a identifié les échantillons modifiés comme plus représentatifs des émotions cibles. Cela indique que le modèle d'apprentissage par renforcement peut efficacement modifier les émotions grâce à la sélection des segments.
Intelligibilité et ses Défis
Un aspect important qui émerge de la modification de la prosodie de la parole est son intelligibilité. Bien que les modifications visent à améliorer l'expression émotionnelle, elles peuvent compromettre la facilité avec laquelle la parole peut être comprise. Lorsqu'on les examine à travers un système de reconnaissance vocale automatique, les échantillons modifiés montrent souvent des taux d'erreur plus élevés par rapport aux échantillons originaux.
Cela indique que, bien que les modifications émotionnelles soient réussies, elles peuvent parfois entraîner des difficultés dans la reconnaissance des phonèmes. Des ajustements au modèle peuvent aider à garantir que les améliorations émotionnelles ne déforment pas trop le signal de la parole, maintenant la clarté.
Conclusion
Les avancées réalisées dans la modification du rythme pour la génération de parole émotionnelle sont remarquables. En identifiant efficacement les segments qui sont clés pour transmettre des émotions et en utilisant des stratégies d'apprentissage par renforcement, la méthode proposée montre un potentiel considérable. À travers des tests objectifs et subjectifs, le modèle prouve son potentiel à produire une parole émotionnellement résonnante. Des recherches supplémentaires sont nécessaires pour relever les défis de maintien de l'intelligibilité tout en atteignant une profondeur émotionnelle dans la parole synthétisée. Le développement de cette technologie ouvre de nouvelles possibilités d'applications dans divers domaines, offrant une communication plus naturelle et engageante entre les humains et les machines.
Titre: Re-ENACT: Reinforcement Learning for Emotional Speech Generation using Actor-Critic Strategy
Résumé: In this paper, we propose the first method to modify the prosodic features of a given speech signal using actor-critic reinforcement learning strategy. Our approach uses a Bayesian framework to identify contiguous segments of importance that links segments of the given utterances to perception of emotions in humans. We train a neural network to produce the variational posterior of a collection of Bernoulli random variables; our model applies a Markov prior on it to ensure continuity. A sample from this distribution is used for downstream emotion prediction. Further, we train the neural network to predict a soft assignment over emotion categories as the target variable. In the next step, we modify the prosodic features (pitch, intensity, and rhythm) of the masked segment to increase the score of target emotion. We employ an actor-critic reinforcement learning to train the prosody modifier by discretizing the space of modifications. Further, it provides a simple solution to the problem of gradient computation through WSOLA operation for rhythm manipulation. Our experiments demonstrate that this framework changes the perceived emotion of a given speech utterance to the target. Further, we show that our unified technique is on par with state-of-the-art emotion conversion models from supervised and unsupervised domains that require pairwise training.
Auteurs: Ravi Shankar, Archana Venkataraman
Dernière mise à jour: 2024-08-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2408.01892
Source PDF: https://arxiv.org/pdf/2408.01892
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.