Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle

Avancées dans la technologie de synthèse vocale sensible aux émotions

Le nouveau modèle EmoPP améliore la parole avec des indices émotionnels.

― 6 min lire


Nouveau modèle TTSNouveau modèle TTSsensible aux émotionsdes émotions.EmoPP améliore la sortie vocale avec
Table des matières

La technologie de synthèse vocale (TTS) s'améliore de plus en plus en sonnant plus naturel et plus facile à comprendre. Un aspect clé de ce processus est le phrasé prosodique, qui fait référence à la manière dont la parole est découpée en morceaux ou en phrases plus petites. Avoir les bonnes pauses et un bon rythme peut rendre la parole plus vivante. Dans la parole naturelle, différentes émotions peuvent changer la façon dont ces phrases sont formées, mais peu d'attention a été portée à cet aspect émotionnel dans la technologie TTS.

Qu'est-ce que le phrasé prosodique ?

Le phrasé prosodique consiste à découper une longue phrase en parties plus petites, ce qui aide à créer un flux dans la parole. Quand les gens parlent, ils marquent naturellement des pauses à certains endroits pour transmettre un sens. Par exemple, si quelqu'un est excité, il pourrait parler plus vite et faire moins de pauses. Si la personne est triste, elle pourrait parler plus lentement et ajouter plus de pauses. Ces schémas aident les auditeurs à comprendre les émotions et les intentions du locuteur.

Malgré les améliorations des systèmes TTS, beaucoup de méthodes existantes se concentrent principalement sur les aspects linguistiques du phrasé. Cela signifie qu'elles examinent surtout la grammaire et la structure des phrases plutôt que comment les émotions influencent la parole. Nous nous concentrons sur la manière de rendre les systèmes TTS plus expressifs en intégrant des émotions dans le phrasé prosodique.

Le besoin d'un TTS sensible aux émotions

De nombreuses technologies TTS ont progressé, mais elles manquent souvent de la capacité à transmettre les émotions avec précision. C'est important parce que détecter le bon ton émotionnel peut aider à créer une sortie vocale plus humaine. Quand les gens écoutent une parole, ils s'attendent à entendre non seulement des mots mais aussi des sentiments. Si un système TTS peut incorporer des indices émotionnels efficacement, la parole résultante peut sembler beaucoup plus engageante et relatable.

Présentation d'EmoPP

Pour combler cette lacune, nous introduisons un nouveau modèle nommé EmoPP, qui signifie Phrasé Prosodique Sensible aux Émotions. L'objectif d'EmoPP est de reconnaître les indices émotionnels dans l'entrée orale et d'utiliser ces informations pour mieux décider où placer les pauses dans la parole. En liant étroitement émotion et phrasé prosodique, EmoPP peut créer des sorties vocales plus expressives.

Comment EmoPP fonctionne

EmoPP se compose de trois composants principaux : un encodeur de texte, un prédicteur d'émotions et un décodeur.

  1. Encodeur de Texte : Cette partie du modèle traite le texte d'entrée pour extraire des caractéristiques linguistiques importantes. Elle se concentre sur le sens et la structure des mots.

  2. Prédicteur d'Émotions : Cette partie analyse le texte pour déterminer le ton émotionnel. Par exemple, elle vérifie si le texte exprime de la joie, de la tristesse, de la colère ou de la surprise.

  3. Décodeur : Le décodeur combine les informations de l'encodeur de texte et du prédicteur d'émotions pour générer les phrases finales et les pauses. Il prédit où les pauses devraient aller pour correspondre aux émotions identifiées.

Ensemble, ces trois composants permettent à EmoPP de reconnaître les contextes émotionnels et d'ajuster le phrasé en conséquence.

Importance du phrasé spécifique aux émotions

Les recherches montrent que différentes émotions entraînent des schémas de parole différents. Par exemple, quand quelqu'un est anxieux, il pourrait marquer des pauses plus courtes et plus fréquentes, ce qui donne un rythme plus intense. En revanche, quelqu'un de détendu pourrait utiliser moins de pauses dans sa parole, permettant un flux plus fluide. En apprenant ces schémas, EmoPP fournit des pauses plus précises qui correspondent aux états émotionnels.

Tester EmoPP

Pour évaluer l'efficacité d'EmoPP, nous avons réalisé des tests en utilisant un ensemble de données contenant des échantillons de parole exprimant diverses émotions. Nous nous sommes concentrés sur la comparaison des performances d'EmoPP avec d'autres modèles traditionnels qui ne prennent pas en compte le contexte émotionnel.

Lors de ces tests, nous avons analysé à quel point EmoPP prédisait avec précision les pauses dans la parole par rapport aux modèles de référence. Les tests ont montré qu'EmoPP a mieux réussi. Le modèle était capable de placer correctement les pauses de manière à refléter les émotions présentes dans la parole.

Résultats et observations

En comparant EmoPP à d'autres modèles, nous avons constaté qu'il a obtenu une meilleure précision, rappel et performance globale dans la prédiction des pauses. Cela signifie qu'EmoPP améliore non seulement la précision technique de la sortie vocale mais renforce aussi son expressivité émotionnelle, rendant le tout plus naturel.

Pour aller plus loin, nous avons aussi mené des tests subjectifs. Nous avons demandé aux auditeurs de comparer la parole produite par EmoPP et un autre modèle. Les résultats ont montré que les auditeurs trouvaient la parole générée par EmoPP plus expressive et engageante, confirmant que le phrasé sensible aux émotions fait réellement une différence dans la perception de la parole.

Visualiser l'impact

Nous avons aussi visualisé l'audio généré par EmoPP et les modèles traditionnels. En regardant les schémas de fréquence dans les sons, nous avons pu voir comment l'approche d'EmoPP pour le phrasé a modifié le rythme et le ton émotionnel de la parole. Par exemple, dans les phrases où la colère était exprimée, EmoPP a créé des pauses plus nettes, capturant efficacement l'émotion accrue.

Conclusion

EmoPP représente une avancée significative pour rendre les systèmes de synthèse vocale plus expressifs. En intégrant la compréhension émotionnelle dans le traitement du texte et le phrasé, EmoPP peut créer une parole qui sonne plus humaine et relatable. Ce développement peut impacter diverses applications, des assistants virtuels aux livres audio, rendant l'expérience d'écoute plus engageante.

En avançant, le prochain objectif est de peaufiner ce modèle, de travailler sur des scénarios de parole plus complexes et de le tester sur des ensembles de données diversifiés. Cela aidera à s'assurer que les systèmes TTS peuvent transmettre des émotions d'une manière qui semble naturelle et authentique, améliorant ainsi notre interaction avec la technologie.

En résumé, EmoPP montre beaucoup de promesses pour combler le fossé entre le texte écrit et le mot parlé, permettant à la technologie de mieux refléter les émotions que nous communiquons dans notre parole quotidienne.

Source originale

Titre: Emotion-Aware Prosodic Phrasing for Expressive Text-to-Speech

Résumé: Prosodic phrasing is crucial to the naturalness and intelligibility of end-to-end Text-to-Speech (TTS). There exist both linguistic and emotional prosody in natural speech. As the study of prosodic phrasing has been linguistically motivated, prosodic phrasing for expressive emotion rendering has not been well studied. In this paper, we propose an emotion-aware prosodic phrasing model, termed \textit{EmoPP}, to mine the emotional cues of utterance accurately and predict appropriate phrase breaks. We first conduct objective observations on the ESD dataset to validate the strong correlation between emotion and prosodic phrasing. Then the objective and subjective evaluations show that the EmoPP outperforms all baselines and achieves remarkable performance in terms of emotion expressiveness. The audio samples and the code are available at \url{https://github.com/AI-S2-Lab/EmoPP}.

Auteurs: Rui Liu, Bin Liu, Haizhou Li

Dernière mise à jour: 2023-09-20 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.11724

Source PDF: https://arxiv.org/pdf/2309.11724

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires