Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Son

MSceneSpeech : Faire avancer la synthèse vocale en mandarin

Un nouveau jeu de données améliore la parole des machines pour le mandarin, visant une expression naturelle.

― 7 min lire


Révolutionner laRévolutionner latechnologie de la paroleen mandarinsynthèse vocale pour le mandarin.Nouveau jeu de données transforme la
Table des matières

MSceneSpeech est un nouveau dataset créé pour aider les machines à parler comme des humains. Il est spécialement conçu pour la parole mandarine et vise à rendre la parole plus naturelle et expressive. Le dataset contient beaucoup d'Enregistrements audio représentant différentes situations du quotidien, comme discuter, lire les nouvelles, répondre à des questions et raconter des histoires. Ces enregistrements présentent plusieurs intervenants et une variété de styles de discours.

But de MSceneSpeech

L'objectif principal de MSceneSpeech est de faciliter la synthèse de discours qui semble plus humain. Aujourd'hui, les gens veulent des machines qui peuvent non seulement parler clairement, mais aussi exprimer des émotions et adapter leur style de parole selon les différents contextes. Ce dataset est une ressource précieuse pour les chercheurs et développeurs qui souhaitent améliorer la technologie de Synthèse vocale.

Les caractéristiques uniques de MSceneSpeech

MSceneSpeech se distingue parce qu'il fournit des enregistrements qui capturent comment les gens parlent vraiment dans la vie de tous les jours. Chaque enregistrement est réalisé par des intervenants professionnels qui délivrent des répliques basées sur des situations spécifiques plutôt que de simplement lire un texte à voix haute. Cette approche aide à capturer les nuances du langage parlé, comme le ton, le rythme et l'émotion, qui sont importants pour créer un discours expressif.

Le dataset contient environ 15 heures d'audio de haute qualité, soigneusement organisées par des étiquettes de scène spécifiques et des identités de locuteurs. Cette structure permet un accès facile et une utilisation dans différentes tâches de synthèse vocale.

Comment MSceneSpeech fonctionne

MSceneSpeech est conçu pour améliorer la manière dont les machines génèrent de la parole. Il aide à créer une séparation plus claire entre le son de la voix du locuteur (timbre) et la façon dont il exprime son discours (Prosodie). Le dataset permet aux chercheurs de former des modèles qui prennent en compte à la fois la voix du locuteur et sa façon de parler dans différents contextes.

Pour y parvenir, MSceneSpeech utilise une méthode spéciale appelée "prompting". Cette méthode consiste à conditionner la génération de la parole sur différents aspects de l'audio, comme le ton et la hauteur. De cette façon, les machines peuvent apprendre à produire un son qui ressemble de près à la parole humaine dans diverses situations.

Comparaison avec d'autres datasets

Ces dernières années, beaucoup d'autres datasets ont émergé, mais ils se concentrent souvent sur des données de style lecture, qui manquent de la variation naturelle que l'on trouve dans une conversation quotidienne. MSceneSpeech comble cette lacune en fournissant des enregistrements contenant un riche contenu émotionnel et stylistique.

Alors que d'autres datasets peuvent être restreints ou non accessibles à tous, MSceneSpeech est une ressource open source. Cela signifie que n'importe qui peut y accéder et l'utiliser pour ses recherches ou projets, favorisant un environnement collaboratif dans le domaine de la synthèse vocale.

Le défi de la prosodie dans la synthèse vocale

Un des plus grands défis pour rendre la parole naturelle est d'atteindre une bonne prosodie, qui se réfère au rythme, à l'accentuation et à l'intonation dans le langage parlé. Beaucoup de datasets existants n'ont pas d'étiquettes détaillées pour la prosodie, ce qui rend difficile pour les développeurs de contrôler comment la parole sonne.

MSceneSpeech aborde ce problème en fournissant des enregistrements diversifiés avec une étiquetage prosodique clair. Cela facilite l'apprentissage et la génération d'un discours qui ressemble davantage à une vraie personne en train de parler.

Enregistrement et traitement des données

Pour créer MSceneSpeech, l'équipe a soigneusement sélectionné diverses scènes et textes pertinents pour chaque situation. Des acteurs voix professionnels ont enregistré l'audio, en mettant l'accent sur la transmission des bonnes émotions et tons. Cette attention aux détails garantit que les enregistrements ne sont pas seulement techniquement bons, mais aussi captivants à écouter.

Après l'enregistrement, les données ont été traitées pour assurer clarté et précision. Les clips audio ont été maintenus dans une durée spécifique pour préserver la cohérence. L'équipe a vérifié les transcriptions de l'audio pour s'assurer qu'elles correspondaient étroitement au texte original, corrigeant les erreurs si nécessaire.

Composition du dataset

MSceneSpeech comprend une variété de scénarios, ce qui aide à fournir une large perspective sur la façon dont les gens communiquent. Il se compose de quatre catégories principales : Discussions, Actualités, QA (Questions et Réponses), et Récits. Chaque catégorie contient des enregistrements de différents locuteurs, présentant un mélange de voix et de styles.

Le dataset est divisé en sous-ensembles d'entraînement et de test. Les données d'entraînement sont utilisées pour enseigner aux modèles, tandis que les données de test sont utilisées pour évaluer la performance des modèles. Cette division aide à s'assurer que les modèles de synthèse peuvent bien généraliser et s'adapter à de nouvelles entrées.

Le modèle de référence

Pour tirer le meilleur parti du dataset MSceneSpeech, un modèle de référence a été développé. Ce modèle profite des données riches fournies et utilise une combinaison de techniques avancées pour produire un discours de haute qualité.

L'architecture du modèle comprend plusieurs composants : un encodeur linguistique qui traite le texte, un encodeur adaptatif de style qui ajuste les caractéristiques vocales, et un encodeur de timbre qui se concentre sur le son unique de chaque locuteur. En combinant ces éléments, le modèle peut générer un discours qui maintient le style et l'émotion d'origine de l'audio de référence.

Comment le modèle de référence fonctionne

Le modèle de référence utilise une méthode appelée "Prediction de Prosodie Masquée" (MPM), qui aide à former le modèle à prédire des aspects de la parole comme la durée, la hauteur et l'énergie. Pendant l'entraînement, certaines de ces informations sont masquées, incitant le modèle à apprendre des parties non masquées. Cette technique aide à améliorer la capacité du modèle à générer un discours qui sonne naturellement.

En modélisant la prosodie dans des composants séparés, le modèle de référence peut contrôler efficacement la manière dont il génère la parole en fonction des entrées fournies. Cela facilite la production d'un discours qui s'aligne avec le style prévu et offre une expérience plus engageante pour les auditeurs.

Expérimentation et résultats

L'efficacité du dataset MSceneSpeech et de son modèle de référence a été évaluée à travers diverses expériences. Les chercheurs ont testé la capacité des modèles à s'adapter à différents locuteurs et styles, mesurant à la fois des métriques de performance subjectives et objectives.

Les évaluations subjectives consistaient à demander aux auditeurs d'évaluer divers aspects de la parole générée, comme la qualité et la cohérence. Les évaluations objectives se concentraient sur des scores numériques pour évaluer à quel point la parole synthétisée correspondait aux enregistrements originaux.

Les résultats ont montré que le modèle de référence obtenait une performance impressionnante, s'adaptant avec succès à différents locuteurs et fournissant une gamme de styles expressifs. Cela souligne le potentiel du dataset pour faire progresser la technologie de synthèse vocale.

Conclusion

MSceneSpeech est une ressource innovante et précieuse pour la recherche en synthèse vocale, en particulier dans le contexte de la parole mandarine. Il fournit un dataset complet qui met en avant une variété de scénarios de la vie réelle, aidant les machines à produire un discours qui sonne plus humain et expressif.

En abordant les défis liés à la prosodie et à l'adaptation vocale, MSceneSpeech ouvre de nouvelles opportunités pour les développeurs et chercheurs dans ce domaine. Avec son solide modèle de référence, le potentiel pour améliorer l'interaction machine-humain continue de croître, ouvrant la voie à un futur où les machines peuvent communiquer sans effort avec les gens.

Source originale

Titre: MSceneSpeech: A Multi-Scene Speech Dataset For Expressive Speech Synthesis

Résumé: We introduce an open source high-quality Mandarin TTS dataset MSceneSpeech (Multiple Scene Speech Dataset), which is intended to provide resources for expressive speech synthesis. MSceneSpeech comprises numerous audio recordings and texts performed and recorded according to daily life scenarios. Each scenario includes multiple speakers and a diverse range of prosodic styles, making it suitable for speech synthesis that entails multi-speaker style and prosody modeling. We have established a robust baseline, through the prompting mechanism, that can effectively synthesize speech characterized by both user-specific timbre and scene-specific prosody with arbitrary text input. The open source MSceneSpeech Dataset and audio samples of our baseline are available at https://speechai-demo.github.io/MSceneSpeech/.

Auteurs: Qian Yang, Jialong Zuo, Zhe Su, Ziyue Jiang, Mingze Li, Zhou Zhao, Feiyang Chen, Zhefeng Wang, Baoxing Huai

Dernière mise à jour: 2024-07-18 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.14006

Source PDF: https://arxiv.org/pdf/2407.14006

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires