Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Son

Avancer dans le texte-à-parole : Explication du modèle GenerTTS

GenerTTS améliore la technologie de synthèse vocale pour des applications multilingues.

― 6 min lire


GenerTTS transforme leGenerTTS transforme letexte en parole.vocale multilingue.GenerTTS révolutionne la synthèse
Table des matières

La technologie de synthèse vocale (TTS) a fait des progrès considérables, permettant aux ordinateurs de lire du texte à voix haute d'une manière qui sonne naturelle. Cependant, créer des voix capables de parler différentes langues tout en capturant des styles et des tons distincts reste un défi. C'est là que la TTS interlinguale entre en jeu. Elle vise à reproduire un style vocal spécifique d'une langue et à l'appliquer à une autre langue qui n'a pas eu ce style dans ses données d'entraînement.

Le Problème

Créer un système TTS qui peut produire une parole expressive et de haute qualité dans plusieurs langues fait face à plusieurs défis.

  1. Lien entre le ton de voix et la Prononciation : Le ton d'une voix, connu sous le nom de timbre, et la façon dont les mots sont prononcés sont étroitement liés. Rassembler suffisamment d'enregistrements d'un seul locuteur capable de parler plusieurs langues couramment est souvent difficile.

  2. Mélange de styles et de prononciation : Différents styles de parole-comme être formel ou décontracté-contiennent des éléments similaires à travers les langues et des parties uniques à chaque langue. Ce mélange complique la tâche d'apprendre à un système à imiter un style spécifique tout en garantissant une prononciation correcte.

La Solution : GenerTTS

Pour relever ces défis, on présente un nouveau modèle TTS appelé GenerTTS. Ce système se concentre sur la séparation du ton de voix et de la prononciation du style de parole. Voici comment ça fonctionne :

Étape 1 : Utilisation efficace des caractéristiques

GenerTTS utilise une méthode spécifique pour décomposer l'audio en ses composants : ton, style et prononciation. En appliquant un modèle appelé HuBERT, il peut identifier efficacement ces éléments à partir des données de parole tout en gardant intactes les parties importantes liées au style et à la prononciation.

Étape 2 : Réduction de l'information spécifique à une langue

Ensuite, GenerTTS minimise le lien entre les caractéristiques propres à une langue et le style de parole global. Cela aide à retirer les informations inutiles liées à une langue spécifique qui pourraient interférer avec le style à transférer.

Applications de GenerTTS

GenerTTS est utile dans diverses situations :

  1. Systèmes TTS multilingues : Il permet aux développeurs de créer des systèmes TTS qui peuvent exprimer des voix et des styles qui ne sont pas entièrement représentés dans les données d'entraînement. C'est particulièrement utile pour les langues avec moins de ressources.

  2. Doublage automatique : Le système permet de remplacer le discours dans des vidéos par un audio traduit qui correspond au ton et au rythme de l'orateur original, même si l'enregistrement original avait peu de données dans la langue cible.

L'importance des caractéristiques vocales

De nombreux systèmes TTS récents ont commencé à utiliser des caractéristiques de parole avancées pour améliorer leur performance. Des caractéristiques telles que les Phonetic Posterior Grams et des modèles d'apprentissage auto-supervisés peuvent aider à distinguer différents éléments de la parole.

Par exemple, le modèle HuBERT aide à conserver l'information de prononciation et de style tout en filtrant le ton de l'orateur. En s'entraînant sur de grandes quantités d'audio, ce modèle apprend à mieux représenter ce qui rend chaque voix unique, permettant une synthèse vocale plus précise.

Structure de GenerTTS

GenerTTS se compose de deux parties principales : la première se concentre sur la conversion des Phonèmes de texte en embeddings HuBERT, tandis que la seconde transforme ces embeddings en Mel-spectrograms, qui sont des représentations visuelles du son.

Phonème à HuBERT (P2H)

Le segment P2H prend une séquence de phonèmes (les plus petites unités de son dans la parole) et prédit l'embedding HuBERT correspondant. Cette section inclut des caractéristiques supplémentaires telles que des prédicteurs de hauteur et d'énergie pour mieux gérer la prononciation.

HuBERT à Mel-spectrogram (H2M)

La partie suivante, H2M, prend les embeddings HuBERT et les convertit en Mel-spectrograms. Cette partie est clé pour adapter le ton de la voix afin de correspondre à différents orateurs, garantissant que la sortie sonne naturelle et convient au style désiré.

Adaptation des styles de parole

Un aspect essentiel de GenerTTS est sa capacité à s'adapter à différents styles de parole. Pour ce faire, un adaptateur de style est inclus dans le système. Ce composant modélise les détails fins du style de parole et aide à séparer le style de la prononciation, facilitant l'adaptation de la parole à de nouveaux contextes.

Test de GenerTTS

Pour confirmer l'efficacité de GenerTTS, des tests ont été effectués en utilisant une grande quantité de données audio provenant de locuteurs chinois et anglais. Les performances ont été mesurées par rapport à deux modèles de référence pour voir comment GenerTTS se comportait en termes de précision de prononciation et de similarité de style.

Résultats

Les résultats ont montré que GenerTTS a atteint de meilleures performances en synthèse vocale interlinguale. Il a montré une forte précision de prononciation et une amélioration de la similarité de style par rapport aux systèmes de référence. Cela signifie que lorsque le système a été chargé de transformer un style vocal d'une langue pour l'utiliser dans une autre langue, il l'a fait avec succès.

L'impact des choix de conception

Une analyse plus approfondie a confirmé que les composants de GenerTTS ont joué un rôle crucial dans son succès. Par exemple, le retrait du modèle HuBERT a conduit à de mauvaises performances, montrant qu'il était essentiel pour séparer le ton de voix du style et de la prononciation.

De plus, la méthode utilisée pour minimiser l'information spécifique à une langue a été trouvée significativement bénéfique pour améliorer la précision de prononciation. Cela a montré que les choix de conception effectués lors du développement de GenerTTS étaient efficaces et bénéfiques pour sa performance.

Conclusion

GenerTTS représente un grand pas en avant dans la création de systèmes de synthèse vocale qui peuvent adapter les voix et les styles à travers les langues. En se concentrant sur la dissociation du ton de voix, de la prononciation et du style, ce système ouvre de nouvelles possibilités pour la technologie TTS. Avec des applications allant de la synthèse vocale multilingue au doublage automatique, GenerTTS peut améliorer notre façon d'interagir avec la technologie et de consommer des médias dans différentes langues.

Source originale

Titre: GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual Text-to-Speech

Résumé: Cross-lingual timbre and style generalizable text-to-speech (TTS) aims to synthesize speech with a specific reference timbre or style that is never trained in the target language. It encounters the following challenges: 1) timbre and pronunciation are correlated since multilingual speech of a specific speaker is usually hard to obtain; 2) style and pronunciation are mixed because the speech style contains language-agnostic and language-specific parts. To address these challenges, we propose GenerTTS, which mainly includes the following works: 1) we elaborately design a HuBERT-based information bottleneck to disentangle timbre and pronunciation/style; 2) we minimize the mutual information between style and language to discard the language-specific information in the style embedding. The experiments indicate that GenerTTS outperforms baseline systems in terms of style similarity and pronunciation accuracy, and enables cross-lingual timbre and style generalization.

Auteurs: Yahuan Cong, Haoyu Zhang, Haopeng Lin, Shichao Liu, Chunfeng Wang, Yi Ren, Xiang Yin, Zejun Ma

Dernière mise à jour: 2023-06-27 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.15304

Source PDF: https://arxiv.org/pdf/2306.15304

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires