Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Intelligence artificielle# Calcul et langage# Apprentissage automatique# Son

StyleTTS 2 : Faire avancer la technologie de synthèse vocale

Un nouveau modèle améliore le réalisme de la parole synthétique.

― 10 min lire


StyleTTS 2 : SynthèseStyleTTS 2 : Synthèsevocale de nouvellegénérationsynthétiques réalistes.Un bond dans la technologie des voix
Table des matières

La technologie de synthèse vocale (TTS) a fait des progrès énormes ces dernières années. Elle transforme le texte écrit en mots parlés, ce qui permet des applis comme les assistants virtuels, les livres audio et la narration vocale dans plein de domaines. Mais créer des voix synthétiques naturelles et expressives reste un défi. Beaucoup de systèmes existants ont obtenu des résultats impressionnants, mais il y a encore des améliorations à faire pour livrer une parole diversifiée et émotionnelle tout en étant robuste dans les situations où le texte d'entrée diffère de ce que le modèle a déjà vu.

Cet article présente un nouveau modèle appelé StyleTTS 2 qui vise à rapprocher les systèmes TTS de la performance humaine. Ce modèle avancé adopte une approche unique en utilisant la diffusion de style et l'entraînement adversarial avec de grands modèles de langage de la parole.

Contexte

La synthèse vocale a beaucoup évolué, avec des systèmes cherchant à reproduire une parole humaine. De nombreuses approches ont été développées pour améliorer le réalisme et l'expressivité de la parole synthétique. Tandis que les anciens modèles se basaient sur des enregistrements humains spécifiques, les nouveaux modèles cherchent à générer de la parole dynamiquement selon différents textes d'entrée.

L'objectif d'atteindre une synthèse vocale de niveau humain a poussé les chercheurs à expérimenter diverses techniques, y compris l'utilisation de grands modèles pré-entraînés sur des quantités massives de données audio. Ces modèles aident à adapter la parole générée pour mieux correspondre aux intonations humaines, aux émotions et aux patterns de discours.

Le défi

Malgré les avancées, créer un système TTS capable de gérer différents styles de parole et de s'adapter à divers contextes reste un défi. La plupart des modèles ont du mal avec les textes hors distribution, ce qui signifie qu'ils fonctionnent mal face à des phrases qu'ils n'ont pas rencontrées dans leurs données d'entraînement. De plus, créer une parole expressive et variée sans dépendre de vastes ensembles de données est toujours un problème en cours.

Pour relever ces défis, les développeurs de StyleTTS 2 ont travaillé sur un système capable de synthétiser une parole qui sonne plus naturelle et qui peut s'adapter à différents locuteurs et contextes sans avoir besoin de grandes quantités de données d'entraînement.

Aperçu de StyleTTS 2

StyleTTS 2 est un nouveau modèle basé sur les avancées précédentes en technologie TTS. Il révolutionne la manière dont les styles de parole sont gérés en les considérant comme des variables aléatoires qui peuvent changer selon le texte d'entrée. Cela permet au système de générer une parole adaptée au contexte du texte au lieu de s'appuyer uniquement sur des enregistrements existants de la parole humaine.

En employant une méthode unique appelée diffusion de style, le modèle peut générer une parole diversifiée plus efficacement. Le système peut également utiliser de grands modèles de parole pré-entraînés comme évaluateurs pour s'assurer que les voix générées sont naturelles et agréables à écouter.

Comment fonctionne StyleTTS 2

Diffusion de style

Au cœur de StyleTTS 2 se trouve le concept de diffusion de style. Cette technique permet au modèle de sampler différents styles de parole à partir d'un ensemble de possibilités, ce qui signifie qu'il peut générer une parole qui semble appropriée pour divers contextes et émotions. C'est surtout utile dans des situations où différents tons ou styles sont nécessaires, comme dans un discours formel, une conversation décontractée ou un récit émotionnel.

Contrairement aux modèles précédents qui se basaient sur des enregistrements fixes pour le style, StyleTTS 2 échantillonne des vecteurs de style basés sur le texte d'entrée. Cela signifie qu'il peut créer une variété de styles de discours sur le moment, permettant une expérience TTS plus dynamique et réactive.

Entraînement adversarial

StyleTTS 2 utilise également un entraînement adversarial, une méthode qui associe deux composants : un générateur qui crée de la parole et un discriminateur qui évalue la qualité de la parole générée. Cette approche d'entraînement va-et-vient permet au générateur d'apprendre de ses erreurs et d'améliorer ses résultats grâce aux retours du discriminateur.

Le discriminateur est un grand modèle de parole qui a été pré-entraîné sur une quantité massive de données audio. Il aide à informer le générateur sur la manière dont la parole générée ressemble à la parole humaine, permettant au système de faire des ajustements pour améliorer la qualité.

Performance et évaluation

La performance de StyleTTS 2 a été évaluée à l'aide de multiples ensembles de données. Les résultats montrent qu'il surpasse la qualité des enregistrements humains dans certaines conditions et performe au niveau pour des tâches multi-locuteurs. Lors des tests, il a obtenu des notes significatives en termes de Naturel et de similarité avec la parole humaine.

Ces évaluations indiquent que StyleTTS 2 est capable de produire une parole de haute qualité, à la fois expressive et adaptable, faisant de lui une avancée significative dans la technologie TTS. Le modèle a également montré des performances remarquables lorsqu'il a été entraîné sur des ensembles de données divers, démontrant une meilleure adaptabilité à différents locuteurs.

Travaux connexes

De nombreux chercheurs se sont concentrés sur l'amélioration des systèmes TTS au fil des ans, notamment en appliquant de grands modèles de langage. Cela a conduit au développement de diverses techniques visant à rendre la parole plus naturelle et humaine.

L'introduction des GANs (Réseaux Antagonistes Génératifs) a également joué un rôle considérable dans le raffinement de la parole synthétique. Ces réseaux permettent de créer des modèles qui apprennent à partir des données existantes pour produire des résultats de haute qualité. Cependant, même les meilleurs modèles basés sur les GANs rencontrent des limites en termes d'efficacité et de génération de discours diversifiée par rapport aux nouvelles approches de diffusion.

Avancées récentes

Les modèles récents ont cherché à pallier les lacunes de la technologie TTS en intégrant des entraînements plus étendus et en se concentrant sur l'expressivité émotionnelle de la parole. Ces avancées ont fait d'énormes progrès vers la réalisation de voix synthétiques plus réalistes.

Des évaluations comparatives de divers systèmes TTS montrent que, bien que certains modèles fonctionnent bien dans des cas isolés, ils échouent souvent face à des situations hors distribution. StyleTTS 2 vise à rectifier cela en étant robuste dans différents contextes et capable de générer des résultats expressifs qui s'adaptent aux nuances de la parole humaine.

Méthodologie

La méthodologie de StyleTTS 2 se compose de plusieurs composants clés, y compris l'architecture du modèle, le processus d'entraînement et les techniques spécifiques utilisées pour la diffusion de style et l'entraînement adversarial.

Architecture du modèle

StyleTTS 2 est conçu avec plusieurs modules interconnectés qui travaillent ensemble de manière fluide pour produire une parole de haute qualité. Ces modules comprennent l'encodeur de texte, l'encodeur de style, le générateur acoustique et le décodeur de sortie. Chaque composant joue un rôle dans le traitement du texte d'entrée et la génération de la parole finale.

En configurant ces modules pour fonctionner de manière de bout en bout, le modèle peut générer efficacement de la parole sans dépendre de composants pré-fixés.

Processus d'entraînement

Le processus d'entraînement de StyleTTS 2 implique deux principales étapes : le pré-entraînement et l'entraînement joint. Le pré-entraînement se concentre sur le développement des modules acoustiques, tandis que l'entraînement joint optimise l'ensemble du système pour fonctionner ensemble efficacement.

Durant le pré-entraînement, le modèle apprend à reconstruire des mel-spectrogrammes, qui représentent l'audio d'une manière pouvant être traitée. Ensuite, le système subit un entraînement joint, où il affine sa capacité à prédire les durées et à appliquer la prosodie, garantissant que la parole générée sonne naturelle et fluide.

Diffusion de style et contrôle du discours

L'introduction de la diffusion de style permet à StyleTTS 2 de sampler une variété de styles basés sur le texte d'entrée. Cette fonctionnalité est cruciale pour créer une parole expressive qui s'aligne avec l'émotion ou le ton voulu du texte.

Un aspect clé de ce processus est l'utilisation de mises à jour récurrentes des vecteurs de style, permettant au modèle de s'ajuster en temps réel alors qu'il génère chaque section de parole. Ce contrôle sur le discours aide à maintenir la cohérence et l'authenticité émotionnelle tout au long de passages de texte plus longs.

Résultats et analyse

Évaluation par rapport à d'autres modèles

StyleTTS 2 a été évalué par rapport à d'autres modèles TTS leaders à travers des ensembles de données populaires. Les résultats ont montré de manière constante sa capacité à produire une parole plus naturelle et expressive que les systèmes existants.

Les scores de référence ont démontré que StyleTTS 2 respecte non seulement les normes actuelles de performance TTS, mais les dépasse dans plusieurs indicateurs clés, en particulier en naturalité, fluidité et expressivité émotionnelle.

Retours utilisateurs

Les retours des évaluateurs humains ont également confirmé la haute performance du modèle. Beaucoup d'auditeurs ont noté que la parole générée se sentait souvent plus engageante et vivante comparée aux autres voix synthétiques, renforçant encore la crédibilité de StyleTTS 2 dans le domaine de la technologie TTS.

Défis et limitations

Malgré ses avancées, StyleTTS 2 fait encore face à certains défis et limitations. Un domaine d'amélioration significatif est la gestion de styles de parole divers et complexes dans différents contextes, surtout parmi de grands ensembles de données avec des milliers de locuteurs.

De plus, bien que le modèle ait montré un grand potentiel pour l'adaptation de locuteurs sans entraînement, il y a encore des domaines où sa performance peut être améliorée. Une recherche et un développement continus sont nécessaires pour affiner ces aspects du modèle.

Conclusion

StyleTTS 2 représente une avancée notable dans la technologie de synthèse vocale. Avec son utilisation innovante de la diffusion de style et de l'entraînement adversarial, il a établi un nouveau standard pour les systèmes de synthèse vocale. La capacité de produire une parole expressive, adaptable et d'un haut degré de naturalité place StyleTTS 2 à l'avant-garde des avancées en TTS.

À mesure que la recherche continue, on espère d'autres améliorations qui pourront répondre aux limitations actuelles et élargir les capacités des systèmes TTS. L'avenir de la technologie de voix synthétique semble prometteur, avec StyleTTS 2 en tête.

Source originale

Titre: StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

Résumé: In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that leverages style diffusion and adversarial training with large speech language models (SLMs) to achieve human-level TTS synthesis. StyleTTS 2 differs from its predecessor by modeling styles as a latent random variable through diffusion models to generate the most suitable style for the text without requiring reference speech, achieving efficient latent diffusion while benefiting from the diverse speech synthesis offered by diffusion models. Furthermore, we employ large pre-trained SLMs, such as WavLM, as discriminators with our novel differentiable duration modeling for end-to-end training, resulting in improved speech naturalness. StyleTTS 2 surpasses human recordings on the single-speaker LJSpeech dataset and matches it on the multispeaker VCTK dataset as judged by native English speakers. Moreover, when trained on the LibriTTS dataset, our model outperforms previous publicly available models for zero-shot speaker adaptation. This work achieves the first human-level TTS on both single and multispeaker datasets, showcasing the potential of style diffusion and adversarial training with large SLMs. The audio demos and source code are available at https://styletts2.github.io/.

Auteurs: Yinghao Aaron Li, Cong Han, Vinay S. Raghavan, Gavin Mischler, Nima Mesgarani

Dernière mise à jour: 2023-11-19 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.07691

Source PDF: https://arxiv.org/pdf/2306.07691

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires