Avancées dans la technologie de synthèse vocale avec U-DiT
Le système U-DiT TTS améliore la génération de la parole naturelle grâce à une architecture innovante.
― 6 min lire
Table des matières
Les systèmes de synthèse vocale (TTS) sont des programmes informatiques qui transforment du texte écrit en mots parlés. Ils sont devenus importants dans plein d’applis, comme les assistants virtuels, les outils d’accessibilité pour les malvoyants, et les logiciels d'apprentissage des langues. Récemment, les avancées en technologie d'apprentissage profond ont permis de générer une voix qui sonne plus naturelle et vivante.
Les bases de la technologie TTS
Un système TTS moderne a généralement deux parties principales : un modèle acoustique et un vocodeur. Le modèle acoustique prend le texte d'entrée et produit des caractéristiques qui représentent comment la voix doit sonner à différents moments. Le vocodeur utilise ensuite ces caractéristiques pour créer la forme d'onde audio réelle de la voix.
Ces dernières années, un type spécifique de caractéristique appelé spectrogrammes mel est devenu largement utilisé dans les systèmes TTS. Ces features offrent une représentation détaillée de la façon dont le son change dans le temps et sont essentielles pour générer une voix de haute qualité.
Avancées dans la synthèse vocale
Les modèles génératifs sont une nouvelle approche en synthèse vocale. Contrairement aux méthodes traditionnelles qui créent la parole image par image, ces modèles apprennent les motifs des signaux vocaux et peuvent générer de nouveaux échantillons de voix en échantillonnant ces motifs appris. Différents types de modèles génératifs, comme les Autoencodeurs Variationnels (VAEs), les Réseaux Adversariaux Génératifs (GANs) et les modèles basés sur les Flux, sont utilisés pour rendre la voix plus naturelle et cohérente.
Une des évolutions intéressantes dans ce domaine est représentée par les Modèles Génératifs Basés sur le Score (SGMs). Ces modèles ont montré un grand succès pour générer des sorties de haute qualité dans divers domaines, y compris la création d'images et la génération de musique. Les SGMs fonctionnent en transformant progressivement un motif de données complexe en un plus simple, permettant à un réseau de neurones d'apprendre les étapes nécessaires pour inverser ce processus et créer de nouvelles sorties.
Introduction du système TTS U-DiT
Récemment, des chercheurs ont proposé une nouvelle architecture appelée U-DiT pour les systèmes TTS. Cette architecture combine des éléments de deux modèles populaires : U-Net et Vision Transformer (ViT). Le modèle U-DiT est conçu pour mieux capturer les relations sous-jacentes dans les données d'entrée, ce qui améliore la qualité de la voix qu'il génère.
U-DiT utilise un modèle basé sur le spectrogramme mel et fonctionne avec un vocodeur connu sous le nom de HiFi-GAN. Les premiers tests ont montré que ce nouveau modèle produisait de meilleurs résultats que les systèmes traditionnels, surtout lorsqu'il était évalué sur un ensemble de données spécifique appelé LJSpeech.
Composantes du TTS U-DiT
L'architecture U-DiT se compose de plusieurs parties essentielles :
Encodeur de texte : Ce composant prend le texte d'entrée et le traite pour extraire des caractéristiques significatives. Il consiste généralement en plusieurs couches qui aident le système à mieux comprendre le texte.
Prédicteur de Durée : Cette partie prédit combien de temps chaque son doit durer en fonction du texte d'entrée. Elle garantit que le timing de la voix générée correspond au flux naturel de la langue.
Décodeur : Le décodeur reconstruit les spectrogrammes mel en formes d'onde audio, en utilisant une combinaison de techniques de réduction et d'augmentation d'échantillons.
Blocs DiT : Ces blocs exploitent les forces de ViT et U-Net. Ils traitent les données d'entrée pour capturer à la fois des caractéristiques de haut niveau et des détails plus fins essentiels pour la synthèse.
Entraînement du modèle U-DiT
L'entraînement du système U-DiT implique plusieurs objectifs. Le modèle doit apprendre à transformer le texte en mots parlés tout en minimisant les erreurs. Différentes fonctions de perte guident le processus d'entraînement, aidant à améliorer la qualité de la voix générée.
Pendant l'entraînement, le modèle traite un ensemble de données contenant des échantillons audio et leurs transcriptions textuelles correspondantes. Il ajuste ses paramètres en fonction de la différence entre la voix générée et l'audio cible.
Expérimentation et évaluation
Le système TTS U-DiT a été évalué par rapport à d'autres modèles, comme Grad-TTS, pour mesurer sa performance. Les métriques d'évaluation incluent la distance Frechet (FD), la distance log-spectrale (LSD) et la divergence de Kullback–Leibler (KLD). Ces mesures aident les chercheurs à comprendre à quel point la voix générée correspond à la parole naturelle.
Des tests subjectifs, comme le Score d’Opinion Moyen (MOS), sont aussi réalisés. Dans ces tests, des auditeurs évaluent la qualité de la voix générée. Les résultats ont montré que U-DiT produisait une voix plus naturelle par rapport au système de référence.
Directions futures
Bien que l'architecture U-DiT montre des résultats prometteurs, il y a encore des défis à relever. Par exemple, le modèle nécessite actuellement des tailles d'entrée spécifiques et des données d'entraînement de haute qualité. La recherche future vise à aborder ces limitations et à optimiser davantage le système pour obtenir encore de meilleures performances.
Les chercheurs explorent aussi des moyens de rendre la technologie TTS plus adaptable et capable de gérer différentes langues et accents. Ça pourrait largement élargir l'utilisation des systèmes TTS dans différents contextes.
Conclusion
Le système TTS U-DiT représente un pas en avant significatif dans la technologie de synthèse vocale. En combinant les forces de différentes architectures de réseaux neuronaux, il a le potentiel de produire une voix qui sonne plus vivante et naturelle. À mesure que la recherche continue d'avancer, on peut s'attendre à ce que les systèmes TTS deviennent encore plus sophistiqués et largement utilisés dans notre vie quotidienne.
Titre: U-DiT TTS: U-Diffusion Vision Transformer for Text-to-Speech
Résumé: Deep learning has led to considerable advances in text-to-speech synthesis. Most recently, the adoption of Score-based Generative Models (SGMs), also known as Diffusion Probabilistic Models (DPMs), has gained traction due to their ability to produce high-quality synthesized neural speech in neural speech synthesis systems. In SGMs, the U-Net architecture and its variants have long dominated as the backbone since its first successful adoption. In this research, we mainly focus on the neural network in diffusion-model-based Text-to-Speech (TTS) systems and propose the U-DiT architecture, exploring the potential of vision transformer architecture as the core component of the diffusion models in a TTS system. The modular design of the U-DiT architecture, inherited from the best parts of U-Net and ViT, allows for great scalability and versatility across different data scales. The proposed U-DiT TTS system is a mel spectrogram-based acoustic model and utilizes a pretrained HiFi-GAN as the vocoder. The objective (ie Frechet distance) and MOS results show that our DiT-TTS system achieves state-of-art performance on the single speaker dataset LJSpeech. Our demos are publicly available at: https://eihw.github.io/u-dit-tts/
Auteurs: Xin Jing, Yi Chang, Zijiang Yang, Jiangjian Xie, Andreas Triantafyllopoulos, Bjoern W. Schuller
Dernière mise à jour: 2023-05-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.13195
Source PDF: https://arxiv.org/pdf/2305.13195
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.