Les avancées dans la technologie de synthèse vocale
Les améliorations dans la technologie TTS améliorent la personnalisation et la qualité de la parole.
― 7 min lire
Table des matières
La technologie de synthèse vocale (TTS) permet aux ordis de transformer du texte écrit en mots parlés. Cette technologie a pas mal évolué au fil des ans, devenant plus naturelle et expressive. Un point important dans le TTS est d'adapter les voix pour qu'elles ressemblent à des personnes spécifiques. C'est super important pour des applis où des voix personnalisées sont nécessaires, comme dans les assistants virtuels ou la lecture pour les personnes malvoyantes.
Le Rôle de l'Adaptabilité dans le TTS
Les systèmes TTS adaptatifs utilisent généralement un modèle de base entraîné sur plein de voix différentes. Quand ils ont des données d'une personne en particulier, ils peuvent ajuster le modèle pour que la voix sonne plus comme cette personne. Ces dernières années, des modèles d'apprentissage profond appelés modèles génératifs profonds (DGM) ont montré de super résultats pour produire une parole de haute qualité. Parmi eux, les Modèles de diffusion sont devenus populaires grâce à leur capacité à créer une parole qui sonne de manière naturelle.
Défis dans le TTS Adaptatif
Malgré les avancées, il y a des défis pour créer des systèmes TTS qui peuvent bien s'adapter à différents locuteurs. La recherche actuelle vise à rendre ces systèmes suffisamment flexibles pour fonctionner dans divers environnements et styles. La flexibilité du modèle de base est cruciale pour gérer différents sons et styles de parole sans avoir besoin de trop de données pour s'adapter à chaque nouvelle voix.
Un domaine clé de recherche implique l'utilisation d'encodeurs de référence qui peuvent aider à générer des représentations sonores plus claires. Les chercheurs travaillent aussi sur la conception de modèles qui peuvent contrôler des caractéristiques spécifiques du son qu'ils produisent. Il est important que ces techniques d'adaptation fonctionnent bien avec des modèles qui créent déjà une parole de haute qualité. Les modèles de diffusion ont montré qu'ils pouvaient produire une meilleure qualité que les anciens modèles.
Modèles de Diffusion dans le TTS
Les modèles de diffusion génèrent la parole en affinant des échantillons aléatoires en données cohérentes. Ce processus passe par l'apprentissage d'un réseau capable de prédire le bruit à chaque étape de la génération de la parole. En général, un modèle de diffusion se compose de deux parties : un encodeur qui traite les phonèmes et un décodeur qui affine la sortie. La conception du décodeur est cruciale pour produire une parole claire et naturelle.
La structure commune utilisée pour les décodeurs est un réseau de convolution dilatée bidirectionnel. Cette approche permet au modèle de combiner l'information de différents niveaux de détail dans l'entrée pour générer une sortie plus précise.
Normalisation de Couche Conditionnelle
Pour rendre l'adaptation des modèles de diffusion plus efficace, les chercheurs introduisent une méthode appelée normalisation de couche conditionnelle (CLN). Cette méthode ajuste la façon dont le modèle apprend en fonction des caractéristiques du locuteur. Au lieu d'ajuster tous les paramètres du modèle, ce qui peut être lourd, le CLN permet une approche plus ciblée. Cela réduit le besoin de données abondantes tout en maintenant une bonne qualité d'adaptation.
Le CLN fonctionne en ajustant la sortie selon les informations du locuteur. Cela signifie qu'il peut peaufiner les réponses en fonction de qui est simulé, sans avoir besoin de trop de données.
Configuration Expérimentale
Pour explorer l'efficacité de ces méthodes, plusieurs expériences sont menées pour évaluer dans quelle mesure les modèles de diffusion peuvent s'adapter à de nouveaux locuteurs. L'objectif est d'utiliser moins de ressources tout en obtenant une sortie vocale de haute qualité. Les expériences utilisent une architecture de modèle de diffusion basée sur des modèles existants connus pour leur efficacité et leur qualité.
Dans ces expériences, le modèle est entraîné sur un grand ensemble de données de voix diverses, ce qui lui permet d'apprendre un large éventail de schémas de parole. Pour évaluer la performance du modèle, plusieurs réglages différents sont comparés pour voir quels méthodes donnent les meilleurs résultats.
Résultats des Expériences
Les premiers résultats de ces expériences révèlent des tendances importantes. Quand tout le décodeur de diffusion est adapté, il tend à produire la parole de la meilleure qualité qui correspond le mieux aux caractéristiques du locuteur visé. Cependant, quand seules certaines parties du modèle sont ajustées, la qualité souffre énormément.
Les résultats ont montré que l'adaptation uniquement de l'encodage du locuteur produisait une parole de mauvaise qualité. En revanche, utiliser à la fois le CLN dans le débruiteur et des couches Transformer adaptatives a donné de meilleurs résultats. Cela indique que même si ajuster le CLN peut aider, il doit être utilisé avec d'autres composants pour des résultats optimaux.
Importance du Modèle Transformer
Les Transformers sont une autre classe de modèles qui ont bien fonctionné dans diverses tâches d'apprentissage machine, y compris dans le TTS. Leur structure leur permet d'apprendre efficacement des caractéristiques à partir des données. Ajouter des couches Transformer aux modèles de diffusion peut grandement améliorer la qualité de la parole produite.
Dans les expériences, augmenter le nombre de couches Transformer a amélioré la qualité de la parole et la similitude de la voix générée avec celle du locuteur cible. De plus, ajouter le CLN au débruiteur de diffusion a fourni un bon coup de pouce en performance dans tous les réglages testés.
Tests d'Écoute Subjectifs
En plus des mesures objectives, des auditeurs ont été invités à noter la qualité de la parole produite par différents modèles. Ces tests ont montré que lorsque le décodeur de diffusion est utilisé en plus d'un Transformer, la qualité de la parole et la similitude avec la voix du locuteur cible s'améliorent considérablement.
Les auditeurs ont noté que les échantillons produits avec l'architecture combinée étaient plus naturels et expressifs. On a aussi observé que l'ajout de CLN améliorait encore plus la qualité, notamment en produisant des sons plus clairs et des caractéristiques plus reconnaissables du locuteur cible.
Conclusion
Dans l'ensemble, l'exploration de l'adaptabilité des modèles TTS basés sur la diffusion met en lumière leurs forces et faiblesses. L'utilisation de la normalisation de couche conditionnelle et l'intégration de couches Transformer peuvent mener à de meilleures performances, mais l'adaptabilité des modèles de diffusion peut encore être améliorée.
Cela suggère que même si les modèles de diffusion produisent une parole de haute qualité, ils ont besoin de composants supplémentaires pour atteindre une adaptabilité satisfaisante. Les futurs travaux dans ce domaine devraient viser à affiner ces modèles, en se concentrant sur l'amélioration de leur capacité à s'adapter à différents locuteurs tout en conservant le son naturel pour lequel ils sont connus.
À mesure que la technologie progresse, on peut s'attendre à entendre des voix plus personnalisées et authentiques des systèmes TTS, ce qui profitera à une large gamme d'applis. L'amélioration de la synthèse vocale rendra ces systèmes plus utiles dans la vie quotidienne, que ce soit pour l'assistance, le divertissement ou l'accessibilité.
Titre: An investigation into the adaptability of a diffusion-based TTS model
Résumé: Given the recent success of diffusion in producing natural-sounding synthetic speech, we investigate how diffusion can be used in speaker adaptive TTS. Taking cues from more traditional adaptation approaches, we show that adaptation can be included in a diffusion pipeline using conditional layer normalization with a step embedding. However, we show experimentally that, whilst the approach has merit, such adaptation alone cannot approach the performance of Transformer-based techniques. In a second experiment, we show that diffusion can be optimally combined with Transformer, with the latter taking the bulk of the adaptation load and the former contributing to improved naturalness.
Auteurs: Haolin Chen, Philip N. Garner
Dernière mise à jour: 2023-03-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.01849
Source PDF: https://arxiv.org/pdf/2303.01849
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.