Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Son

Avancées dans la technologie de conversion texte-parole

FoundationTTS améliore le naturel et la diversité dans la synthèse vocale.

― 6 min lire


Synthèse vocale deSynthèse vocale denouvelle générationsystèmes de synthèse vocale.FoundationTTS change la donne dans les
Table des matières

La technologie de synthèse vocale (TTS) a beaucoup évolué pour faire parler les machines comme des humains. Cette technologie prend du texte écrit et le transforme en mots prononcés. Elle est utilisée dans diverses applications comme les assistants virtuels, les outils de lecture pour les personnes malvoyantes et les chatbots de service client. L’un des principaux objectifs est de produire une parole qui sonne naturelle et facile à comprendre.

Le Défi de Produire une Parole Naturelle

Produire une parole qui ressemble à celle d'une vraie personne peut être compliqué. Les systèmes TTS traditionnels s’appuient souvent sur deux parties principales : un modèle acoustique et un Vocodeur. Le modèle acoustique transforme le texte en une représentation du son, tandis que le vocodeur convertit cette représentation en son réel. Cependant, ces systèmes ont certaines limitations.

Un gros souci est que prédire les sons à partir du texte seulement n'est pas simple. Le système doit prendre en compte des facteurs supplémentaires comme la durée d'un son et sa hauteur, ce qui complique les choses. De plus, lorsqu'il s'agit de générer un discours avec différents styles et émotions, les méthodes traditionnelles peuvent galérer.

Une Nouvelle Approche : FoundationTTS

FoundationTTS est un système de synthèse vocale innovant conçu pour relever ces défis. Il combine deux technologies avancées : un codec audio neural pour traiter le son et un grand modèle linguistique pour générer des tokens de parole à partir du texte. Cette approche vise à produire une parole plus variée et naturelle.

Comment ça Marche FoundationTTS

FoundationTTS fonctionne en deux étapes principales. Dans la première étape, il utilise un codec audio hiérarchique. Ce système capture d'abord les détails du son à partir du signal audio et les convertit en une forme manipulable. La deuxième étape implique un modèle linguistique qui utilise ces informations traitées pour générer de vrais tokens de parole. En se concentrant sur des tokens de discours discrets plutôt que sur des caractéristiques sonores continues, FoundationTTS peut créer des sorties vocales plus variées et flexibles.

Avantages de FoundationTTS

FoundationTTS a montré des résultats prometteurs dans la génération de discours de haute qualité. Il a amélioré la naturalité et la cohérence par rapport aux modèles traditionnels. La capacité du modèle à générer un discours diversifié a des applications importantes dans des domaines comme la reconnaissance automatique de la parole (ASR), où comprendre et s'adapter à différents accents et styles de parole est crucial.

Personnalisation de l'ASR

Personnaliser les systèmes ASR peut améliorer leur capacité à comprendre la langue parlée, surtout dans les cas où la langue n'est pas couramment utilisée ou est complexe. En utilisant la parole synthétique créée par FoundationTTS, ces systèmes peuvent être entraînés plus efficacement, ce qui réduit les erreurs lorsqu'ils essaient de comprendre un discours en direct.

Le Rôle des Données dans le TTS

L’efficacité des systèmes TTS dépend beaucoup de la qualité et de la variété des données utilisées pour l’entraînement. Les modèles TTS traditionnels ont souvent du mal avec des ensembles de données plus petits et plus propres. En revanche, FoundationTTS utilise des ensembles de données plus grands et plus divers, y compris des enregistrements réels avec différents accents et styles de parole. Cela aide le modèle à apprendre et à produire un discours qui sonne plus naturel dans différents contextes.

Évaluation de la Qualité de FoundationTTS

Pour évaluer la qualité de la parole générée par FoundationTTS, plusieurs tests sont réalisés. Ces évaluations incluent à la fois des mesures subjectives, où les auditeurs notent le discours, et des mesures objectives, qui mesurent la qualité technique de la sortie audio. Les résultats montrent que FoundationTTS surpasse les modèles existants, prouvant qu'il peut fournir un discours plus clair et plus réaliste.

Retour des Auditeurs

Pour recueillir les retours des auditeurs, un groupe de juges est chargé de noter des échantillons de discours produits par FoundationTTS et des systèmes traditionnels. Les notes montrent que FoundationTTS améliore nettement la naturalité du discours, le rendant plus attrayant pour les auditeurs.

Aspects Techniques de FoundationTTS

FoundationTTS est construit sur des technologies avancées, y compris la Quantification vectorielle et les techniques d'entraînement adversarial. Ces méthodes sont essentielles pour encoder la parole d’une manière qui préserve sa qualité tout en permettant aussi de la flexibilité dans la génération.

Quantification Vecteur

La quantification vectorielle est une technique utilisée pour simplifier la représentation des données vocales. Au lieu de travailler avec des valeurs continues, elle les convertit en tokens discrets. Cela aide à gérer les données et permet au système de générer des sorties diversifiées plus facilement.

Entraînement Adversarial

L'entraînement adversarial implique de former le système avec des données réelles et synthétiques. En exposant le modèle à une variété de sons et de situations, il apprend à générer un discours qui est non seulement précis mais aussi varié et humain.

Opportunités et Risques Futurs

Le développement de systèmes TTS avancés comme FoundationTTS ouvre de nouvelles opportunités dans divers domaines. Cependant, cela apporte aussi des risques potentiels, notamment en ce qui concerne la confidentialité et l'utilisation éthique de la technologie. À mesure que le TTS devient plus sophistiqué, le potentiel de mauvaise utilisation, comme la production de clones vocaux réalistes sans consentement, augmente.

Conclusion

FoundationTTS représente un pas en avant significatif dans la technologie de synthèse vocale. En s'appuyant sur des techniques avancées et des ensembles de données volumineux, il améliore la qualité et la diversité du discours généré. Alors que cette technologie continue d'évoluer, elle promet d'améliorer la communication dans de nombreux domaines, tout en nécessitant une réflexion soigneuse sur les implications éthiques impliquées.

Source originale

Titre: FoundationTTS: Text-to-Speech for ASR Customization with Generative Language Model

Résumé: Neural text-to-speech (TTS) generally consists of cascaded architecture with separately optimized acoustic model and vocoder, or end-to-end architecture with continuous mel-spectrograms or self-extracted speech frames as the intermediate representations to bridge acoustic model and vocoder, which suffers from two limitations: 1) the continuous acoustic frames are hard to predict with phoneme only, and acoustic information like duration or pitch is also needed to solve the one-to-many problem, which is not easy to scale on large scale and noise datasets; 2) to achieve diverse speech output based on continuous speech features, complex VAE or flow-based models are usually required. In this paper, we propose FoundationTTS, a new speech synthesis system with a neural audio codec for discrete speech token extraction and waveform reconstruction and a large language model for discrete token generation from linguistic (phoneme) tokens. Specifically, 1) we propose a hierarchical codec network based on vector-quantized auto-encoders with adversarial training (VQ-GAN), which first extracts continuous frame-level speech representations with fine-grained codec, and extracts a discrete token from each continuous speech frame with coarse-grained codec; 2) we jointly optimize speech token, linguistic tokens, speaker token together with a large language model and predict the discrete speech tokens autoregressively. Experiments show that FoundationTTS achieves a MOS gain of +0.14 compared to the baseline system. In ASR customization tasks, our method achieves 7.09\% and 10.35\% WERR respectively over two strong customized ASR baselines.

Auteurs: Ruiqing Xue, Yanqing Liu, Lei He, Xu Tan, Linquan Liu, Edward Lin, Sheng Zhao

Dernière mise à jour: 2023-03-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.02939

Source PDF: https://arxiv.org/pdf/2303.02939

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires