Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Son

Avancées dans le transfert de style de texte en parole

De nouvelles techniques améliorent la qualité de la parole expressive chez différents locuteurs.

Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões, Mário U. Neto, Fernando Runstein, Bianca Dal Bó, Paula D. P. Costa

― 7 min lire


Relever les défis duRelever les défis dutransfert de style TTSlocuteurs.qualité de la TTS et la similitude desLes données synthétiques améliorent la
Table des matières

Créer un discours qui a l'air naturel et expressif, c'est pas facile dans le domaine de la technologie TTS (synthèse vocale). Un gros défi, c'est de transférer le style d'un locuteur à un autre tout en gardant la voix unique de chaque intervenant. C'est encore plus galère quand il n'y a pas assez de données des locuteurs expressifs. Dans ces cas-là, des techniques comme la Conversion de voix (VC) aident à produire un discours expressif en modifiant la voix d'un locuteur source pour correspondre au style d'un locuteur cible.

Contexte

Pour produire un discours expressif pour différents locuteurs, on utilise le transfert de style inter-locuteur. Ce méthode permet de transférer le style de parole d'un locuteur de référence à un locuteur cible, même si ce dernier n'a que des enregistrements neutres. Cependant, obtenir une bonne qualité dans ce transfert de style n'est pas simple, surtout quand il faut séparer différents aspects d'une voix : l'identité du locuteur et son style de parole.

Ces dernières années, des chercheurs ont développé de nouvelles méthodes pour aborder ce problème. Certaines méthodes impliquent d'utiliser un module appel é l'Encodeur de Référence (RE) pour créer une représentation de style à partir d'un extrait audio de référence. Cette représentation de style peut ensuite être utilisée dans les modèles TTS pour aider à contrôler comment le discours sonne. Cependant, le problème de la fuite de locuteur persiste, où des infos sur la voix du locuteur original influencent involontairement le résultat.

Le Rôle de la Conversion de Voix

Les modèles de conversion de voix jouent un rôle crucial dans la création de discours synthétiques expressifs, surtout quand les données sont rares. Ces modèles prennent des enregistrements neutres d'un locuteur et les transforment en discours expressif qui transmet des émotions ou des styles de parole spécifiques. La qualité de ces voix converties affecte les performances globales du modèle TTS.

Dans cette approche, les chercheurs développent un modèle de conversion de voix qui aide à générer des Données synthétiques, qui peuvent par la suite être utilisées pour entraîner le système TTS. En appliquant des techniques comme la perturbation de timbre, qui modifie les caractéristiques vocales du locuteur, les chercheurs visent à créer un Encodeur de style qui peut produire de meilleures représentations de styles de parole sans faire fuiter l'identité du locuteur.

Génération de Données Synthétiques

Pour créer des données synthétiques, un modèle de conversion de voix unique a été utilisé. Ce modèle traite l'audio en utilisant divers encodeurs qui capturent différentes caractéristiques vocales, comme l'identité du locuteur, le contenu parlé, et le ton émotionnel. En employant ces encodeurs, le modèle peut efficacement séparer et manipuler les différents aspects de la parole pour produire des voix synthétiques de haute qualité.

Par exemple, le modèle analyse le ton, la tonalité et le rythme de la voix tout en s'assurant que le contenu reste compréhensible. En entraînant ce modèle et en l'ajustant avec des ensembles de données spécifiques, les chercheurs peuvent générer une grande quantité de discours expressif synthétique qui peut être utilisé dans le cadre TTS.

Entraînement de l'Encodeur de Style et du Modèle TTS

Le processus d'entraînement du modèle TTS implique deux étapes clés. Initialement, l'encodeur de style est pré-entraîné en utilisant les données synthétiques générées par le modèle de conversion de voix. Cette étape se concentre sur la création de représentations solides des différents styles de parole tout en évitant toute fuite d'infos sur le locuteur. La deuxième étape consiste à utiliser l'encodeur de style pré-entraîné dans l'entraînement TTS, où il reste inchangé.

Pendant l'entraînement, on utilise à la fois des données originales et synthétiques. Cette combinaison garantit que le modèle TTS apprend à transférer efficacement les styles d'un locuteur à un autre tout en gardant un son naturel.

Trois expériences principales ont été menées pour évaluer l'impact de l'utilisation de données synthétiques dans divers scénarios d'entraînement :

  1. Synth None : Seules les données expressives originales sont utilisées pour l'entraînement.
  2. Synth TTS : Des données synthétiques sont ajoutées seulement pendant la phase d'entraînement TTS.
  3. Synth Both : Des données synthétiques sont incluses pendant les phases d'entraînement de l'encodeur de style et de TTS.

Résultats et Observations

Les résultats des expériences ont montré des variations significatives dans la qualité de la parole générée en fonction de la configuration d'entraînement. Les résultats ont indiqué que l'utilisation de données synthétiques, notamment dans le scénario Synth Both, a conduit à une plus grande naturalité et similarité avec le locuteur dans la parole résultante.

Cependant, en se concentrant sur l'intensité du style - à quel point le système capte les nuances de styles de parole spécifiques - certaines configurations se sont comportées différemment. Fait intéressant, bien que la configuration Synth None ait bien performé en intensité de style pour certains styles, cela s'est fait au détriment de la naturalité. Cela souligne l'équilibre nécessaire entre la capture du style et le maintien d'un son naturel.

L'étude a continué d'évaluer à quel point la voix synthétique ressemble aux locuteurs originaux. Il a été constaté que l'utilisation de données synthétiques pendant l'entraînement TTS a considérablement augmenté la similarité avec le locuteur, faisant en sorte que le discours synthétique généré sonne plus proche des locuteurs réels.

Transfert d'Accents Inter-Langues

L'efficacité de l'approche a également été testée dans un contexte inter-langues. En tentant de transférer des accents de locuteurs anglais et espagnols à des locuteurs de portugais brésilien, les chercheurs ont voulu voir si les mêmes techniques marcheraient à travers différentes langues. Les résultats ont montré qu'incorporer des données synthétiques a permis un transfert d'accents réussi tout en améliorant la naturalité et la clarté de la parole générée.

En utilisant des voix synthétiques d'un modèle de conversion de voix, il a été possible de créer des sorties portant des accents spécifiques, même lorsque les locuteurs neutres originaux n'étaient pas entraînés dans ces accents. C'est un pas prometteur vers la création de systèmes TTS multilingues qui peuvent sonner authentiques, peu importe la langue ou l'accent utilisé.

Conclusion

Les défis du transfert de style inter-locuteur dans des scénarios de données expressives avec peu de ressources sont importants mais pas insurmontables. En utilisant des données synthétiques, les chercheurs ont trouvé des moyens d'améliorer à la fois la naturalité et la similarité avec le locuteur dans le discours généré. Bien que l'intensité du style puisse fluctuer selon la qualité des modèles de conversion de voix, intégrer des voix synthétiques peut aider à atteindre un équilibre entre style et naturalité.

Les efforts futurs se concentreront sur l'amélioration de ces techniques en utilisant des ensembles de données expressives inter-langues, permettant de meilleures performances même dans les langues avec moins de voix expressives disponibles. L'exploration continue des données synthétiques et de la conversion de voix ouvre des avenues prometteuses pour des systèmes TTS plus naturels et expressifs, rendant les voix numériques plus humaines à travers diverses langues et styles de parole.

Source originale

Titre: Exploring synthetic data for cross-speaker style transfer in style representation based TTS

Résumé: Incorporating cross-speaker style transfer in text-to-speech (TTS) models is challenging due to the need to disentangle speaker and style information in audio. In low-resource expressive data scenarios, voice conversion (VC) can generate expressive speech for target speakers, which can then be used to train the TTS model. However, the quality and style transfer ability of the VC model are crucial for the overall TTS model quality. In this work, we explore the use of synthetic data generated by a VC model to assist the TTS model in cross-speaker style transfer tasks. Additionally, we employ pre-training of the style encoder using timbre perturbation and prototypical angular loss to mitigate speaker leakage. Our results show that using VC synthetic data can improve the naturalness and speaker similarity of TTS in cross-speaker scenarios. Furthermore, we extend this approach to a cross-language scenario, enhancing accent transfer.

Auteurs: Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões, Mário U. Neto, Fernando Runstein, Bianca Dal Bó, Paula D. P. Costa

Dernière mise à jour: 2024-09-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.17364

Source PDF: https://arxiv.org/pdf/2409.17364

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires