Faire avancer la synthèse vocale pour la diversité des dialectes
Nouveau modèle améliore la génération de la parole dans différents dialectes des langues à accent tonique.
― 6 min lire
Table des matières
- Qu'est-ce que le TTS Cross-Dialecte ?
- Pourquoi c'est important ?
- Le défi des langues à accent de hauteur
- Limitations actuelles
- Solution proposée
- Modèle TTS de base
- Encodeur de référence
- Prédicteur ALV
- Comment fonctionne le modèle ?
- Évaluation du modèle
- Résultats
- Importance de la prosodie dans la parole
- Apprentissage à partir des données
- Futures directions
- Conclusion
- Source originale
- Liens de référence
La technologie de synthèse vocale (TTS) aide à transformer le texte écrit en mots parlés. C’est super utile pour les assistants vocaux et d'autres applis qui ont besoin de communiquer à l’oral. Dans les langues qui ont des accents ou des dialectes différents, ça peut être galère de faire sonner la voix naturellement pour tous les locuteurs. Cet article parle d'une nouvelle approche pour améliorer le TTS pour les langues à accent de hauteur, comme le japonais, qui ont des motifs sonores uniques.
Qu'est-ce que le TTS Cross-Dialecte ?
Le TTS cross-dialecte fait référence à la capacité de produire une voix qui sonne naturelle dans différents accents ou dialectes de la même langue. Par exemple, en japonais, la façon de prononcer un mot peut changer selon la région. L'objectif est de créer un système qui peut apprendre à parler d’une manière naturelle pour différents groupes sans avoir besoin d’un modèle séparé pour chaque dialecte.
Pourquoi c'est important ?
Avoir des systèmes TTS qui s’adaptent aux dialectes locaux est crucial pour la communication. Ça aide les agents vocaux, comme les assistants virtuels, à interagir avec les utilisateurs de manière familière et confortable. Il peut y avoir des malentendus si un assistant vocal parle dans un dialecte qui ne correspond pas à celui de l’utilisateur, donc c'est essentiel que les systèmes TTS soient polyvalents.
Le défi des langues à accent de hauteur
Dans les langues à accent de hauteur, les variations de ton au sein d'un mot peuvent changer son sens. Par exemple, en japonais, le mot pour "pluie" et "bonbon" peut sonner pareil mais avoir des significations différentes selon le ton. Ça veut dire que les systèmes TTS doivent reproduire ces subtiles différences de ton pour éviter les confusions.
Limitations actuelles
Les méthodes traditionnelles de création de TTS pour différents dialectes s'appuient souvent sur des dictionnaires d'accents. Mais ces dictionnaires sont souvent chers et difficiles à créer. Pour beaucoup de dialectes en japonais, les dictionnaires d'accents ne sont pas dispo. Ça complique la tâche des systèmes TTS actuels pour produire une parole exacte dans divers dialectes.
Solution proposée
Un nouveau modèle a été développé pour gérer efficacement le TTS cross-dialecte. Ce modèle se compose de trois parties principales : un modèle TTS de base, un encodeur de référence et un prédicteur de variable latente d'accent (ALV).
Modèle TTS de base
Cette partie du modèle est responsable de la génération de la voix à partir du texte écrit. Elle synthétise le son en fonction des informations d'accent de hauteur fournies par le prédicteur ALV.
Encodeur de référence
L'encodeur de référence extrait les détails importants des accents de hauteur à partir d'un échantillon de langage parlé. Il traite la voix pour identifier les motifs de ton uniques qui définissent chaque dialecte.
Prédicteur ALV
Le prédicteur ALV vise à apprendre et deviner les informations d'accent de hauteur à partir de l'entrée texte. Plutôt que d'utiliser des dictionnaires préfabriqués, il se base sur un nouveau modèle de langue entraîné sur une large gamme de textes. Ça permet au système de prédire comment un mot doit être prononcé selon le dialecte identifié.
Comment fonctionne le modèle ?
Le modèle TTS proposé entraîne d'abord le modèle de base pour générer la voix. Ensuite, il utilise l'encodeur de référence pour collecter des infos de ton à partir d'échantillons de voix existants. Le prédicteur ALV utilise ces données, combinées avec une grande quantité de texte de différents dialectes, pour apprendre à produire une voix qui sonne authentique.
Le modèle est conçu pour adapter la sortie vocale selon le dialecte fourni par l'utilisateur. Ça veut dire que quand quelqu'un entre du texte, il peut aussi dire au système quel dialecte utiliser, et il générera une voix qui correspond à ce dialecte.
Évaluation du modèle
Pour tester l’efficacité de ce nouveau modèle, les chercheurs ont fait des expériences avec des méthodes TTS intra-dialecte (ID) et cross-dialecte (CD). Dans ID-TTS, le modèle a généré une voix dans le même dialecte que l’accent natif du locuteur. Pour CD-TTS, le modèle a synthétisé une voix dans un dialecte différent.
Résultats
Les résultats ont montré que le nouveau modèle améliorait le naturel de la voix produite dans un dialecte différent par rapport aux méthodes existantes. Les auditeurs ont rapporté que la voix synthétique sonnait plus comme une véritable voix humaine avec le nouveau modèle.
De plus, l’évaluation a montré que l'utilisation d'échantillons de voix de différents locuteurs pour l'entraînement n'avait pas d'impact négatif sur la capacité du modèle à maintenir un son naturel. C'est une découverte importante car ça prouve la polyvalence, permettant le transfert d'accent entre les locuteurs.
Importance de la prosodie dans la parole
La prosodie fait référence au rythme, à l'accentuation et à l'intonation de la parole. Dans les langues à accent de hauteur, la prosodie joue un rôle crucial dans la transmission du sens. Le nouveau modèle utilise des caractéristiques de la parole de référence pour s’assurer que la sortie sonne naturelle et respecte les règles de ton du dialecte spécifique.
Apprentissage à partir des données
Le modèle a été entraîné sur une combinaison de bases de données de parole existantes et de nouvelles données textuelles générées. En remixant et traduisant des phrases d'un dialecte standard en dialectes locaux, les chercheurs ont augmenté la diversité des données disponibles pour l'entraînement. Cette approche aide le modèle à apprendre les caractéristiques distinctes de différents dialectes sans avoir besoin de dictionnaires d'accents coûteux.
Futures directions
Les chercheurs prévoient d'élargir les capacités du modèle pour inclure plus de dialectes et peut-être d'autres langues. En appliquant de nouvelles techniques d'apprentissage automatique, ils croient pouvoir encore améliorer l'exactitude et le naturel de la voix synthétique.
Conclusion
Le développement d'un modèle de synthèse vocale cross-dialecte marque une avancée significative pour rendre la technologie TTS plus accessible et réactive aux différences régionales dans la langue. En capturant efficacement les nuances de la variation dialectale, ce modèle vise à améliorer la communication entre les utilisateurs et les assistants vocaux, garantissant que la technologie puisse parler aussi naturellement qu'un locuteur local. Ce progrès ouvre de nouvelles portes pour diverses applications en éducation, accessibilité et communication quotidienne, favorisant un monde plus connecté et compréhensif.
Titre: Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT
Résumé: We explore cross-dialect text-to-speech (CD-TTS), a task to synthesize learned speakers' voices in non-native dialects, especially in pitch-accent languages. CD-TTS is important for developing voice agents that naturally communicate with people across regions. We present a novel TTS model comprising three sub-modules to perform competitively at this task. We first train a backbone TTS model to synthesize dialect speech from a text conditioned on phoneme-level accent latent variables (ALVs) extracted from speech by a reference encoder. Then, we train an ALV predictor to predict ALVs tailored to a target dialect from input text leveraging our novel multi-dialect phoneme-level BERT. We conduct multi-dialect TTS experiments and evaluate the effectiveness of our model by comparing it with a baseline derived from conventional dialect TTS methods. The results show that our model improves the dialectal naturalness of synthetic speech in CD-TTS.
Auteurs: Kazuki Yamauchi, Yuki Saito, Hiroshi Saruwatari
Dernière mise à jour: 2024-09-11 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.07265
Source PDF: https://arxiv.org/pdf/2409.07265
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://kyamauchi1023.github.io/yamauchi24slt
- https://sites.google.com/site/shinnosuketakamichi/research-topics/jmd_corpus?authuser=0
- https://huggingface.co/openai/whisper-large-v2
- https://github.com/Wataru-Nakata/FastSpeech2-JSUT
- https://github.com/jik876/hifi-gan
- https://dumps.wikimedia.org/
- https://huggingface.co/datasets/reazon-research/reazonspeech
- https://llama.meta.com/
- https://huggingface.co/tokyotech-llm/Swallow-13b-instruct-hf
- https://github.com/yl4579/PL-BERT
- https://huggingface.co/tohoku-nlp/bert-base-japanese-whole-word-masking
- https://open-jtalk.sp.nitech.ac.jp
- https://github.com/sarulab-speech/xvector_jtubespeech