Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Calcul et langage# Traitement de l'audio et de la parole

Faire avancer la synthèse vocale pour la diversité des dialectes

Nouveau modèle améliore la génération de la parole dans différents dialectes des langues à accent tonique.

― 6 min lire


Innovation TTS sensibleInnovation TTS sensibleau dialectedans les langues à accent tonique.Un nouveau modèle améliore la parole
Table des matières

La technologie de synthèse vocale (TTS) aide à transformer le texte écrit en mots parlés. C’est super utile pour les assistants vocaux et d'autres applis qui ont besoin de communiquer à l’oral. Dans les langues qui ont des accents ou des dialectes différents, ça peut être galère de faire sonner la voix naturellement pour tous les locuteurs. Cet article parle d'une nouvelle approche pour améliorer le TTS pour les langues à accent de hauteur, comme le japonais, qui ont des motifs sonores uniques.

Qu'est-ce que le TTS Cross-Dialecte ?

Le TTS cross-dialecte fait référence à la capacité de produire une voix qui sonne naturelle dans différents accents ou dialectes de la même langue. Par exemple, en japonais, la façon de prononcer un mot peut changer selon la région. L'objectif est de créer un système qui peut apprendre à parler d’une manière naturelle pour différents groupes sans avoir besoin d’un modèle séparé pour chaque dialecte.

Pourquoi c'est important ?

Avoir des systèmes TTS qui s’adaptent aux dialectes locaux est crucial pour la communication. Ça aide les agents vocaux, comme les assistants virtuels, à interagir avec les utilisateurs de manière familière et confortable. Il peut y avoir des malentendus si un assistant vocal parle dans un dialecte qui ne correspond pas à celui de l’utilisateur, donc c'est essentiel que les systèmes TTS soient polyvalents.

Le défi des langues à accent de hauteur

Dans les langues à accent de hauteur, les variations de ton au sein d'un mot peuvent changer son sens. Par exemple, en japonais, le mot pour "pluie" et "bonbon" peut sonner pareil mais avoir des significations différentes selon le ton. Ça veut dire que les systèmes TTS doivent reproduire ces subtiles différences de ton pour éviter les confusions.

Limitations actuelles

Les méthodes traditionnelles de création de TTS pour différents dialectes s'appuient souvent sur des dictionnaires d'accents. Mais ces dictionnaires sont souvent chers et difficiles à créer. Pour beaucoup de dialectes en japonais, les dictionnaires d'accents ne sont pas dispo. Ça complique la tâche des systèmes TTS actuels pour produire une parole exacte dans divers dialectes.

Solution proposée

Un nouveau modèle a été développé pour gérer efficacement le TTS cross-dialecte. Ce modèle se compose de trois parties principales : un modèle TTS de base, un encodeur de référence et un prédicteur de variable latente d'accent (ALV).

Modèle TTS de base

Cette partie du modèle est responsable de la génération de la voix à partir du texte écrit. Elle synthétise le son en fonction des informations d'accent de hauteur fournies par le prédicteur ALV.

Encodeur de référence

L'encodeur de référence extrait les détails importants des accents de hauteur à partir d'un échantillon de langage parlé. Il traite la voix pour identifier les motifs de ton uniques qui définissent chaque dialecte.

Prédicteur ALV

Le prédicteur ALV vise à apprendre et deviner les informations d'accent de hauteur à partir de l'entrée texte. Plutôt que d'utiliser des dictionnaires préfabriqués, il se base sur un nouveau modèle de langue entraîné sur une large gamme de textes. Ça permet au système de prédire comment un mot doit être prononcé selon le dialecte identifié.

Comment fonctionne le modèle ?

Le modèle TTS proposé entraîne d'abord le modèle de base pour générer la voix. Ensuite, il utilise l'encodeur de référence pour collecter des infos de ton à partir d'échantillons de voix existants. Le prédicteur ALV utilise ces données, combinées avec une grande quantité de texte de différents dialectes, pour apprendre à produire une voix qui sonne authentique.

Le modèle est conçu pour adapter la sortie vocale selon le dialecte fourni par l'utilisateur. Ça veut dire que quand quelqu'un entre du texte, il peut aussi dire au système quel dialecte utiliser, et il générera une voix qui correspond à ce dialecte.

Évaluation du modèle

Pour tester l’efficacité de ce nouveau modèle, les chercheurs ont fait des expériences avec des méthodes TTS intra-dialecte (ID) et cross-dialecte (CD). Dans ID-TTS, le modèle a généré une voix dans le même dialecte que l’accent natif du locuteur. Pour CD-TTS, le modèle a synthétisé une voix dans un dialecte différent.

Résultats

Les résultats ont montré que le nouveau modèle améliorait le naturel de la voix produite dans un dialecte différent par rapport aux méthodes existantes. Les auditeurs ont rapporté que la voix synthétique sonnait plus comme une véritable voix humaine avec le nouveau modèle.

De plus, l’évaluation a montré que l'utilisation d'échantillons de voix de différents locuteurs pour l'entraînement n'avait pas d'impact négatif sur la capacité du modèle à maintenir un son naturel. C'est une découverte importante car ça prouve la polyvalence, permettant le transfert d'accent entre les locuteurs.

Importance de la prosodie dans la parole

La prosodie fait référence au rythme, à l'accentuation et à l'intonation de la parole. Dans les langues à accent de hauteur, la prosodie joue un rôle crucial dans la transmission du sens. Le nouveau modèle utilise des caractéristiques de la parole de référence pour s’assurer que la sortie sonne naturelle et respecte les règles de ton du dialecte spécifique.

Apprentissage à partir des données

Le modèle a été entraîné sur une combinaison de bases de données de parole existantes et de nouvelles données textuelles générées. En remixant et traduisant des phrases d'un dialecte standard en dialectes locaux, les chercheurs ont augmenté la diversité des données disponibles pour l'entraînement. Cette approche aide le modèle à apprendre les caractéristiques distinctes de différents dialectes sans avoir besoin de dictionnaires d'accents coûteux.

Futures directions

Les chercheurs prévoient d'élargir les capacités du modèle pour inclure plus de dialectes et peut-être d'autres langues. En appliquant de nouvelles techniques d'apprentissage automatique, ils croient pouvoir encore améliorer l'exactitude et le naturel de la voix synthétique.

Conclusion

Le développement d'un modèle de synthèse vocale cross-dialecte marque une avancée significative pour rendre la technologie TTS plus accessible et réactive aux différences régionales dans la langue. En capturant efficacement les nuances de la variation dialectale, ce modèle vise à améliorer la communication entre les utilisateurs et les assistants vocaux, garantissant que la technologie puisse parler aussi naturellement qu'un locuteur local. Ce progrès ouvre de nouvelles portes pour diverses applications en éducation, accessibilité et communication quotidienne, favorisant un monde plus connecté et compréhensif.

Source originale

Titre: Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT

Résumé: We explore cross-dialect text-to-speech (CD-TTS), a task to synthesize learned speakers' voices in non-native dialects, especially in pitch-accent languages. CD-TTS is important for developing voice agents that naturally communicate with people across regions. We present a novel TTS model comprising three sub-modules to perform competitively at this task. We first train a backbone TTS model to synthesize dialect speech from a text conditioned on phoneme-level accent latent variables (ALVs) extracted from speech by a reference encoder. Then, we train an ALV predictor to predict ALVs tailored to a target dialect from input text leveraging our novel multi-dialect phoneme-level BERT. We conduct multi-dialect TTS experiments and evaluate the effectiveness of our model by comparing it with a baseline derived from conventional dialect TTS methods. The results show that our model improves the dialectal naturalness of synthetic speech in CD-TTS.

Auteurs: Kazuki Yamauchi, Yuki Saito, Hiroshi Saruwatari

Dernière mise à jour: 2024-09-11 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.07265

Source PDF: https://arxiv.org/pdf/2409.07265

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires