Améliorer les accents dans la technologie de synthèse vocale
Un nouveau système améliore la précision des accents dans la synthèse vocale pour une meilleure communication.
― 7 min lire
Table des matières
- L'Importance des Accents dans le TTS
- Vue d'ensemble des Tâches de Génération d'Accents
- Résoudre les Problèmes d'Accents et de Locuteurs
- Présentation d'AccentBox
- Comment Fonctionne AccentBox
- Génération d'Accent Inhérente
- Génération d'Accent Croisé
- Résultats d'AccentBox
- Conclusion
- Source originale
- Liens de référence
Les développements récents dans la technologie Text-to-Speech (TTS) permettent aux ordinateurs d'imiter les voix humaines de manière convaincante. Cependant, la plupart de ces systèmes, surtout le nouveau Zero-Shot TTS (ZS-TTS), ont encore du mal à générer des accents précis. Cet article passe en revue les défis liés à la génération de la parole accentuée et propose une nouvelle approche qui vise à améliorer la précision des accents dans les systèmes TTS.
L'Importance des Accents dans le TTS
Les accents sont une partie clé de la façon dont les gens communiquent. Pour ceux qui parlent une langue comme langue maternelle (L1), avoir leur accent correctement présenté dans la technologie de la parole maintient leur identité culturelle. Pour ceux qui apprennent une nouvelle langue (L2), garder leur accent d'origine peut alléger la pression de devoir sonner comme un locuteur natif. De plus, préserver les accents dans les outils d'apprentissage des langues peut améliorer leur expérience d'apprentissage.
Cependant, la plupart des systèmes TTS se sont concentrés sur la reproduction des voix des locuteurs sans prêter attention aux accents. En utilisant principalement des données en anglais américain, ces systèmes échouent souvent à prendre en compte les variations d'accents. Ce manque d'attention entraîne une absence d'authenticité des accents et de contrôle dans la parole produite.
Vue d'ensemble des Tâches de Génération d'Accents
La génération d'accents peut être décomposée en trois tâches principales :
Conversion d'Accent Étranger (FAC) : Cette méthode prend la parole d'un locuteur avec un accent et la convertit dans un autre accent. Cependant, elle ne peut pas produire de la parole à partir de n'importe quel texte ni générer des accents qu'elle n'a pas déjà vus.
TTS Accentué : Ce type de système vise à produire une parole qui sonne naturelle tout en ayant les bons accents. Ça fonctionne avec le texte cible, l'identification de l'accent et l'identification du locuteur. Malgré ses forces, le TTS accentué a toujours du mal à générer de la parole pour des locuteurs ou des accents qu'il n'a pas rencontrés.
Zero-Shot TTS : Cette méthode génère de la parole basée sur une référence vocale fournie et un texte cible. Malheureusement, elle ne gère pas correctement la génération d'accent et performe souvent mal avec des locuteurs accentués.
Étant donné ces limitations, une nouvelle approche appelée Génération d'Accent Zero-Shot est proposée, permettant de produire de la parole dans des accents spécifiques à partir d'un seul clip audio.
Résoudre les Problèmes d'Accents et de Locuteurs
Un gros défi dans la génération d'accents est la confusion entre l'identité du locuteur et l'accent. Idéalement, un bon ensemble de données de parole devrait représenter la même personne parlant avec différents accents. Cependant, la plupart des locuteurs ne peuvent imiter avec conviction que quelques accents, ce qui complique leur identification précise.
Dans l'identification des accents, les ensembles de données existants ont des limitations. Par exemple, certains ensembles de données ne sont pas accessibles librement, et d'autres ont des locuteurs qui se chevauchent pendant l'entraînement et le test, ce qui réduit la capacité d'évaluer efficacement les performances.
Des travaux antérieurs ont tenté de relier l'identification des accents avec le TTS, mais ils s'appuyaient souvent sur des données limitées et manquaient d'une séparation adéquate entre l'identité du locuteur et l'information sur l'accent. Pour surmonter ces défis, une nouvelle méthode appelée Identification Généralisable d'Accent à Travers les Locuteurs (GenAID) est suggérée. Ce modèle vise à extraire les détails de l'accent sans l'interférence de l'identité du locuteur, menant à de meilleures performances dans l'identification des accents.
Présentation d'AccentBox
Le nouveau système, nommé AccentBox, utilise les embeddings GenAID pour améliorer la génération d'accents dans le TTS. Il comprend deux étapes principales :
Étape d'Identification de l'Accent : Ici, le système utilise GenAID pour fournir des représentations détaillées des accents qui ne sont pas liées à un locuteur spécifique. L'objectif est de créer des embeddings d'accent de haute qualité qui reflètent la gamme d'accents dans la parole.
Étape de Génération d'Accent : Dans cette étape, le système Zero-Shot TTS est ajusté avec les embeddings d'accent fournis par GenAID. Cette configuration permet à AccentBox de générer des accents variés avec précision, même ceux qu'il n'a pas rencontrés auparavant.
Comment Fonctionne AccentBox
AccentBox s'appuie sur des modèles TTS établis pour créer une parole cohérente et variée. Il modifie les structures existantes pour incorporer de nouveaux embeddings pour les accents, remplaçant les processus d'entrée traditionnels par des représentations continues d'accent. Cette configuration permet au système de produire des accents plus fidèles dans la parole générée, améliorant à la fois la naturalité et l'authenticité de la sortie.
Génération d'Accent Inhérente
La génération d'accent inhérente fait référence à la capacité du système à produire de la parole qui reflète avec précision l'accent présent dans l'entrée fournie. AccentBox vise à démontrer une meilleure fidélité dans ce domaine, montrant qu'il peut créer des sorties de parole de haute qualité dans une gamme d'accents basées sur des échantillons audio de référence.
Génération d'Accent Croisé
La génération d'accent croisé se concentre sur la production de parole dans un accent différent de celui de l'audio de référence. Cette tâche est généralement plus complexe, car elle nécessite que le système réussisse à convertir entre différents styles d'accent. AccentBox est conçu pour gérer ce défi efficacement, offrant de meilleurs résultats que les systèmes précédents.
Résultats d'AccentBox
De nombreux tests ont été réalisés pour évaluer les performances d'AccentBox par rapport aux systèmes traditionnels. Les résultats ont généralement montré qu'AccentBox dépassait ses prédécesseurs tant dans les tâches de génération d'accent inhérent que croisé. Cela indique que le nouvel accent mis sur la représentation précise des accents a conduit à des améliorations notables dans la façon dont le système produit la parole accentuée.
Dans des applications pratiques, AccentBox a montré un potentiel énorme. Sa capacité à refléter avec précision les accents a des implications passionnantes pour divers domaines, y compris les assistants virtuels, le doublage de films et les systèmes qui aident à l'apprentissage des langues.
Conclusion
L'introduction d'AccentBox marque une avancée significative dans la technologie TTS, particulièrement dans sa capacité à gérer les accents de manière plus précise. En abordant efficacement les défis de la génération d'accents, cela améliore l'expérience pour les locuteurs natifs et non natifs utilisant les systèmes TTS.
La génération d'accents joue un rôle essentiel dans le maintien de l'identité culturelle et l'aide à l'apprentissage des langues. Avec des améliorations et des ajustements continus, des systèmes comme AccentBox continueront d'évoluer, élargissant leur applicabilité et leur fonctionnalité dans des scénarios réels. Le chemin vers la reproduction parfaite des accents dans la synthèse vocale devient une réalité grâce aux innovations technologiques et à la compréhension de la parole humaine.
Titre: AccentBox: Towards High-Fidelity Zero-Shot Accent Generation
Résumé: While recent Zero-Shot Text-to-Speech (ZS-TTS) models have achieved high naturalness and speaker similarity, they fall short in accent fidelity and control. To address this issue, we propose zero-shot accent generation that unifies Foreign Accent Conversion (FAC), accented TTS, and ZS-TTS, with a novel two-stage pipeline. In the first stage, we achieve state-of-the-art (SOTA) on Accent Identification (AID) with 0.56 f1 score on unseen speakers. In the second stage, we condition ZS-TTS system on the pretrained speaker-agnostic accent embeddings extracted by the AID model. The proposed system achieves higher accent fidelity on inherent/cross accent generation, and enables unseen accent generation.
Auteurs: Jinzuomu Zhong, Korin Richmond, Zhiba Su, Siqi Sun
Dernière mise à jour: 2024-09-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.09098
Source PDF: https://arxiv.org/pdf/2409.09098
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://huggingface.co/facebook/wav2vec2-large-xlsr-53
- https://github.com/Plachtaa/VALL-E-X
- https://www.dialectsarchive.com/CommaGetsACure.pdf
- https://github.com/resemble-ai/Resemblyzer
- https://www.prolific.com
- https://github.com/huggingface/parler-tts
- https://jzmzhong.github.io/AccentBox-ICASSP2025/
- https://www.openslr.org/28