Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Intelligence artificielle# Traitement de l'audio et de la parole

Avancées dans la synthèse vocale utilisant le BPE acoustique

Le BPE acoustique améliore l'intelligibilité et la qualité de la parole dans les systèmes TTS.

― 8 min lire


Les Transformations BPELes Transformations BPEAcoustiques Transformentles Systèmes TTSclarté et la qualité de la parole.De nouvelles méthodes améliorent la
Table des matières

La Synthèse vocale, ou transformer du texte en mots parlés, est un domaine en plein essor qui utilise diverses techniques pour rendre les machines plus humaines. L'une de ces méthodes s'appelle la synthèse vocale par décodage uniquement (TTS). Cette technologie transforme le texte en parole sans avoir besoin d'une étape séparée pour comprendre le contenu d'abord. Ça permet aux modèles de générer la parole directement à partir du langage écrit, rendant le processus plus efficace.

Le défi des tokens de parole

Quand on crée de la parole à partir du texte, on doit représenter les sons d'une manière compréhensible pour une machine. Dans le traitement du langage naturel, les mots ou les phrases ont des limites claires. Cependant, la parole est différente. C'est une onde sonore continue, ce qui rend difficile d'identifier où un son se termine et où un autre commence. Du coup, on divise souvent la parole en parties plus petites appelées tokens.

Ces tokens peuvent provenir de deux types d'encodage principaux : les tokens acoustiques, qui visent à recréer le son avec précision, et les tokens sémantiques, qui capturent le sens de ce qui est dit. Bien que ce processus fonctionne, il conduit souvent à de longues séquences de tokens qui peuvent être difficiles à gérer pour le modèle. Par exemple, une seule phrase courte peut nécessiter des centaines de tokens, ce qui rend compliqué pour le modèle de garder tout en contexte.

Le besoin de compression

Pour résoudre le problème des longues séquences de tokens, les chercheurs cherchent des moyens de les raccourcir. Une solution prometteuse est une méthode appelée encodage par paires de bytes acoustiques (BPE). Cette technique compresse les courtes séquences de tokens en une forme plus gérable. Au lieu de traiter chaque token comme une unité individuelle, le BPE acoustique les regroupe en fonction de leur fréquence d'apparition dans les données d'entraînement. Ça veut dire que les sons ou phonèmes courants peuvent être fusionnés en tokens uniques, réduisant ainsi la longueur totale de la séquence.

Exploration du BPE acoustique dans le TTS

Alors que le BPE acoustique a montré son potentiel dans d'autres domaines de l'apprentissage automatique, son efficacité dans le TTS doit encore être examinée. Certains modèles existants mentionnent l'utilisation du BPE acoustique pour générer de la parole, mais il n'y a pas encore eu assez de recherches pour comprendre pleinement comment cela impacte les performances du TTS.

Dans cette étude, diverses configurations du BPE acoustique ont été explorées pour voir comment elles affectent la qualité de la synthèse vocale. L'objectif était de déterminer combien cette méthode améliore l'Intelligibilité de la parole (à quel point elle peut être comprise), la diversité (à quel point les voix générées sonnent différemment) et la qualité globale.

Configuration de l'expérience

Les expériences ont été réalisées en utilisant un grand jeu de données de l'anglais parlé appelé LibriTTS. Ce jeu de données contient de nombreux enregistrements de divers locuteurs. Les chercheurs se sont concentrés sur deux modèles, HuBERT et WavLM, qui sont des modèles pré-entraînés qui convertissent la parole en tokens sémantiques. En ajustant le nombre de clusters pour représenter ces tokens et en variant la taille du vocabulaire dans le BPE acoustique, ils ont cherché à voir comment ces facteurs impactaient la parole synthétisée.

Les réglages choisis comprenaient l'absence d'encodage BPE acoustique et l'encodage avec des tailles de vocabulaire de 5 000, 10 000, et 20 000 sous-mots. Ces différentes configurations ont permis aux chercheurs de mieux comprendre comment le BPE acoustique influence les performances du TTS.

Modèle TTS par décodage uniquement

Le modèle TTS utilisé dans l'étude est basé sur un type de réseau neuronal appelé transformateur. Ce modèle est conçu pour apprendre et prévoir les prochaines caractéristiques audio à partir du texte d'entrée et des sons précédents. En entraînant le modèle de cette façon, il apprend à générer des sons qui correspondent de près aux schémas de parole naturels.

Lors de la génération de la parole, le modèle utilise des prompts, qui sont des morceaux audio qui guident ce qu'il doit dire ensuite. Cette méthode aide le modèle à adopter la voix et le style du locuteur du prompt, permettant une synthèse vocale plus personnalisée.

Métriques d'évaluation

Pour déterminer l'efficacité du BPE acoustique dans l'amélioration des performances du TTS, plusieurs métriques d'évaluation ont été utilisées. Celles-ci incluaient :

  • Intelligibilité de la parole : Mesurée en comparant la parole synthétisée au texte original et en vérifiant les erreurs de compréhension.
  • Qualité et naturalité de la parole : Évaluées à travers des tests d'écoute subjectifs où les participants ont noté la parole générée sur sa naturalité.
  • Vitesse d'inférence : Évaluée en mesurant la rapidité avec laquelle le modèle génère la parole.
  • Diversité des échantillons : Analysée pour voir à quel point les sorties générées sont différentes en utilisant la même entrée.

Résultats

Les résultats des expériences ont montré que l'utilisation du BPE acoustique a généralement conduit à des améliorations dans divers aspects de la parole synthétisée.

Amélioration de l'intelligibilité de la parole

L'intelligibilité de la parole générée avec le BPE acoustique était nettement meilleure que celle générée sans. Les modèles utilisant le BPE acoustique produisaient un audio plus clair et plus compréhensible. Cette amélioration était évidente dans le taux d'erreur de mots (WER) réduit lorsque l'audio synthétisé était retranscrit en texte.

Amélioration de la qualité de la parole

En termes de qualité, la parole synthétisée avec le BPE acoustique a également bien performé. Les participants ont noté que l'audio sonnait naturel et fluide. Bien qu'il y ait eu quelques variations, la qualité globale est restée compétitive, certaines configurations surpassant même celles sans BPE acoustique.

Accélération de la vitesse d'inférence

Une autre découverte importante était l'augmentation de la vitesse d'inférence. À mesure que la taille du vocabulaire augmentait, le temps nécessaire au modèle pour générer la parole était réduit. Ce gain de vitesse était attribué aux séquences d'entrée plus courtes résultant de la fusion des tokens, facilitant ainsi le traitement rapide des données par le modèle.

Augmentation de la diversité des échantillons

L'utilisation du BPE acoustique a également augmenté la diversité des échantillons générés. Cela signifiait que lorsque le modèle produisait de la parole à partir de la même entrée, le style et l'intonation variaient plus qu sans BPE. Les résultats indiquaient que le BPE acoustique peut efficacement introduire des variations dans la façon dont les phrases sont prononcées, menant à une expérience d'écoute plus captivante.

Discussion des limites

Bien que les avantages de l'utilisation du BPE acoustique dans les applications TTS soient significatifs, certaines limites et défis ont également été notés. Par exemple, la performance peut être affectée si le nombre de clusters et la taille du vocabulaire ne sont pas soigneusement équilibrés. Trop de clusters ou trop peu peuvent entraîner une instabilité dans le modèle, provoquant des sorties répétitives ou peu naturelles.

De plus, le modèle WavLM a montré certaines incohérences dans ses performances, qui pourraient être encore affectées par l'utilisation du BPE acoustique. Cela souligne l'importance de trouver les bons réglages pour maximiser les avantages de cette méthode d'encodage.

Conclusion

En conclusion, le BPE acoustique se révèle être un outil précieux pour améliorer les performances des systèmes TTS par décodage uniquement. Il améliore l'intelligibilité, la qualité et la diversité de la parole tout en accélérant les processus d'entraînement et d'inférence. Malgré certaines limites concernant les choix de configuration, le potentiel global du BPE acoustique dans la synthèse vocale est évident. De futures recherches pourraient explorer l'augmentation des ensembles de données et des modèles pour enquêter davantage sur l'efficacité de cette approche et envisager d'autres méthodes efficaces pour la tokenisation audio.

De tels avancements pourraient ouvrir la voie à des systèmes de synthèse vocale plus naturels et polyvalents, nous rapprochant ainsi de machines qui communiquent aussi fluidement que des humains.

Source originale

Titre: On the Effectiveness of Acoustic BPE in Decoder-Only TTS

Résumé: Discretizing speech into tokens and generating them by a decoder-only model have been a promising direction for text-to-speech (TTS) and spoken language modeling (SLM). To shorten the sequence length of speech tokens, acoustic byte-pair encoding (BPE) has emerged in SLM that treats speech tokens from self-supervised semantic representations as characters to further compress the token sequence. But the gain in TTS has not been fully investigated, and the proper choice of acoustic BPE remains unclear. In this work, we conduct a comprehensive study on various settings of acoustic BPE to explore its effectiveness in decoder-only TTS models with semantic speech tokens. Experiments on LibriTTS verify that acoustic BPE uniformly increases the intelligibility and diversity of synthesized speech, while showing different features across BPE settings. Hence, acoustic BPE is a favorable tool for decoder-only TTS.

Auteurs: Bohan Li, Feiyu Shen, Yiwei Guo, Shuai Wang, Xie Chen, Kai Yu

Dernière mise à jour: 2024-07-04 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.03892

Source PDF: https://arxiv.org/pdf/2407.03892

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires