Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Calcul et langage# Son# Traitement de l'audio et de la parole

Avancées dans la technologie de synthèse vocale

De nouvelles méthodes améliorent la qualité de la parole synthétisée grâce à l'apprentissage auto-supervisé.

― 6 min lire


Amélioration de laAmélioration de laqualité du texte enspeechd'apprentissage avancées.synthèse vocale grâce à des techniquesDe nouvelles méthodes améliorent la
Table des matières

La technologie de synthèse vocale (TTS) change notre relation avec les machines. Elle permet aux ordis de convertir du texte écrit en mots parlés, rendant la communication plus facile. On retrouve le TTS dans plein d'applis, comme pour lire des livres audio, donner une voix aux assistants virtuels, et aider à l'accessibilité pour les personnes malvoyantes.

Ces dernières années, les systèmes TTS ont fait des progrès énormes, produisant une voix plus naturelle et de meilleure qualité. Mais créer un système TTS qui sonne bien demande beaucoup de données étiquetées, ce qui peut coûter cher et prendre du temps à rassembler. Pour régler ce souci, les chercheurs commencent à utiliser des techniques d'Apprentissage auto-supervisé (SSL) qui réduisent la dépendance aux données étiquetées.

Qu'est-ce que l'apprentissage auto-supervisé ?

L'apprentissage auto-supervisé est une méthode où les modèles apprennent à partir de données sans avoir besoin d'exemples étiquetés en masse. Au lieu de ça, ces modèles génèrent des étiquettes à partir des données elles-mêmes. Dans la voix, les modèles SSL peuvent apprendre à identifier différentes caractéristiques du son, comme la hauteur et le ton, sans qu'on leur dise explicitement sur quoi se concentrer. On trouve des modèles SSL populaires comme wavlm, HuBERT et wav2vec 2.0.

Le besoin d'amélioration des systèmes TTS

Bien que la technologie TTS ait avancé, il y a encore des améliorations à faire. Beaucoup de systèmes existants se concentrent sur la prédiction de certaines caractéristiques sonores, mais ils ne capturent peut-être pas tous les aspects de la parole, comme les émotions ou l'accentuation. Cette étude vise à trouver des moyens d'utiliser les représentations SSL pour améliorer la qualité de la parole synthétisée dans les systèmes TTS.

Présentation de SALTTS

Pour améliorer le TTS, une nouvelle approche appelée SALTTS (Représentations auto-supervisées pour la perte auxiliaire en TTS) a été développée. Cette approche s'appuie sur un modèle TTS existant appelé FastSpeech2, qui a prouvé son efficacité pour générer de la parole. SALTTS intègre des caractéristiques SSL pour améliorer la qualité de la parole produite par les systèmes TTS.

Comment fonctionne SALTTS

SALTTS se compose de deux variantes principales : SALTTS-parallèle et SALTTS-cascade. Ces deux modèles profitent des représentations SSL pour guider le processus de génération de parole.

SALTTS-parallèle

Dans le modèle SALTTS-parallèle, le système FastSpeech2 continue de fonctionner normalement pendant la génération de parole. Cependant, il apprend aussi des représentations SSL durant l'entraînement, ce qui aide à améliorer la qualité de la parole finale. En gardant la même structure de modèle, ça permet un traitement plus rapide sans sacrifier la qualité du résultat.

SALTTS-cascade

Le modèle SALTTS-cascade fonctionne un peu différemment. Dans ce modèle, les représentations SSL passent par une couche supplémentaire dans le système, permettant au modèle TTS de générer des Mel-spectrogrammes à partir de l'info SSL enrichie. Cependant, cette méthode peut mettre plus de temps à produire de la parole comparé à la version parallèle.

Importance des représentations SSL

Le principal avantage d'utiliser des représentations SSL dans les modèles TTS est la richesse de l'information qu'elles fournissent. Ces représentations capturent différentes caractéristiques de la parole, comme le ton et l'émotion, ce qui peut améliorer la qualité audio finale. En ajoutant cette couche de détail, les systèmes TTS peuvent produire une parole qui sonne plus naturelle et engageante.

Alignement des modèles grâce au module répéteur

Un des défis est d'aligner les différents taux d'échantillonnage et les caractéristiques du modèle FastSpeech2 et des modèles SSL. Pour résoudre ça, un module répéteur a été introduit, qui ajuste les frames de son pour s'assurer qu'elles s'alignent correctement. Ce module garantit que l'info supplémentaire des modèles SSL s'intègre parfaitement dans le système FastSpeech2 pour améliorer les performances.

Évaluation et résultats

Pour évaluer l'efficacité des modèles SALTTS, plusieurs expériences ont été réalisées. En utilisant le jeu de données LJSpeech, qui consiste en divers échantillons de parole en anglais, le modèle FastSpeech2 de base et les modèles SALTTS ont été testés sur différents critères d'évaluation.

Mesures objectives

Pour l'évaluation objective, deux principales métriques ont été utilisées : la distorsion mel-cepstrale (MCD) et l'erreur quadratique moyenne (RMSE). Le MCD mesure la différence entre la parole synthétisée et la parole naturelle, avec des scores plus bas indiquant une meilleure qualité. Le RMSE examine l'exactitude des fréquences de parole prédites.

Mesures subjectives

L'évaluation subjective a impliqué d'avoir des auditeurs humains qui notent la qualité des échantillons de parole synthétisée. En utilisant la méthode du Score d'Opinion Moyen (MOS), les auditeurs ont noté à quel point la parole sonnait naturelle et claire. Cette méthode fournit des infos précieuses sur la manière dont les vrais utilisateurs perçoivent l'audio produit par les systèmes TTS.

Vue d'ensemble des résultats

En comparant les modèles SALTTS au modèle FastSpeech2 de base, plusieurs découvertes intéressantes ont émergé. Les modèles SALTTS-parallèle ont constamment surpassé le système de base lors des évaluations subjectives. En particulier, la version utilisant les représentations SSL HuBERT a reçu les meilleurs scores, indiquant une amélioration significative de la qualité audio perçue.

En revanche, les modèles SALTTS-cascade n'ont pas aussi bien performé que la version de base. Cela pourrait être dû aux temps de traitement plus longs et aux chemins plus complexes que les données audio empruntent dans le modèle, ce qui pourrait diluer l'efficacité de l'info SSL.

Conclusion et perspectives futures

L'approche SALTTS montre un potentiel prometteur pour améliorer les systèmes TTS. En intégrant des représentations SSL, les modèles SALTTS-parallèle et SALTTS-cascade visent à créer une parole plus naturelle. Bien que SALTTS-parallèle ait obtenu de meilleurs résultats que le modèle FastSpeech2 original, la variante SALTTS-cascade nécessite encore des améliorations.

Les recherches futures pourraient explorer divers modèles SSL, comme WavLM, pour améliorer encore les systèmes TTS. Comprendre comment différentes techniques SSL interagissent avec les architectures TTS pourrait fournir des pistes précieuses pour atteindre une parole synthétisée de qualité encore plus élevée.

Dernières réflexions

Globalement, la technologie TTS a fait beaucoup de chemin, mais il y a toujours place à amélioration. En cherchant de nouvelles méthodes et en utilisant des techniques d'apprentissage auto-supervisé, les chercheurs peuvent continuer à améliorer la qualité et le naturel de la parole synthétisée. Ce travail ne bénéficie pas seulement au développement du TTS, mais ouvre aussi la voie à des interactions plus avancées et intuitives entre les humains et les machines.

Source originale

Titre: SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

Résumé: While FastSpeech2 aims to integrate aspects of speech such as pitch, energy, and duration as conditional inputs, it still leaves scope for richer representations. As a part of this work, we leverage representations from various Self-Supervised Learning (SSL) models to enhance the quality of the synthesized speech. In particular, we pass the FastSpeech2 encoder's length-regulated outputs through a series of encoder layers with the objective of reconstructing the SSL representations. In the SALTTS-parallel implementation, the representations from this second encoder are used for an auxiliary reconstruction loss with the SSL features. The SALTTS-cascade implementation, however, passes these representations through the decoder in addition to having the reconstruction loss. The richness of speech characteristics from the SSL features reflects in the output speech quality, with the objective and subjective evaluation measures of the proposed approach outperforming the baseline FastSpeech2.

Auteurs: Ramanan Sivaguru, Vasista Sai Lodagala, S Umesh

Dernière mise à jour: 2023-08-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.01018

Source PDF: https://arxiv.org/pdf/2308.01018

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires