Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Intelligence artificielle# Son

Avancées dans la synthèse vocale utilisant DDSP

Découvrez comment DDSP améliore l'efficacité et la qualité de la synthèse vocale.

― 8 min lire


Percée en synthèse vocalePercée en synthèse vocaleefficaceun modèle DDSP efficace.Révolutionner la synthèse vocale avec
Table des matières

La Synthèse articulatoire, c'est une méthode pour créer du son parlé à partir des mouvements physiques des organes de la parole humaine, comme la langue et les lèvres. Ces mouvements peuvent être suivis grâce à une technique appelée électromagnétique articulographie (EMA). En utilisant les données EMA, les ordinateurs peuvent synthétiser une parole qui reflète vraiment la façon dont les gens parlent.

Avantages de l'utilisation de l'EMA dans la synthèse vocale

Utiliser les données EMA a plusieurs avantages. D'abord, ça donne une façon plus simple de représenter comment notre tractus vocal fonctionne quand on parle. Ces données moins complexes sont plus faciles à comprendre pour les machines que des représentations audio plus compliquées. Ensuite, les systèmes basés sur l'EMA donnent un niveau de contrôle en synthèse vocale que d'autres méthodes n'ont pas. Ce contrôle peut être super important pour aider les personnes ayant des difficultés de parole ou pour convertir des signaux cérébraux en parole.

Le défi de la synthèse vocale efficace

Même si la synthèse articulatoire a beaucoup de promesses, la plupart des études ne se sont pas concentrées sur la création de systèmes efficaces en termes de paramètres. En gros, beaucoup de modèles actuels sont lourds et demandent beaucoup de mémoire et de puissance de calcul. Ça peut poser problème, surtout quand on essaie de les utiliser sur des appareils plus petits, comme les smartphones ou les tablettes. Les modèles plus petits sont généralement plus rapides et peuvent permettre des applications en temps réel, ce qui est vital pour un usage clinique où rapidité et efficacité sont essentielles.

Présentation du Traitement du signal numérique différentiable (DDSP)

Pour relever ces défis, les chercheurs se tournent vers le traitement du signal numérique différentiable (DDSP). Le DDSP combine des techniques de traitement audio traditionnelles avec l'apprentissage machine moderne, permettant une synthèse audio efficace tout en maintenant une haute qualité sonore. Un modèle DDSP a généralement deux parties principales : un encodeur qui transforme les caractéristiques d'entrée en signaux de contrôle et des modules de traitement du signal numérique qui créent de l'audio à partir de ces signaux de contrôle.

Comment fonctionne le DDSP

Dans un cadre DDSP, un encodeur prend des caractéristiques comme la tonalité vocale et le volume et les traite pour générer des signaux de contrôle. Les modules DSP convertissent ensuite ces signaux de contrôle en parole audible. L'avantage clé du DDSP réside dans sa légèreté, car il s'appuie sur des techniques de traitement audio établies et apprend à générer la parole de manière plus efficace.

Notre vocodeur DDSP proposé

Cet article présente une nouvelle approche de la synthèse articulatoire en utilisant le DDSP. Le système peut prendre des données EMA, la tonalité (F0) et les niveaux de volume pour les convertir en parole. En utilisant un modèle spécifique connu sous le nom de modèle Harmonic-plus-Noise (H+N), on obtient de meilleurs résultats en termes de qualité de parole et d'efficacité computationnelle.

Notre modèle réduit considérablement la quantité de mémoire nécessaire. Il génère une sortie vocale de haute qualité tout en n'utilisant qu'une fraction des paramètres nécessaires à d'autres modèles de pointe. Ça signifie qu'il est non seulement plus rapide mais aussi plus adapté à une utilisation sur des appareils plus petits.

Métriques de performance

Pour évaluer la performance de notre modèle, on se base sur deux principales métriques : le Taux d'erreur de mot (WER) et le score d'opinion moyen (MOS). Un WER plus bas indique que la parole synthétisée est plus compréhensible, tandis qu'un MOS plus élevé suggère que les auditeurs perçoivent la qualité de la parole comme étant bonne. Notre modèle obtient des scores impressionnants sur les deux métriques, montrant des améliorations claires par rapport aux systèmes existants.

L'architecture de notre modèle

Le modèle se compose de deux parties : l'encodeur et le générateur DSP. L'encodeur traite les données EMA, F0 et les informations de volume, les transmettant à des couches conçues pour capturer les nuances de la parole. Le générateur DSP synthétise ensuite le son en fonction des signaux produits par l'encodeur.

Détails de l'encodeur

L'encodeur utilise des couches de convolution dilatées, ce qui lui permet de considérer un contexte plus large des caractéristiques d'entrée sans augmenter significativement le nombre de paramètres. Le processus commence par combiner les caractéristiques d'entrée, puis les passer à travers plusieurs couches qui transforment les entrées en signaux de contrôle.

Composants du générateur DSP

Le générateur DSP inclut deux modules principaux : un oscillateur harmonique et un générateur de bruit. L'oscillateur harmonique crée les sons voisés tandis que le générateur de bruit simule des sons non voisés, comme des chuchotements ou des bruits de souffle. En combinant les sorties de ces deux modules, notre modèle synthétise une parole qui sonne naturelle et claire.

Fonctions de perte pour l'entraînement

Entraîner notre modèle implique des fonctions de perte spécifiques conçues pour améliorer la qualité sonore de la parole synthétisée. On utilise à la fois une perte spectrale multi-échelle et une perte adversariale multi-résolution. Cela permet de garantir que le modèle apprend non seulement à recréer des voix avec précision, mais capture aussi les détails fins dans la parole qui la rendent authentique.

Ensembles de données utilisés pour l'entraînement

Pour entraîner notre modèle, on a utilisé deux ensembles de données distincts. Le premier, appelé MNGU0, contient des enregistrements de parole masculine avec des données EMA, permettant une comparaison directe entre la parole synthétisée et la parole humaine réelle. Le deuxième ensemble de données, LJ Speech, est constitué d'enregistrements de parole féminine. Cependant, comme il ne contient pas de données EMA, on a généré des étiquettes EMA pseudo à l'aide d'un modèle différent.

Résultats de notre approche

À travers des évaluations approfondies, on a constaté que notre modèle DDSP surpassait les modèles de pointe existants sur toutes les métriques. Il a démontré qu'il était capable de produire une parole claire et compréhensible tout en nécessitant beaucoup moins de ressources.

Les améliorations étaient cohérentes à travers les deux ensembles de données, confirmant la polyvalence du modèle. Cela ouvre de nouvelles voies pour des applications potentielles, notamment dans des cadres cliniques où l'efficacité et la qualité de la parole sont primordiales.

Efficacité de notre modèle

L'une des caractéristiques remarquables de notre modèle DDSP est son efficacité. On a expérimenté avec des modèles de différentes tailles pour déterminer comment les performances changent avec moins de paramètres. Nos résultats ont montré que même avec un modèle beaucoup plus petit, les performances restaient robustes. Pour la version la plus petite de notre modèle, la qualité de la parole produite était comparable à celle d'un modèle existant beaucoup plus grand, soulignant l'efficacité de notre approche.

Vitesse d'inférence

Un autre grand avantage de notre vocodeur DDSP est sa rapidité. On a testé à quelle vitesse il pouvait générer de la parole par rapport aux systèmes existants. Notre modèle a réalisé les tâches beaucoup plus rapidement sans compromettre la qualité. Cette rapidité de traitement est particulièrement bénéfique pour des applications en temps réel, comme les technologies d'assistance vocale.

Directions futures

En conclusion, cette recherche ouvre une voie prometteuse pour la synthèse articulatoire avec le DDSP. On prévoit de peaufiner encore notre modèle et d'explorer sa capacité à gérer plusieurs intervenants, ce qui pourrait conduire à des avancées significatives dans les applications de synthèse vocale.

En optimisant la synthèse vocale, on peut améliorer l'accessibilité pour les personnes ayant des troubles de la parole et renforcer les technologies qui traduisent des pensées en mots parlés. Les avancées dans notre modèle représentent une étape essentielle pour rendre la synthèse vocale de haute qualité accessible à tous.

Source originale

Titre: Fast, High-Quality and Parameter-Efficient Articulatory Synthesis using Differentiable DSP

Résumé: Articulatory trajectories like electromagnetic articulography (EMA) provide a low-dimensional representation of the vocal tract filter and have been used as natural, grounded features for speech synthesis. Differentiable digital signal processing (DDSP) is a parameter-efficient framework for audio synthesis. Therefore, integrating low-dimensional EMA features with DDSP can significantly enhance the computational efficiency of speech synthesis. In this paper, we propose a fast, high-quality, and parameter-efficient DDSP articulatory vocoder that can synthesize speech from EMA, F0, and loudness. We incorporate several techniques to solve the harmonics / noise imbalance problem, and add a multi-resolution adversarial loss for better synthesis quality. Our model achieves a transcription word error rate (WER) of 6.67% and a mean opinion score (MOS) of 3.74, with an improvement of 1.63% and 0.16 compared to the state-of-the-art (SOTA) baseline. Our DDSP vocoder is 4.9x faster than the baseline on CPU during inference, and can generate speech of comparable quality with only 0.4M parameters, in contrast to the 9M parameters required by the SOTA.

Auteurs: Yisi Liu, Bohan Yu, Drake Lin, Peter Wu, Cheol Jun Cho, Gopala Krishna Anumanchipalli

Dernière mise à jour: Sep 4, 2024

Langue: English

Source URL: https://arxiv.org/abs/2409.02451

Source PDF: https://arxiv.org/pdf/2409.02451

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires