Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Intelligence artificielle# Traitement de l'audio et de la parole

Avancées dans la technologie de conversion vocale One-Shot

Une nouvelle méthode améliore la conversion vocale en utilisant moins d'échantillons.

Wenhan Yao, Zedong Xing, Xiarun Chen, Jia Liu, Yongqiang He, Weiping Wen

― 6 min lire


Percée dans la conversionPercée dans la conversionvocale en un seul essaivocale efficace avec peu de données.Un nouveau cadre propose une conversion
Table des matières

La conversion de voix, c'est une technique qui peut changer le son de la voix d'une personne pour qu'elle corresponde à une autre voix tout en gardant le même message. Ce truc peut être utile dans plein de domaines, comme rendre les films ou les jeux plus réalistes, créer des voix off, ou aider les gens qui ont perdu leur voix. Le défi, c'est que beaucoup de méthodes actuelles nécessitent pas mal d'exemples de voix ou de données parallèles des deux intervenants, et ce n'est pas toujours dispo.

Qu'est-ce que la conversion de voix One-Shot ?

La conversion de voix one-shot, c'est une méthode où le système essaie de changer la voix avec juste un échantillon de la voix de la personne cible. Ça rend l'adaptation à de nouvelles voix beaucoup plus facile, surtout quand il y a pas beaucoup d'échantillons. Les méthodes traditionnelles galèrent souvent à bien capter les caractéristiques vocales parce qu'elles peuvent pas toujours séparer les différentes parties de la parole, comme le ton, la hauteur, ou le rythme. Cet article présente un nouveau système appelé Pureformer-VC pour relever ces défis.

Le cadre Pureformer-VC

Pureformer-VC combine plusieurs techniques avancées pour créer un système de conversion de voix plus efficace. Les principaux composants sont :

  1. Encodeur de contenu : Cette partie prend la voix originale et la décompose en différents composants, comme le ton et le contenu.
  2. Encodeur de locuteur : Ce composant apprend les caractéristiques de la voix de la personne cible.
  3. Décodeur : Cela prend les composants séparés de l'encodeur de contenu et ajoute le style du locuteur cible pour créer une nouvelle voix.
  4. Vocoder : Cette partie convertit les signaux traités en son audible.

Le cadre utilise une combinaison de blocs avancés, appelés blocs Conformer et Zipformer, pour améliorer les performances de conversion de voix.

Comment fonctionne Pureformer-VC ?

Design de l’encodeur désentrelacé

Pour changer la voix efficacement, le système doit séparer les différents éléments vocaux. L'encodeur de contenu utilise des blocs Conformer qui sont bons pour capturer les détails de la parole tandis que l'encodeur de locuteur se concentre sur le maintien des informations du locuteur sans perdre des détails importants.

Mécanisme de transfert de style

Le décodeur utilise une technique de transfert de style pour mélanger les caractéristiques de la voix cible avec le contenu de la voix originale. Ça permet un changement de ton et de style plus naturel, rendant la voix convertie plus authentique.

Fonctions de perte pour l'entraînement

Le système utilise des fonctions de perte spéciales pendant l'entraînement pour améliorer ses performances. Cela implique de comparer les caractéristiques de différentes voix pour apprendre les différences entre elles. Grâce à l'incorporation de la perte triplet et de la perte AAM-softmax, le modèle peut mieux comprendre les relations entre les différentes voix, ce qui mène à des conversions plus précises.

Comparaison avec les méthodes traditionnelles

Beaucoup de méthodes précédentes utilisaient des techniques comme les GANs (réseaux antagonistes génératifs) pour changer les voix. Bien que ces modèles aient montré un certain succès, ils ont rencontré des problèmes comme des difficultés d'entraînement et ne livraient pas toujours des résultats de haute qualité. Pureformer-VC vise à surmonter ces limitations en se concentrant sur une séparation efficace des composants et l'intégration du style.

Configuration expérimentale

Pour tester l'efficacité de Pureformer-VC, des expériences ont été menées en utilisant un jeu de données appelé le corpus VCTK. Ce jeu de données inclut des enregistrements de plusieurs locuteurs. Le but était d'évaluer à quel point Pureformer-VC pouvait faire de la conversion de voix par rapport à d'autres méthodes existantes.

Procédures d'entraînement

Pendant le processus d'entraînement, le modèle apprend à convertir les voix avec précision. Il utilise une taille de lot de 16 et s'entraîne avec un optimiseur appelé Adam. Le processus d'entraînement implique d'alimenter des échantillons vocaux de différents locuteurs et d'apprendre les subtiles différences de ton et de style.

Métriques d'évaluation

Pour mesurer à quel point la conversion de voix a bien fonctionné, plusieurs métriques ont été utilisées :

  • Mean Opinion Score (MOS) : Ce score évalue la qualité de la parole générée de 1 à 5, où des scores plus élevés indiquent une meilleure qualité.
  • Voice Similarity Score (VSS) : Cela mesure à quel point la voix convertie ressemble à la voix cible originale.
  • Mel-Cepstral Distortion (MCD) : Cela quantifie la différence entre les voix originales et converties.

Résultats et analyse

Les expériences ont montré que Pureformer-VC fonctionne bien par rapport aux méthodes traditionnelles, surtout dans des scénarios de conversion de voix one-shot. Il a réussi à obtenir de bons scores dans les évaluations subjectives et objectives.

L'importance des fonctions de perte

L'incorporation de la perte triplet et de la perte AAM-softmax a joué un rôle important dans le succès du modèle. Ces fonctions aident le modèle à mieux représenter différentes voix, ce qui mène à de meilleurs résultats de conversion.

Évaluation visuelle

En utilisant des diagrammes de dispersion t-SNE, les chercheurs ont pu évaluer visuellement à quel point le modèle a regroupé différentes représentations de locuteurs. Les résultats indiquaient que le modèle pouvait créer des frontières distinctes entre les différentes caractéristiques des locuteurs, mettant en avant son efficacité à séparer les éléments vocaux.

Conclusion

Le cadre Pureformer-VC apporte une solution pratique aux défis rencontrés dans la conversion de voix. En se concentrant sur une séparation efficace des caractéristiques vocales et en utilisant des techniques avancées pour le transfert de style, il améliore la qualité et l'efficacité de la parole convertie. L'approche d'entraînement du modèle, qui incorpore des fonctions de perte spécialisées, renforce encore sa capacité à capturer et à représenter avec précision différentes voix.

Grâce à des expériences approfondies, Pureformer-VC montre du potentiel non seulement pour atteindre des résultats comparables à ceux des méthodes de conversion de voix existantes, mais aussi pour faire avancer la technologie afin de permettre des scénarios de conversion one-shot. Ce travail ouvre la voie à plus d'applications dans des domaines comme le divertissement, les communications, et les technologies d'assistance pour les personnes ayant des troubles de la parole.

Dans l'ensemble, Pureformer-VC représente un pas en avant significatif dans l'art et la science de la conversion de voix, fournissant un cadre solide pour de futures recherches et mises en œuvre pratiques.

Source originale

Titre: Pureformer-VC: Non-parallel One-Shot Voice Conversion with Pure Transformer Blocks and Triplet Discriminative Training

Résumé: One-shot voice conversion(VC) aims to change the timbre of any source speech to match that of the target speaker with only one speech sample. Existing style transfer-based VC methods relied on speech representation disentanglement and suffered from accurately and independently encoding each speech component and recomposing back to converted speech effectively. To tackle this, we proposed Pureformer-VC, which utilizes Conformer blocks to build a disentangled encoder, and Zipformer blocks to build a style transfer decoder as the generator. In the decoder, we used effective styleformer blocks to integrate speaker characteristics effectively into the generated speech. The models used the generative VAE loss for encoding components and triplet loss for unsupervised discriminative training. We applied the styleformer method to Zipformer's shared weights for style transfer. The experimental results show that the proposed model achieves comparable subjective scores and exhibits improvements in objective metrics compared to existing methods in a one-shot voice conversion scenario.

Auteurs: Wenhan Yao, Zedong Xing, Xiarun Chen, Jia Liu, Yongqiang He, Weiping Wen

Dernière mise à jour: 2024-11-24 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.01668

Source PDF: https://arxiv.org/pdf/2409.01668

Licence: https://creativecommons.org/publicdomain/zero/1.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Cosmologie et astrophysique nongalactiqueNouvelles perspectives sur la structure cosmique grâce à la lentille gravitationnelle

Des recherches révèlent des détails cruciaux sur la répartition de la matière dans l'univers en utilisant des données de lentilles gravitationnelles faibles.

Camila P. Novaes, Leander Thiele, Joaquin Armijo

― 7 min lire

Articles similaires