Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Son

Anonymiser les données de discours : Une nouvelle méthode

Une méthode pour la conversion de voix qui améliore la confidentialité et la qualité de la parole.

― 9 min lire


Innovations en matière deInnovations en matière deconfidentialité desdonnées vocalesl'identité.conversion de voix et protègentDe nouvelles méthodes améliorent la
Table des matières

Utiliser la voix pour interagir avec les appareils devient de plus en plus courant, ce qui soulève des inquiétudes concernant la vie privée et la sécurité des données. Ces préoccupations se sont intensifiées après l'instauration de règles strictes, comme le Règlement Général sur la Protection des Données (RGPD) en Europe. Les mots prononcés peuvent en dire long sur une personne, y compris son âge, son sexe et son origine. Si les données vocales de quelqu'un sont exposées, des individus malveillants pourraient les utiliser pour tromper les systèmes de reconnaissance vocale ou imiter des utilisateurs autorisés. Cela rend crucial de cacher l'identité des intervenants avant que leurs données vocales ne soient partagées entre les appareils.

La conversion vocale (CV) est une méthode utile pour rendre la parole anonyme. Elle modifie la voix d’un intervenant tout en gardant les mots identiques. Au fil du temps, différentes approches de conversion vocale ont été développées, les techniques d'apprentissage profond montrant de meilleurs résultats que les méthodes traditionnelles. Les réseaux antagonistes génératifs (GAN) sont devenus populaires pour créer des changements vocaux réalistes. Cependant, le succès de ces méthodes dépend du choix du bon intervenant cible. Lorsque les intervenants source et cible ont des qualités vocales très différentes, les résultats peuvent s'aggraver. Pour une anonymité efficace, les voix de la source et de la cible ne doivent pas correspondre étroitement, notamment en termes de hauteur.

Méthode Proposée

Dans cette étude, nous introduisons une nouvelle approche utilisant des pertes perceptuelles, qui mesurent les différences entre les discours originaux et modifiés. Ces pertes aident le modèle à créer des conversions vocales qui sonnent plus naturelles aux oreilles humaines. Les modèles utilisant ces pertes perceptuelles produisent des voix moins mécaniques et améliorent la qualité pour divers intervenants cibles.

Contexte

Dans le passé, les méthodes de conversion vocale s'appuyaient sur des données parallèles, ce qui signifie que des enregistrements contenant le même contenu étaient tirés à la fois des intervenants originaux et cibles. Des méthodes statistiques traditionnelles étaient utilisées dans ces cas. Bien que les réseaux de neurones profonds (DNN) aient amélioré la qualité de ces conversions, ils avaient du mal à préserver les inflexions vocales et aboutissaient souvent à des erreurs de prononciation. De plus, les méthodes antérieures utilisaient un mappage un à un, limitant la flexibilité.

Récemment, de nombreuses approches se sont tournées vers des données non parallèles, qui sont plus faciles et moins coûteuses à rassembler. Certaines méthodes ont utilisé des phonetic posteriorgrams (PPGs) comme entrée, mais cela produisait souvent des résultats non naturels. Des autoencodeurs variationnels (VAEs) ont également été introduits, visant à séparer le contenu et les traits de l’intervenant, mais aboutissant à des voix trop lissées.

Pour résoudre ces problèmes, des méthodes de conversion vocale basées sur les GANs ont émergé, utilisant la perte de cycle-consistance pour travailler avec des données non parallèles. Notre approche est basée sur la méthode GAN appelée StarGANv2-VC, qui permet une conversion vocale de plusieurs à plusieurs sans nécessiter de données parallèles.

Architecture de StarGANv2-VC

Dans notre architecture, un seul générateur est nécessaire pour convertir les voix entre plusieurs paires. Le générateur produit un mel-spectrogramme, une représentation visuelle du son, en prenant trois entrées : le log mel-spectrogramme du discours original, des embeddings de fréquence de l’intervenant source et des codes de style de l’intervenant cible.

Les embeddings de fréquence sont dérivés d'un réseau pré-entraîné qui classe et détecte les traits de l’intervenant. Le mel-spectrogramme résultant combine le contenu linguistique de l’intervenant original avec le style de l’intervenant cible.

Encodeur de Style d’Intervenant

Pour capter le style unique d’un intervenant, nous utilisons un encodeur de style d’intervenant. Cet encodeur identifie des attributs spécifiques, tels que l'accent et les manières, qui sont distincts du contenu prononcé. Lorsqu'il reçoit un mel-spectrogramme d'une autre énonciation de référence, l'encodeur génère des embeddings qui représentent le style de l'intervenant. Cet embedding sert d'entrée au générateur, affectant le style de la conversion finale.

L'encodeur traite le mel-spectrogramme à travers des couches partagées pour tous les intervenants, suivi d'une couche spécifique à l'intervenant qui traduit les caractéristiques en embeddings de style uniques.

Discriminateur et Classificateur d’Intervenant

Notre architecture comprend également un discriminateur, qui fonctionne comme un vérificateur de la qualité des conversions générées. Il distingue entre des échantillons réels et faux. De plus, un classificateur d’intervenants adversarial est inclus. Lorsque le discriminateur est entraîné, le classificateur aide à affiner la sortie du générateur en veillant à ce qu'elle ne conserve aucune caractéristique de l’intervenant source. À l'inverse, lors de l'entraînement du générateur, le classificateur le guide pour produire une sortie qui ressemble étroitement à la voix de l’intervenant cible.

Pertes Perceptuelles

Pour mieux capturer la qualité des conversions vocales, nous introduisons des pertes perceptuelles spécifiques à chaque tâche. Ces pertes se concentrent sur l'amélioration de la qualité des conversions vocales pour chaque intervenant cible.

Compréhensibilité Objective à Court Terme (STOI)

Le STOI est une métrique qui évalue à quel point un signal de discours modifié est compréhensible par rapport à une référence claire. Des scores STOI plus élevés indiquent une meilleure clarté. Les signaux sont divisés en courtes trames pour analyser leurs spectres de puissance. En comparant les spectres de modulation des signaux originaux et altérés, nous pouvons évaluer leur similarité et, finalement, le score de compréhensibilité.

Score d’Opinion Moyen Prédit (pMOS)

Le MOS est une méthode utilisée pour évaluer à quel point la voix convertie sonne naturelle. Cependant, recueillir des opinions humaines pour cette métrique peut être chronophage et coûteux. À la place, nous proposons un réseau appelé MOSNet, qui agit comme un proxy pour générer un score. Ce réseau utilise une combinaison de couches de réseaux de neurones convolutifs et récurrents pour analyser la qualité audio et produire un score reflétant la naturalité globale de la voix convertie.

Coefficient de Corrélation de Hauteur (PCC)

La hauteur joue un rôle crucial dans la façon dont une énonciation sonne. Le PCC quantifie à quel point deux énonciations correspondent en termes de contours de hauteur. Ces contours ne devraient pas varier de manière significative lors de la comparaison d'une source et d'une cible avec le même contenu. Un PCC plus élevé signifie que la voix convertie conserve une intonation similaire à l'original.

Processus d’Entraînement

Nous avons entraîné tous les modèles sur des échantillons de discours anglais provenant de vingt intervenants différents. L'audio a été traité pour garantir la cohérence et divisé en ensembles d'entraînement, de validation et de test. Chaque modèle a subi un entraînement pendant un nombre défini d'époques avec une taille de lot standardisée. Nous avons utilisé un optimiseur spécifique pour ajuster le taux d'apprentissage au fil du temps, assurant que le modèle apprenait efficacement.

Pour évaluer la qualité de la sortie, plusieurs métriques ont été utilisées. La naturalité des voix converties a été évaluée par les scores pMOS, tandis que la compréhensibilité a été mesurée via des taux d'erreur de caractères à l'aide d'outils de reconnaissance vocale automatique. Nous avons également analysé à quel point les voix converties ressemblaient à l’intervenant cible en utilisant des systèmes de vérification automatique des intervenants.

Résultats et Discussion

Nous avons sélectionné un mélange d'intervenants masculins et féminins comme cibles, générant plus d'un millier de conversions basées sur divers intervenants sources. Les modèles incorporant des pertes perceptuelles ont donné les meilleurs résultats en termes de qualité sonore, avec des améliorations notables en naturalité et clarté par rapport aux modèles traditionnels.

De plus, les modèles utilisant des pertes perceptuelles ont montré moins de variation dans la qualité de sortie, fournissant des résultats plus cohérents entre différents intervenants cibles. La capacité à maintenir l'intonation et les contours de hauteur a également été considérablement améliorée, en particulier dans les cas où le contour de fréquence subissait un changement majeur.

Dans l'ensemble, les pertes perceptuelles proposées ont efficacement aidé à séparer le contenu et les représentations de l'intervenant, menant à de meilleures conversions de qualité. Notre étude s'est concentrée sur l'amélioration de la naturalité et de la compréhensibilité, mais des travaux futurs visent à inclure des pertes perceptuelles qui abordent également les émotions. Ce développement pourrait grandement bénéficier aux dispositifs de discours intelligents en rendant les réponses plus alignées avec les émotions de l'utilisateur.

Conclusion

L'essor de l'interaction vocale avec les appareils incite à une réflexion approfondie sur les problèmes de vie privée. Anonymiser les données vocales est essentiel pour la sécurité. Notre recherche introduit une méthode utilisant des pertes perceptuelles dans la conversion vocale, aboutissant à des sorties plus naturelles et intelligibles. L'architecture StarGANv2-VC permet une conversion flexible sans avoir besoin de données parallèles. Ce travail constitue une base pour de futurs progrès dans la technologie vocale, garantissant non seulement la clarté, mais aussi la résonance émotionnelle dans la parole générée.

Source originale

Titre: Improving Voice Conversion for Dissimilar Speakers Using Perceptual Losses

Résumé: The rising trend of using voice as a means of interacting with smart devices has sparked worries over the protection of users' privacy and data security. These concerns have become more pressing, especially after the European Union's adoption of the General Data Protection Regulation (GDPR). The information contained in an utterance encompasses critical personal details about the speaker, such as their age, gender, socio-cultural origins and more. If there is a security breach and the data is compromised, attackers may utilise the speech data to circumvent the speaker verification systems or imitate authorised users. Therefore, it is pertinent to anonymise the speech data before being shared across devices, such that the source speaker of the utterance cannot be traced. Voice conversion (VC) can be used to achieve speech anonymisation, which involves altering the speaker's characteristics while preserving the linguistic content.

Auteurs: Suhita Ghosh, Yamini Sinha, Ingo Siegert, Sebastian Stober

Dernière mise à jour: 2023-09-18 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.08263

Source PDF: https://arxiv.org/pdf/2309.08263

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires