Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Apprentissage automatique# Traitement de l'audio et de la parole

Utiliser l'audio deepfake pour améliorer les systèmes de transcription

Enquête sur l'audio deepfake pour améliorer les modèles de transcription pour les langues moins courantes.

― 11 min lire


Audio deepfake dans laAudio deepfake dans laformation à latranscriptiontranscription.audio sur la précision de laExaminer l'impact de la technologie
Table des matières

Obtenir des données audio de haute qualité est super important pour entraîner des systèmes qui transforment les mots parlés en texte. Beaucoup de systèmes se débrouillent bien dans les langues populaires, comme l'anglais, mais c'est galère de trouver assez de bonnes données pour les langues moins courantes. Rassembler ces données prend souvent beaucoup de temps et d'argent. Pour régler ce problème, les chercheurs explorent l'Augmentation de données, une manière de créer de nouvelles données à partir des données existantes. Cet article se penche sur une méthode spécifique d'augmentation de données utilisant la technologie Audio deepfake pour améliorer les systèmes de transcription.

Le Besoin de Données Audio

Pour entraîner des systèmes qui convertissent l'audio en texte, on a besoin d'un gros volume de données étiquetées. Ça veut dire qu'on a besoin de clips audio avec leurs versions écrites. Ces textes écrits doivent être créés par des humains pour éviter les erreurs que d'autres systèmes peuvent introduire. Un système de transcription solide doit être cohérent, même quand l'audio a des variations comme des accents différents ou du bruit. Mais pour bien enseigner ces systèmes, il faut des données diverses et en quantité.

Trouver ce genre de données pour des langues qui ne sont pas largement parlées est souvent difficile. Collecter un gros dataset coûte généralement cher et prend un temps fou. En plus, ça nécessite souvent beaucoup de personnes formées pour garantir que les transcriptions soient précises. Pour améliorer le processus, les chercheurs utilisent des techniques d'augmentation de données, qui aident à créer rapidement de nouveaux échantillons de données à moindre coût.

Techniques d'Augmentation de Données

Il y a plein de méthodes d'augmentation de données disponibles. Cependant, la plupart d'entre elles ne peuvent que faire des changements mineurs à l'audio existant. Par exemple, certaines techniques modifient la vitesse de l'audio ou ajoutent du bruit de fond. Bien que ces méthodes aident un peu à améliorer les modèles, elles ne gèrent souvent pas bien les variations d'accents. Pour qu'un système de transcription fonctionne efficacement avec différents accents, il doit être entraîné sur des échantillons audio variés qui incluent plusieurs accents.

Ce travail se concentre sur une nouvelle méthode d'augmentation de données qui utilise la technologie audio deepfake. L'audio deepfake peut imiter la voix de personnes spécifiques en générant un audio qui semble qu'elles parlent. Cette méthode permet de créer de nouveaux clips audio à partir de la voix de l'intervenant original tout en conservant ses caractéristiques, comme l'accent.

L'Objectif

L'objectif principal est de voir si utiliser l'audio deepfake peut produire de meilleurs résultats lors de l'entraînement des systèmes qui convertissent la parole en texte. Un cadre a été conçu pour mettre en œuvre cette technique. Le cadre nécessite un modèle capable de cloner des voix et un petit dataset existant. Avec cette nouvelle méthode, on va évaluer comment les systèmes de transcription performe.

Configuration de l'Expérience

Pour valider ce cadre, plusieurs tests ont été réalisés dans deux scénarios différents. Le premier scénario impliquait d'utiliser un cloneur de voix avec des modèles préexistants. Ce setup visait à générer des fichiers audio qui pouvaient ensuite être utilisés pour entraîner un système de transcription dans diverses conditions. Chaque résultat a été analysé pour voir si la qualité des transcriptions s'est améliorée ou dégradée.

Dans le deuxième scénario, un entraînement supplémentaire a été appliqué pour améliorer les modèles de clonage. Ce scénario a évalué si les changements effectués sur le cloneur de voix pouvaient améliorer la qualité audio et, par conséquent, améliorer les résultats de transcription.

Travaux Connexes

Au fil des ans, plusieurs méthodes pour augmenter les données ont été introduites. Certaines méthodes consistent à modifier l'audio de manière à garder le son original reconnaissable, tandis que d'autres se concentrent sur la génération d'un audio entièrement nouveau en utilisant la technologie text-to-speech.

Une technique courante consiste à ajuster la vitesse des enregistrements audio. Cette méthode produit de nouveaux clips audio qui maintiennent le même contenu mais à des vitesses différentes. Une autre méthode utilise des modifications sur le spectrogramme audio, qui représente visuellement l'audio, en appliquant des masques sur certaines parties pour créer des variations. Plusieurs études ont montré que ces techniques peuvent améliorer la qualité de transcription.

Cependant, la méthode explorée dans ce travail va au-delà de ces techniques traditionnelles. En utilisant le Clonage vocal, on crée un nouvel audio qui ressemble de près à l'orateur original, conservant ainsi des caractéristiques uniques comme l'accent, ce qui le rend plus adapté pour entraîner des systèmes de transcription.

Le Processus de Clonage Vocal

Pour cette recherche, un modèle de clonage vocal particulier a été choisi. Ce modèle peut générer de l'audio à partir de seulement quelques secondes d'audio de référence. Cette fonctionnalité le rend particulièrement utile pour augmenter les ensembles de données, car elle permet de créer des clips audio variés avec un minimum d'entrée.

Le modèle de clonage vocal se compose de trois parties :

  1. Encodeur : Cette partie prend quelques secondes d'audio et les convertit en une représentation numérique.
  2. Synthétiseur : Ce composant génère un nouveau clip audio basé sur la représentation de l'encodeur et un texte donné.
  3. Vocoder : Cette partie convertit les données synthétisées en un format audio audible.

Ensemble, ces parties fonctionnent efficacement pour produire un nouvel audio qui maintient les caractéristiques de la voix originale.

Préparation de l'Ensemble de Données

Pour réaliser les expériences, un ensemble de données était nécessaire, contenant des clips audio avec leurs transcriptions. L'ensemble de données devait aussi comporter des audios parlés en anglais par des personnes ayant le même accent. Pour répondre à ces exigences, un ensemble de données spécifique a été sélectionné, composé d'audios de vidéos éducatives produites par des intervenants indiens.

L'ensemble de données contient des millions d'échantillons audio, chaque échantillon durant quelques secondes. Cependant, comme l'ensemble de données n'était pas annoté manuellement, un échantillon plus petit mais de haute qualité a été créé, appelé le "Pure-Set". Ce Pure-Set se compose de 1 000 audios, tous transcrits manuellement pour garantir l'exactitude.

Prétraitement des Données

Pour préparer l'ensemble de données, des scripts ont été utilisés pour assurer la cohérence et la qualité des fichiers audio. Les fichiers audio ont été normalisés, ajustés à une fréquence spécifique et le bruit a été retiré. Ce processus a garanti que les données étaient de haute qualité avant d'être utilisées pour d'autres expériences. De plus, l'ensemble de données a été divisé en sous-ensembles pour des objectifs d'entraînement et de validation.

Deux scripts distincts ont été créés pour les différentes parties du projet. Un script était responsable de la création de fichiers CSV selon le format requis par le modèle de transcription, tandis que l'autre organisait les fichiers audio pour le processus de clonage vocal.

Entraînement du Cloneur de Voix

Une fois l'ensemble de données nettoyé et préparé, il a été utilisé pour entraîner les modèles de clonage vocal. L'entraînement a impliqué plusieurs étapes, suivant un ensemble d'instructions spécifiques décrites dans le cadre de clonage vocal. Cet entraînement visait à améliorer la qualité des échantillons audio générés par le cloneur de voix.

Après l'entraînement, de nouveaux échantillons audio ont été générés en utilisant les modèles entraînés. Ces nouveaux échantillons ont ensuite été utilisés pour entraîner le système de transcription.

Entraînement du Système de Transcription

Après avoir préparé les échantillons audio, la prochaine étape consistait à entraîner le système de transcription avec ces nouveaux fichiers audio. Ce processus a été réalisé en utilisant le modèle DeepSpeech, qui est connu pour son efficacité à convertir la parole en texte. Les fichiers audio générés par le cloneur de voix ont été analysés pour évaluer leur qualité et la performance du système de transcription.

Une fois l'entraînement terminé, le modèle a été testé en comparant sa sortie avec les transcriptions originales. Le Taux d'erreur de mot (WER) a été calculé, déterminant à quel point les transcriptions étaient précises. Cet indicateur mesure le nombre d'erreurs faites dans le processus de transcription, donnant une indication claire de la performance du système.

Évaluation des Résultats

Les résultats des expériences ont montré que la qualité des transcriptions s'est généralement détériorée après l'entraînement avec les nouveaux échantillons audio. Malgré une bonne stratégie en place, beaucoup des clips audio générés n'ont pas fourni la qualité nécessaire pour un apprentissage efficace. La principale raison de cette dégradation semblait être la qualité de l'audio généré par le cloneur de voix.

Pour explorer cela plus en profondeur, deux expériences ont été menées. Dans la première expérience, le système entraîné avec des modèles préexistants a montré une baisse de la qualité de transcription. Dans la deuxième expérience, où un entraînement supplémentaire a été appliqué aux modèles de clonage vocal, les résultats sont restés insatisfaisants.

L'analyse a indiqué que l'audio généré par le cloneur de voix avait encore des défauts. Beaucoup des clips audio étaient difficiles à comprendre, affectant la capacité du système de transcription à apprendre efficacement.

Les Défis Rencontrés

En essayant d'améliorer la qualité de l'audio généré, plusieurs défis sont devenus apparents. L'ensemble de données utilisé contenait beaucoup de bruit de fond, et de nombreux enregistrements ont été réalisés dans des environnements différents, entraînant des incohérences dans la qualité audio. De plus, la langue dans les audios incluait souvent un vocabulaire technique, qui pourrait ne pas être présent dans d'autres ensembles de données d'entraînement. Cela a contribué à la difficulté du système de transcription à produire un texte précis.

Les modèles de clonage vocal nécessitent également un ensemble de données qui identifie exactement les intervenants pour fonctionner le plus efficacement possible. Malheureusement, l'ensemble de données utilisé dans cette recherche ne fournissait pas cette information essentielle. Par conséquent, l'entraînement du cloneur de voix a été limité, impactant la qualité des audios générés.

Conclusions et Directions Futures

En résumé, utiliser l'audio deepfake comme méthode d'augmentation de données pour entraîner les systèmes de transcription montre un potentiel mais vient aussi avec des défis importants. Les expériences ont indiqué que la qualité des échantillons audio joue un rôle crucial dans le succès du modèle de transcription.

Bien que le cadre développé dans cette recherche n'ait pas abouti à une amélioration de la qualité de transcription, il ouvre la voie à de futurs travaux. Des directions potentielles pour l'amélioration incluent la recherche de meilleures méthodes d'entraînement pour le cloneur de voix, l'exploration d'autres ensembles de données, et l'ajustement des hyperparamètres des modèles.

De plus, enquêter sur des technologies de clonage vocal plus récentes pourrait mener à une meilleure qualité de génération audio. En surmontant les défis actuels, les chercheurs peuvent améliorer l'efficacité des systèmes de transcription, particulièrement pour les langues moins courantes.

Source originale

Titre: Deepfake audio as a data augmentation technique for training automatic speech to text transcription models

Résumé: To train transcriptor models that produce robust results, a large and diverse labeled dataset is required. Finding such data with the necessary characteristics is a challenging task, especially for languages less popular than English. Moreover, producing such data requires significant effort and often money. Therefore, a strategy to mitigate this problem is the use of data augmentation techniques. In this work, we propose a framework that approaches data augmentation based on deepfake audio. To validate the produced framework, experiments were conducted using existing deepfake and transcription models. A voice cloner and a dataset produced by Indians (in English) were selected, ensuring the presence of a single accent in the dataset. Subsequently, the augmented data was used to train speech to text models in various scenarios.

Auteurs: Alexandre R. Ferreira, Cláudio E. C. Campelo

Dernière mise à jour: 2023-09-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.12802

Source PDF: https://arxiv.org/pdf/2309.12802

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires