Usare l'audio Deepfake per migliorare i sistemi di trascrizione
Indagando sull'audio deepfake per migliorare i modelli di trascrizione per lingue meno comuni.
― 8 leggere min
Indice
- La necessità di dati audio
- Tecniche di augmentation dei dati
- L'obiettivo
- Impostazione dell'esperimento
- Lavori correlati
- Il processo di Clonazione della voce
- Preparazione del dataset
- Preprocessing dei dati
- Addestramento del cloner vocale
- Addestramento del sistema di trascrizione
- Valutazione dei risultati
- Le sfide affrontate
- Conclusioni e direzioni future
- Fonte originale
- Link di riferimento
Ottenere dati audio di alta qualità è fondamentale per addestrare sistemi che trasformano le parole parlate in testo. Molti sistemi funzionano bene in lingue popolari, come l'inglese, ma trovare dati buoni per lingue meno comuni è difficile. Raccogliere questi dati di solito richiede molto tempo e denaro. Per affrontare questo problema, i ricercatori stanno esplorando l'augmentation dei dati, un modo per creare nuovi dati a partire da dati esistenti. Questo articolo esplora un metodo specifico di augmentation dei dati utilizzando la tecnologia Audio Deepfake per migliorare i sistemi di trascrizione.
La necessità di dati audio
Per allenare sistemi che trasformano l'audio in testo, abbiamo bisogno di una grande quantità di dati etichettati. Questo significa che ci servono clip audio insieme alle loro versioni scritte. Questi testi scritti dovrebbero essere creati da umani per evitare errori che altri sistemi potrebbero introdurre. Un buon sistema di trascrizione dovrebbe funzionare in modo coerente, anche quando l'audio presenta variazioni come diversi accenti o rumori. Tuttavia, per insegnare efficacemente a questi sistemi, abbiamo bisogno di dati diversi e abbondanti.
Trovare questo tipo di dati per lingue poco parlate è spesso difficile. Raccogliere un grande dataset costa generalmente molti soldi e richiede un considerevole ammontare di tempo. Inoltre, di solito richiede molte persone addestrate per garantire che le trascrizioni siano accurate. Per migliorare il processo, i ricercatori stanno usando tecniche di augmentation dei dati, che aiutano a creare nuovi campioni di dati rapidamente e a un costo inferiore.
Tecniche di augmentation dei dati
Ci sono molte tecniche di augmentation dei dati disponibili. Tuttavia, la maggior parte di esse può solo apportare piccole modifiche all'audio esistente. Ad esempio, alcune tecniche cambiano la velocità dell'audio o aggiungono rumore di fondo. Anche se questi metodi aiutano a migliorare i modelli fino a un certo punto, spesso non gestiscono bene le variazioni negli accenti. Per un sistema di trascrizione per funzionare efficacemente attraverso diversi accenti, deve essere addestrato su campioni audio diversi che includano vari accenti.
Questo lavoro si concentra su un nuovo metodo di augmentation dei dati che utilizza la tecnologia audio deepfake. L'audio deepfake può imitare la voce di individui specifici generando audio che sembra che stia parlando. Questo metodo ci permette di generare nuovi clip audio dalla voce dell'oratore originale mantenendo le loro caratteristiche, come l'accento.
L'obiettivo
L'obiettivo principale è esaminare se l'uso dell'audio deepfake può produrre risultati migliori quando si addestrano sistemi che convertono il parlato in testo. È stato progettato un framework per implementare questa tecnica. Il framework richiede un modello che possa clonare le voci e un piccolo dataset esistente. Utilizzando questo nuovo metodo, valuteremo quanto bene si comportano i sistemi di trascrizione.
Impostazione dell'esperimento
Per validare questo framework, sono stati condotti vari test utilizzando due scenari diversi. Il primo scenario prevedeva l'uso di un cloner vocale con modelli preesistenti. Questo setup mirava a generare file audio che potessero poi essere utilizzati per addestrare un sistema di trascrizione in diverse condizioni. Ogni risultato è stato analizzato per vedere se la qualità delle trascrizioni migliorava o peggiorava.
Nel secondo scenario, è stato applicato un ulteriore addestramento per migliorare i modelli di clonazione. Questo scenario ha valutato se le modifiche apportate al cloner vocale potessero migliorare la qualità audio e, di conseguenza, migliorare i risultati della trascrizione.
Lavori correlati
Negli anni sono stati introdotti vari metodi per aumentare i dati. Alcuni metodi coinvolgono la modifica dell'audio in modi che mantengono comunque il suono originale riconoscibile, mentre altri si concentrano sulla generazione di audio completamente nuovo utilizzando la tecnologia text-to-speech.
Una tecnica comune è quella di regolare la velocità delle registrazioni audio. Questo metodo produce nuovi clip audio che mantengono lo stesso contenuto ma a velocità diverse. Un altro metodo utilizza modifiche allo spettrogramma audio, che rappresenta l'audio visivamente, applicando maschere a parti di esso per creare variazioni. Diversi studi hanno dimostrato che queste tecniche possono migliorare la qualità della trascrizione.
Tuttavia, il metodo esplorato in questo lavoro va oltre queste tecniche tradizionali. Utilizzando il voice cloning, creiamo nuovo audio che assomiglia strettamente all'oratore originale, mantenendo così caratteristiche uniche come l'accento, rendendolo più adatto per l'addestramento dei sistemi di trascrizione.
Clonazione della voce
Il processo diPer questa ricerca, è stato scelto un particolare modello di clonazione della voce. Questo modello può generare audio a partire da pochi secondi di audio di riferimento. Questa caratteristica lo rende particolarmente utile per aumentare i dataset poiché consente di creare clip audio diverse utilizzando un input minimo.
Il modello di clonazione della voce è composto da tre parti:
- Encoder: Questa parte prende in input pochi secondi di audio e lo converte in una rappresentazione digitale.
- Synthesizer: Questo componente genera un nuovo clip audio basato sulla rappresentazione dell'encoder e un testo fornito.
- Vocoder: Questa parte converte i dati sintetizzati in un formato audio udibile.
Insieme, queste parti lavorano in modo efficiente per produrre nuovo audio che mantiene le caratteristiche della voce originale.
Preparazione del dataset
Per eseguire gli esperimenti, era necessario un dataset che contenesse clip audio insieme alle loro trascrizioni. Il dataset dovrebbe anche presentare audio parlato in inglese da persone con lo stesso accento. Per soddisfare questi requisiti, è stato selezionato un dataset specifico, composto da audio di video educativi prodotti da oratori indiani.
Il dataset contiene milioni di campioni audio, con ognuno della durata di pochi secondi. Tuttavia, poiché il dataset non era annotato manualmente, è stato creato un campione più piccolo e di alta qualità, chiamato "Pure-Set". Questo Pure-Set consiste di 1.000 audio, tutti trascritti manualmente per garantire l'accuratezza.
Preprocessing dei dati
Per preparare il dataset, sono stati utilizzati script per garantire coerenza e qualità nei file audio. I file audio sono stati normalizzati, regolati a una frequenza specifica e il rumore è stato rimosso. Questo processo ha garantito che i dati fossero di alta qualità prima di essere utilizzati per ulteriori esperimenti. Inoltre, il dataset è stato suddiviso in sottogruppi per scopi di addestramento e validazione.
Sono stati creati due script separati per i diversi componenti del progetto. Un script era responsabile della creazione di file CSV che seguivano il formato richiesto dal modello di trascrizione, mentre l'altro organizzava i file audio per il processo di clonazione vocale.
Addestramento del cloner vocale
Una volta che il dataset è stato pulito e preparato, è stato utilizzato per addestrare i modelli di clonazione vocale. L'addestramento ha comportato diversi passaggi, seguendo un insieme specifico di istruzioni delineate nel framework di clonazione vocale. Questo addestramento mirava a migliorare la qualità dei campioni audio generati dal cloner vocale.
Dopo che l'addestramento è stato completato, sono stati generati nuovi campioni audio utilizzando i modelli addestrati. Questi nuovi campioni sono stati poi utilizzati per addestrare il sistema di trascrizione.
Addestramento del sistema di trascrizione
Dopo aver preparato i campioni audio, il passo successivo prevedeva l'addestramento del sistema di trascrizione utilizzando questi nuovi file audio. Questo processo è stato effettuato utilizzando il modello DeepSpeech, noto per la sua efficacia nella conversione del parlato in testo. I file audio generati dal cloner vocale sono stati analizzati per identificare la loro qualità e le prestazioni del sistema di trascrizione.
Una volta completato l'addestramento, il modello è stato testato confrontando la sua uscita con le trascrizioni originali. Il Word Error Rate (WER) è stato calcolato, determinando quanto fossero accurate le trascrizioni. Questa metrica misura il numero di errori commessi nel processo di trascrizione, fornendo un'indicazione chiara delle prestazioni del sistema.
Valutazione dei risultati
I risultati degli esperimenti hanno mostrato che la qualità delle trascrizioni di solito è peggiorata dopo l'addestramento con i nuovi campioni audio. Nonostante avessimo una buona strategia in atto, molti dei clip audio generati non hanno fornito la qualità necessaria per un apprendimento efficace. Il motivo principale di questo declino sembrava essere la qualità dell'audio generato utilizzando il cloner vocale.
Per esplorare ulteriormente questo aspetto, sono stati condotti due esperimenti. Nel primo esperimento, il sistema addestrato con modelli preesistenti ha mostrato una diminuzione della qualità della trascrizione. Nel secondo esperimento, dove sono stati applicati ulteriori addestramenti ai modelli di clonazione vocale, i risultati sono rimasti insoddisfacenti.
L'analisi ha indicato che l'audio generato dal cloner vocale presentava ancora difetti. Molti dei clip audio erano difficili da comprendere, influenzando la capacità del sistema di trascrizione di apprendere efficacemente.
Le sfide affrontate
Nel tentativo di migliorare la qualità dell'audio generato, sono emerse diverse sfide. Il dataset utilizzato conteneva molto rumore di fondo, e molte registrazioni sono state effettuate in ambienti diversi, portando a incoerenze nella qualità audio. Inoltre, la lingua negli audio spesso includeva vocabolario tecnico, che potrebbe non essere stato presente in altri dataset di addestramento. Questo ha contribuito alla difficoltà del sistema di trascrizione nel produrre testi accurati.
I modelli di clonazione vocale richiedono anche un dataset che identifichi gli oratori accuratamente per funzionare in modo più efficace. Sfortunatamente, il dataset utilizzato in questa ricerca non forniva queste informazioni essenziali. Di conseguenza, l'addestramento del cloner vocale è stato limitato, influenzando la qualità degli audio generati.
Conclusioni e direzioni future
In sintesi, l'uso dell'audio deepfake come metodo di augmentation dei dati nell'addestramento dei sistemi di trascrizione mostra potenziale ma presenta anche sfide significative. Gli esperimenti hanno indicato che la qualità dei campioni audio gioca un ruolo fondamentale nel successo del modello di trascrizione.
Anche se il framework sviluppato in questa ricerca non ha portato a un miglioramento della qualità della trascrizione, apre la porta a lavori futuri. Le possibili direzioni per il miglioramento includono la ricerca di migliori metodi di addestramento per il cloner vocale, l'esplorazione di diversi dataset e l'aggiustamento degli iperparametri dei modelli.
Inoltre, l'indagine di nuove tecnologie di clonazione vocale potrebbe portare a una migliore qualità di generazione audio. Superando le attuali sfide, i ricercatori possono migliorare l'efficacia dei sistemi di trascrizione, in particolare per lingue meno comuni.
Titolo: Deepfake audio as a data augmentation technique for training automatic speech to text transcription models
Estratto: To train transcriptor models that produce robust results, a large and diverse labeled dataset is required. Finding such data with the necessary characteristics is a challenging task, especially for languages less popular than English. Moreover, producing such data requires significant effort and often money. Therefore, a strategy to mitigate this problem is the use of data augmentation techniques. In this work, we propose a framework that approaches data augmentation based on deepfake audio. To validate the produced framework, experiments were conducted using existing deepfake and transcription models. A voice cloner and a dataset produced by Indians (in English) were selected, ensuring the presence of a single accent in the dataset. Subsequently, the augmented data was used to train speech to text models in various scenarios.
Autori: Alexandre R. Ferreira, Cláudio E. C. Campelo
Ultimo aggiornamento: 2023-09-22 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.12802
Fonte PDF: https://arxiv.org/pdf/2309.12802
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/preprocess_nptel-pure.py
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/dataset_from_ids.py
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/train-deepspeech/generate_csv_files.py
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/train-deepspeech/create_csv_file.py
- https://github.com/CorentinJ/Real-Time-Voice-Cloning/wiki/Training
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/generate_audios.py
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/voice_cloning_inferences.py
- https://github.com/CorentinJ/Real-Time-Voice-Cloning/blob/master/demo_cli.py
- https://github.com/mozilla/DeepSpeech
- https://github.com/mozilla/DeepSpeech/releases/tag/v0.9.3
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/README.md
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/deepspeech/inferences_deepspeech.py