Affrontare le sfide nel riconoscimento automatico del parlato a lungo termine
La ricerca si concentra sul miglioramento dei sistemi ASR per audio non segmentato.
― 5 leggere min
La maggior parte delle ricerche sul riconoscimento automatico del parlato (ASR) si basa su dataset in cui sia i clip audio per l'allenamento che quelli per il test sono divisi in segmenti di parlato chiaro. Tuttavia, nella vita reale, l'audio spesso non è suddiviso in questi segmenti, creando un divario tra come i sistemi vengono addestrati e come devono funzionare in pratica. Questo documento affronta questa questione.
I ricercatori hanno rilanciato tre famosi dataset ASR: TED-LIUM 3, GigaSpeech e VoxPopuli-en. Lo scopo di questo rilascio è fornire trascrizioni testuali aggiornate e allineamenti audio per supportare la ricerca nell'ASR a lungo termine, che si occupa di audio non tagliato in segmenti di parlato chiaro.
Un’osservazione importante è che diversi modelli ASR rispondono in modo diverso alle sfide poste da questo divario. Lo studio mostra che gli encoder e decoder basati su attenzione (AED) sono più colpiti dal disallineamento tra le condizioni di allenamento e test rispetto ad altri modelli chiamati Trasduttori. I ricercatori testano anche un metodo di allenamento semplice che combina audio segmentato e a lungo termine, dimostrando che questo metodo può migliorare le prestazioni del modello quando ci si trova di fronte a audio non segmentato.
L'ASR a lungo termine, i dataset, la Segmentazione e i trasduttori giocano un ruolo cruciale in questa ricerca. La maggior parte delle indagini ASR si concentra su audio pre-segmentato, mentre le situazioni reali richiedono di lavorare con registrazioni lunghe che mancano di tali divisioni chiare. Questo disallineamento è stato riconosciuto in studi precedenti, spingendo a sforzi per offrire metodi di segmentazione migliori e modelli acustici avanzati. Tuttavia, molte strategie per gestire audio a lungo termine sono state testate principalmente utilizzando dataset privati o simulati.
Lo studio presenta statistiche provenienti da 36 articoli pubblicati sull'ASR a lungo termine, notando che una percentuale notevole ha utilizzato dati interni o simulati. Quando sono stati utilizzati dataset pubblicamente disponibili, molti erano multi-parlante, in lingue non inglesi, o avevano sezioni non registrate.
Per gettare le basi per ulteriori ricerche nell'ASR a lungo termine, il team ha rilasciato versioni aggiornate dei tre dataset ASR in inglese: TED-LIUM 3, GigaSpeech e VoxPopuli-en. Mentre le versioni originali includevano registrazioni audio complete, l'accuratezza delle loro trascrizioni variava ampiamente. Alcune parti delle registrazioni non erano trascritte o porzioni erano state rimosse a causa di problemi di allineamento.
I ricercatori hanno migliorato questi dataset collegando ed espandendo i dati audio e di trascrizione esistenti. Collegare implica combinare segmenti originali per formare registrazioni più lunghe quando c'è parlato ininterrotto tra di loro. Al contrario, espandere significa aggiungere nuovi elementi audio o di trascrizione ai dati originali.
Nei loro sforzi di ricostruzione, hanno collegato efficacemente i segmenti di GigaSpeech, ma hanno affrontato ostacoli con TED-LIUM a causa di parole mancanti nell'audio che non erano riflesse nelle trascrizioni. Il team ha utilizzato fonti esterne per colmare queste lacune, mappando con successo segmenti adiacenti usando trascrizioni raccolte automaticamente.
Nel caso di VoxPopuli, l'uscita originale è stata trovata avere molti segmenti contrassegnati come non validi a causa di problemi con la qualità audio. I ricercatori hanno esaminato questi segmenti e hanno stabilito che molti potevano ancora essere utilizzati, permettendo loro di ripristinare sequenze più lunghe per l'analisi.
I dataset ricostituiti variano significativamente in dimensioni e lunghezza media dei segmenti rispetto agli originali. Infatti, alcuni dataset sono ora più estesi, specialmente dopo aver aggiunto nuovi segmenti o affrontato lacune. Questi dati espansi forniscono risorse aggiuntive per i ricercatori che lavorano nell'ASR a lungo termine.
Sia i trasduttori che gli AED sono stati testati utilizzando i dataset a lungo termine migliorati. Gli esperimenti hanno permesso ai ricercatori di vedere come ogni modello affrontava le sfide poste da audio non segmentato. È diventato chiaro che i trasduttori mantenevano prestazioni migliori nonostante le discrepanze, mentre gli AED affrontavano problemi, particolarmente con tassi più elevati di errori di cancellazione.
I benefici dell'uso di un allenamento a lungo termine erano evidenti, poiché migliorava le prestazioni dei modelli nel gestire registrazioni più lunghe. L'uso di dati di allenamento misti, che includeva sia segmenti audio originali che a lungo termine, si è dimostrato efficace nel ridurre il divario di prestazioni tra i modelli.
Tuttavia, ci sono state alcune preoccupazioni con i dati di VoxPopuli, che includevano trascrizioni che erano state pesantemente modificate e potrebbero non allinearsi bene con l'audio. Questo ha reso l'allenamento meno efficace per il modello trasduttore, indicando che è necessaria un'attenzione accurata nella selezione di ulteriori dati per l'allenamento del modello.
La comunità di ricerca è stata molto interessata a trovare i migliori modi per addestrare e valutare i sistemi ASR per registrazioni audio lunghe. I risultati di questo studio evidenziano la necessità di esplorare continuamente i metodi di allenamento e gli aggiustamenti ai modelli affinché possano affrontare meglio le complessità dell'input audio reale.
In conclusione, questo lavoro evidenzia il rilascio di versioni aggiornate a lungo termine di tre dataset chiave in inglese. Attraverso un metodo di collegamento ed espansione, i ricercatori hanno creato risorse migliorate per l'allenamento e il testing dei sistemi ASR. Hanno anche dimostrato che diversi tipi di modelli rispondono in modo diverso alle sfide dell'audio a lungo termine, con i trasduttori che mostrano una maggiore robustezza. Lo studio offre benchmark preziosi per future indagini, permettendo ai ricercatori di misurare i progressi nel campo dell'ASR a lungo termine.
Titolo: Updated Corpora and Benchmarks for Long-Form Speech Recognition
Estratto: The vast majority of ASR research uses corpora in which both the training and test data have been pre-segmented into utterances. In most real-word ASR use-cases, however, test audio is not segmented, leading to a mismatch between inference-time conditions and models trained on segmented utterances. In this paper, we re-release three standard ASR corpora - TED-LIUM 3, Gigapeech, and VoxPopuli-en - with updated transcription and alignments to enable their use for long-form ASR research. We use these reconstituted corpora to study the train-test mismatch problem for transducers and attention-based encoder-decoders (AEDs), confirming that AEDs are more susceptible to this issue. Finally, we benchmark a simple long-form training for these models, showing its efficacy for model robustness under this domain shift.
Autori: Jennifer Drexler Fox, Desh Raj, Natalie Delworth, Quinn McNamara, Corey Miller, Migüel Jetté
Ultimo aggiornamento: 2023-09-26 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.15013
Fonte PDF: https://arxiv.org/pdf/2309.15013
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.