Libriheavy: Un Nuovo Dataset per il Riconoscimento Vocale
Libriheavy offre 50.000 ore di inglese parlato per potenziare la tecnologia di riconoscimento vocale.
― 5 leggere min
Indice
- Importanza del Contesto nel Riconoscimento Vocale
- Panoramica del Dataset Libriheavy
- Creazione del Corpus Libriheavy
- Allineamento Audio e Testo
- Trascrizione dell'Audio
- Trovare Corrispondenze Vicine
- Segmentazione dell'Audio
- Valutazione del Dataset Libriheavy
- Sistemi di Base
- Risultati Sperimentali
- Vantaggi dell'Utilizzo di Libriheavy
- Direzioni Future
- Conclusione
- Fonte originale
- Link di riferimento
Presentiamo un nuovo dataset chiamato Libriheavy, che include 50.000 ore di inglese parlato raccolto da audiolibri. A differenza di altri dataset, Libriheavy non contiene solo testo grezzo, ma anche Punteggiatura, maiuscole e Contesto, rendendolo più prezioso per migliorare i sistemi di Riconoscimento Vocale. Questo dataset mira a sostenere lo sviluppo di tecnologie di riconoscimento vocale più efficaci.
Importanza del Contesto nel Riconoscimento Vocale
La maggior parte dei sistemi di riconoscimento vocale si concentra sulla comprensione di frasi isolate. Tuttavia, capire il contesto che circonda queste frasi può migliorare notevolmente l'accuratezza. Il contesto può fornire indizi sul significato di parole e frasi che altrimenti potrebbero essere interpretate in modo errato. I dataset tradizionali spesso mancano di queste informazioni contestuali, limitandone l'utilità. Libriheavy colma questa lacuna fornendo contesto che può aiutare a migliorare come i sistemi di riconoscimento riconoscono e comprendono le parole parlate.
Panoramica del Dataset Libriheavy
Libriheavy è basato su un dataset precedente chiamato Librilight, che consiste di audio di inglese parlato non etichettato. Librilight conteneva una grande quantità di audio, ma mancava di trascrizioni contrassegnate. Creando Libriheavy, abbiamo allineato i file audio con il testo corrispondente dei libri originali, risultando in dati etichettati che contengono testo accurato, punteggiatura e maiuscole.
Libriheavy ha tre sottoinsiemi per l'addestramento, che vanno da 500 ore a 50.000 ore, oltre a set di valutazione separati utilizzati per convalidare le prestazioni dei modelli addestrati sul dataset. Questi set di valutazione assicurano che gli stessi oratori e libri non siano presenti sia nell'addestramento che nel test, offrendo un quadro più chiaro della capacità di un modello di generalizzare.
Creazione del Corpus Libriheavy
Il processo per creare Libriheavy ha coinvolto diversi passaggi di allineamento audio-testo e segmentazione in pezzi gestibili. Questa pipeline forma un modo sistematico per creare dataset simili in futuro.
Allineamento Audio e Testo
La prima fase implica l'abbinamento dell'audio parlato con il testo corrispondente. Per fare ciò, abbiamo utilizzato la Trascrizione automatica per convertire l'audio in testo e poi abbiamo trovato le migliori corrispondenze nel testo originale. Questo passaggio è cruciale perché assicura che l'audio sia correttamente collegato con il testo giusto.
Trascrizione dell'Audio
I file audio variano in lunghezza, quindi abbiamo diviso i file più lunghi in segmenti più corti. Abbiamo poi utilizzato un modello di riconoscimento vocale automatico (ASR) per convertire questi segmenti audio più brevi in testo. Facendo questo in porzioni, abbiamo reso il processo di trascrizione più efficiente.
Trovare Corrispondenze Vicine
Dopo aver ottenuto le trascrizioni, abbiamo identificato le corrispondenze vicine tra le trascrizioni automatiche e il testo originale. Questo ha coinvolto un metodo di determinazione delle parti del testo originale che sono abbastanza simili da corrispondere all'audio parlato.
Segmentazione dell'Audio
Una volta che avevamo l'audio e il testo allineati, abbiamo segmentato l'audio in pezzi che vanno da 2 a 30 secondi. Questa dimensione è ideale per addestrare i sistemi di riconoscimento vocale, aiutandoli a imparare a riconoscere il parlato in pezzi più gestibili.
Valutazione del Dataset Libriheavy
L'efficacia di Libriheavy è stata valutata attraverso prove con due tipi popolari di modelli di riconoscimento vocale. Questi modelli sono stati addestrati sia su testo normalizzato che sul formato più ricco trovato in Libriheavy, che include punteggiatura e maiuscole.
Sistemi di Base
I sistemi di base sono stati stabiliti utilizzando due tipi di modelli: modelli CTC-Attention e modelli trasduttori neurali. Questi modelli servono come benchmark per misurare l'efficacia di Libriheavy rispetto ad altri dataset.
Risultati Sperimentali
I risultati degli esperimenti che utilizzano Libriheavy hanno mostrato miglioramenti significativi in accuratezza rispetto a quelli addestrati solo su testo normalizzato. Quando punteggiatura e maiuscole erano inclusi nei testi di addestramento, i modelli hanno performato notevolmente meglio, specialmente quando si lavorava con set di dati di addestramento più piccoli. Man mano che i dati di addestramento aumentavano, la distinzione nelle prestazioni basate sullo stile del testo diventava meno significativa.
Vantaggi dell'Utilizzo di Libriheavy
Libriheavy presenta numerosi vantaggi per la ricerca e lo sviluppo nel riconoscimento vocale:
Ampia Scala: Con 50.000 ore di audio, Libriheavy offre una sostanziale quantità di dati per l'addestramento dei modelli, fondamentale per migliorare le prestazioni del riconoscimento vocale.
Formattazione Ricca: L'inclusione di punteggiatura, maiuscole e informazioni contestuali consente ai modelli di apprendere da strutture linguistiche più complesse, rendendoli migliori nel riconoscere e interpretare il linguaggio parlato.
Pipeline Open Source: I metodi utilizzati per creare Libriheavy sono open source, facilitando ad altri lo sviluppo di dataset simili o il miglioramento dei loro dataset esistenti.
Set di Valutazione di Alta Qualità: La progettazione attenta dei set di addestramento e valutazione assicura che i modelli possano essere testati in modo equo e accurato, portando a risultati più affidabili.
Direzioni Future
L'introduzione di Libriheavy apre la porta a ulteriori ricerche nel riconoscimento vocale. Lavori futuri potrebbero coinvolgere l'esplorazione di ulteriori dataset che incorporano varie lingue o dialetti, o approfondire come punteggiatura e maiuscole influenzano la comprensione e l'accuratezza nei sistemi di riconoscimento vocale.
Inoltre, i ricercatori possono espandere i metodi utilizzati per creare e allineare dataset, migliorando l'efficienza della creazione di dataset. L'obiettivo sarà continuare a migliorare le capacità dei sistemi di riconoscimento vocale e applicarli a una varietà di applicazioni pratiche.
Conclusione
Libriheavy è una risorsa completa per chiunque sia interessato ad avanzare nel campo del riconoscimento vocale. Combina un grande volume di dati audio con dettagli contestuali essenziali che possono avere un impatto significativo sulle prestazioni dei sistemi ASR. Rendendo un dataset del genere disponibile pubblicamente, speriamo di incoraggiare ulteriori innovazioni e collaborazioni in quest'area, portando infine a tecnologie vocali più efficaci e user-friendly.
Titolo: Libriheavy: a 50,000 hours ASR corpus with punctuation casing and context
Estratto: In this paper, we introduce Libriheavy, a large-scale ASR corpus consisting of 50,000 hours of read English speech derived from LibriVox. To the best of our knowledge, Libriheavy is the largest freely-available corpus of speech with supervisions. Different from other open-sourced datasets that only provide normalized transcriptions, Libriheavy contains richer information such as punctuation, casing and text context, which brings more flexibility for system building. Specifically, we propose a general and efficient pipeline to locate, align and segment the audios in previously published Librilight to its corresponding texts. The same as Librilight, Libriheavy also has three training subsets small, medium, large of the sizes 500h, 5000h, 50000h respectively. We also extract the dev and test evaluation sets from the aligned audios and guarantee there is no overlapping speakers and books in training sets. Baseline systems are built on the popular CTC-Attention and transducer models. Additionally, we open-source our dataset creatation pipeline which can also be used to other audio alignment tasks.
Autori: Wei Kang, Xiaoyu Yang, Zengwei Yao, Fangjun Kuang, Yifan Yang, Liyong Guo, Long Lin, Daniel Povey
Ultimo aggiornamento: 2024-01-14 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.08105
Fonte PDF: https://arxiv.org/pdf/2309.08105
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.