Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Elaborazione dell'audio e del parlato# Suono

Libriheavy: Un Nuovo Dataset per il Riconoscimento Vocale

Libriheavy offre 50.000 ore di inglese parlato per potenziare la tecnologia di riconoscimento vocale.

― 5 leggere min


Libriheavy Dataset per laLibriheavy Dataset per laTecnologia del Parlaremodelli di riconoscimento vocale.50.000 ore di audio migliorano i
Indice

Presentiamo un nuovo dataset chiamato Libriheavy, che include 50.000 ore di inglese parlato raccolto da audiolibri. A differenza di altri dataset, Libriheavy non contiene solo testo grezzo, ma anche Punteggiatura, maiuscole e Contesto, rendendolo più prezioso per migliorare i sistemi di Riconoscimento Vocale. Questo dataset mira a sostenere lo sviluppo di tecnologie di riconoscimento vocale più efficaci.

Importanza del Contesto nel Riconoscimento Vocale

La maggior parte dei sistemi di riconoscimento vocale si concentra sulla comprensione di frasi isolate. Tuttavia, capire il contesto che circonda queste frasi può migliorare notevolmente l'accuratezza. Il contesto può fornire indizi sul significato di parole e frasi che altrimenti potrebbero essere interpretate in modo errato. I dataset tradizionali spesso mancano di queste informazioni contestuali, limitandone l'utilità. Libriheavy colma questa lacuna fornendo contesto che può aiutare a migliorare come i sistemi di riconoscimento riconoscono e comprendono le parole parlate.

Panoramica del Dataset Libriheavy

Libriheavy è basato su un dataset precedente chiamato Librilight, che consiste di audio di inglese parlato non etichettato. Librilight conteneva una grande quantità di audio, ma mancava di trascrizioni contrassegnate. Creando Libriheavy, abbiamo allineato i file audio con il testo corrispondente dei libri originali, risultando in dati etichettati che contengono testo accurato, punteggiatura e maiuscole.

Libriheavy ha tre sottoinsiemi per l'addestramento, che vanno da 500 ore a 50.000 ore, oltre a set di valutazione separati utilizzati per convalidare le prestazioni dei modelli addestrati sul dataset. Questi set di valutazione assicurano che gli stessi oratori e libri non siano presenti sia nell'addestramento che nel test, offrendo un quadro più chiaro della capacità di un modello di generalizzare.

Creazione del Corpus Libriheavy

Il processo per creare Libriheavy ha coinvolto diversi passaggi di allineamento audio-testo e segmentazione in pezzi gestibili. Questa pipeline forma un modo sistematico per creare dataset simili in futuro.

Allineamento Audio e Testo

La prima fase implica l'abbinamento dell'audio parlato con il testo corrispondente. Per fare ciò, abbiamo utilizzato la Trascrizione automatica per convertire l'audio in testo e poi abbiamo trovato le migliori corrispondenze nel testo originale. Questo passaggio è cruciale perché assicura che l'audio sia correttamente collegato con il testo giusto.

Trascrizione dell'Audio

I file audio variano in lunghezza, quindi abbiamo diviso i file più lunghi in segmenti più corti. Abbiamo poi utilizzato un modello di riconoscimento vocale automatico (ASR) per convertire questi segmenti audio più brevi in testo. Facendo questo in porzioni, abbiamo reso il processo di trascrizione più efficiente.

Trovare Corrispondenze Vicine

Dopo aver ottenuto le trascrizioni, abbiamo identificato le corrispondenze vicine tra le trascrizioni automatiche e il testo originale. Questo ha coinvolto un metodo di determinazione delle parti del testo originale che sono abbastanza simili da corrispondere all'audio parlato.

Segmentazione dell'Audio

Una volta che avevamo l'audio e il testo allineati, abbiamo segmentato l'audio in pezzi che vanno da 2 a 30 secondi. Questa dimensione è ideale per addestrare i sistemi di riconoscimento vocale, aiutandoli a imparare a riconoscere il parlato in pezzi più gestibili.

Valutazione del Dataset Libriheavy

L'efficacia di Libriheavy è stata valutata attraverso prove con due tipi popolari di modelli di riconoscimento vocale. Questi modelli sono stati addestrati sia su testo normalizzato che sul formato più ricco trovato in Libriheavy, che include punteggiatura e maiuscole.

Sistemi di Base

I sistemi di base sono stati stabiliti utilizzando due tipi di modelli: modelli CTC-Attention e modelli trasduttori neurali. Questi modelli servono come benchmark per misurare l'efficacia di Libriheavy rispetto ad altri dataset.

Risultati Sperimentali

I risultati degli esperimenti che utilizzano Libriheavy hanno mostrato miglioramenti significativi in accuratezza rispetto a quelli addestrati solo su testo normalizzato. Quando punteggiatura e maiuscole erano inclusi nei testi di addestramento, i modelli hanno performato notevolmente meglio, specialmente quando si lavorava con set di dati di addestramento più piccoli. Man mano che i dati di addestramento aumentavano, la distinzione nelle prestazioni basate sullo stile del testo diventava meno significativa.

Vantaggi dell'Utilizzo di Libriheavy

Libriheavy presenta numerosi vantaggi per la ricerca e lo sviluppo nel riconoscimento vocale:

  1. Ampia Scala: Con 50.000 ore di audio, Libriheavy offre una sostanziale quantità di dati per l'addestramento dei modelli, fondamentale per migliorare le prestazioni del riconoscimento vocale.

  2. Formattazione Ricca: L'inclusione di punteggiatura, maiuscole e informazioni contestuali consente ai modelli di apprendere da strutture linguistiche più complesse, rendendoli migliori nel riconoscere e interpretare il linguaggio parlato.

  3. Pipeline Open Source: I metodi utilizzati per creare Libriheavy sono open source, facilitando ad altri lo sviluppo di dataset simili o il miglioramento dei loro dataset esistenti.

  4. Set di Valutazione di Alta Qualità: La progettazione attenta dei set di addestramento e valutazione assicura che i modelli possano essere testati in modo equo e accurato, portando a risultati più affidabili.

Direzioni Future

L'introduzione di Libriheavy apre la porta a ulteriori ricerche nel riconoscimento vocale. Lavori futuri potrebbero coinvolgere l'esplorazione di ulteriori dataset che incorporano varie lingue o dialetti, o approfondire come punteggiatura e maiuscole influenzano la comprensione e l'accuratezza nei sistemi di riconoscimento vocale.

Inoltre, i ricercatori possono espandere i metodi utilizzati per creare e allineare dataset, migliorando l'efficienza della creazione di dataset. L'obiettivo sarà continuare a migliorare le capacità dei sistemi di riconoscimento vocale e applicarli a una varietà di applicazioni pratiche.

Conclusione

Libriheavy è una risorsa completa per chiunque sia interessato ad avanzare nel campo del riconoscimento vocale. Combina un grande volume di dati audio con dettagli contestuali essenziali che possono avere un impatto significativo sulle prestazioni dei sistemi ASR. Rendendo un dataset del genere disponibile pubblicamente, speriamo di incoraggiare ulteriori innovazioni e collaborazioni in quest'area, portando infine a tecnologie vocali più efficaci e user-friendly.

Fonte originale

Titolo: Libriheavy: a 50,000 hours ASR corpus with punctuation casing and context

Estratto: In this paper, we introduce Libriheavy, a large-scale ASR corpus consisting of 50,000 hours of read English speech derived from LibriVox. To the best of our knowledge, Libriheavy is the largest freely-available corpus of speech with supervisions. Different from other open-sourced datasets that only provide normalized transcriptions, Libriheavy contains richer information such as punctuation, casing and text context, which brings more flexibility for system building. Specifically, we propose a general and efficient pipeline to locate, align and segment the audios in previously published Librilight to its corresponding texts. The same as Librilight, Libriheavy also has three training subsets small, medium, large of the sizes 500h, 5000h, 50000h respectively. We also extract the dev and test evaluation sets from the aligned audios and guarantee there is no overlapping speakers and books in training sets. Baseline systems are built on the popular CTC-Attention and transducer models. Additionally, we open-source our dataset creatation pipeline which can also be used to other audio alignment tasks.

Autori: Wei Kang, Xiaoyu Yang, Zengwei Yao, Fangjun Kuang, Yifan Yang, Liyong Guo, Long Lin, Daniel Povey

Ultimo aggiornamento: 2024-01-14 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.08105

Fonte PDF: https://arxiv.org/pdf/2309.08105

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili