Costruire Dataset di Parlato Migliori per Lingue Sottovalutate
Un progetto che sviluppa dataset di parlato e testo per lingue con risorse limitate.
Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
― 5 leggere min
Indice
- Necessità di Dataset di Parlato e Testo
- La Sfida
- Lavoro Precedente
- Panoramica del Processo
- Elaborazione Audio
- Pre-elaborazione del Testo
- Modellazione Linguistica e Riconoscimento Vocale
- Abbinamento Testo e Audio
- Allineamento Finale
- Filtro e Segmentazione dei Dati
- Rilascio dei Dataset
- Conclusione
- Fonte originale
- Link di riferimento
La Collezione ParlaSpeech è un insieme di dataset di discorsi e testi creati da registrazioni di incontri parlamentari. È pensata per aiutare le lingue che hanno meno risorse disponibili per la tecnologia del parlato. L'obiettivo è fornire un miglior accesso ai dati parlati e scritti per la ricerca e la tecnologia in queste lingue.
Necessità di Dataset di Parlato e Testo
Negli ultimi anni, ci sono stati grandi miglioramenti nel modo in cui le macchine elaborano il parlato e il linguaggio. Questi miglioramenti arrivano spesso da metodi auto-supervisionati che utilizzano un sacco di dati grezzi. Tuttavia, avere collegamenti chiari tra parole parlate e testo scritto è ancora molto importante. Molte lingue non hanno abbastanza dati di questo tipo, il che rende difficile creare buone tecnologie per elaborare il parlato.
Per affrontare questo problema, ci concentriamo sull'uso delle Trascrizioni delle sedute parlamentari e delle loro registrazioni. I verbali parlamentari sono una buona fonte di dati affidabili perché spesso devono essere resi pubblici. Questo significa che le registrazioni delle sedute sono di solito accessibili, il che aiuta a evitare preoccupazioni sulla privacy.
La Sfida
Le lingue diverse hanno livelli variabili di dataset di parlato e testo disponibili. Alcune lingue hanno molto materiale, mentre altre ne hanno molto poco o addirittura nessuno. Il polacco, ad esempio, ha circa 180 ore di materiale, che non sono molte per una lingua parlata da oltre 40 milioni di persone. Il croato, con 4 milioni di parlanti, non aveva alcun dataset pubblico prima di questo progetto.
La sfida principale che abbiamo affrontato nell'allineare le trascrizioni con le registrazioni audio è stata che non c'era coerenza generale tra di loro. A volte, parti delle registrazioni non erano trascritte, o le trascrizioni non corrispondevano a ciò che era effettivamente detto. Ci sono stati anche problemi con le date delle sedute che non corrispondevano e l'ordine dei testi che non corrispondeva all'ordine degli eventi nelle registrazioni.
Lavoro Precedente
Usare i dati parlamentari per creare dataset di parlato non è un'idea nuova. Sono stati creati progetti di successo per lingue come il tedesco svizzero, l'islandese, il danese e il finlandese. Tuttavia, questo progetto è unico perché punta a creare un approccio scalabile che possa essere usato per molte lingue. Il progetto ParlaMint, che raccoglie trascrizioni parlamentari, è una parte cruciale di questo sforzo.
Panoramica del Processo
Il nostro approccio per allineare i dati di parlato con il testo prevede diversi passaggi. Prima di tutto, raccogliamo registrazioni audio e trascrizioni per le lingue di interesse. Dobbiamo abbinare ogni file audio a un pezzo di testo adatto che copra il suo contenuto. Questo comporta metodi statistici per assicurarci di abbinare le registrazioni giuste alle trascrizioni giuste.
Elaborazione Audio
Per elaborare le registrazioni audio, dobbiamo identificare le parti che contengono parlato. Usiamo una tecnica chiamata Rilevamento dell'Attività Vocale (VAD) per trovare questi segmenti. Facciamo anche calcoli per analizzare il parlato in modo più efficace. I risultati di questi calcoli vengono memorizzati per un riutilizzo nei passaggi successivi.
Pre-elaborazione del Testo
Allo stesso tempo, prepariamo il testo per l'abbinamento. Questo implica ripulire il testo rimuovendo punteggiatura e maiuscole. Questo assicura che il testo corrisponda al formato di ciò che viene tipicamente prodotto dai sistemi di riconoscimento vocale. Poiché le lingue con cui stiamo lavorando non hanno strumenti di alta qualità prontamente disponibili, sviluppiamo le nostre soluzioni per preparare il testo.
Modellazione Linguistica e Riconoscimento Vocale
Una volta che il testo è pronto, creiamo un modello linguistico che aiuta il sistema di riconoscimento vocale a comprendere il contesto delle parole. Questo modello è costruito utilizzando tutte le trascrizioni disponibili, il che migliora la sua accuratezza.
Abbinamento Testo e Audio
Dopo aver elaborato sia l'audio che il testo, cerchiamo di abbinarli. Cerchiamo somiglianze tra le trascrizioni automatiche generate dal sistema di riconoscimento vocale e le trascrizioni di riferimento. Usiamo varie tecniche per identificare i migliori abbinamenti e affrontare eventuali lacune che potrebbero rimanere.
Allineamento Finale
Una volta che abbiamo identificato gli abbinamenti, dobbiamo creare un output strutturato che includa i timestamp per ogni parola pronunciata nell'audio. Questo ci consente di allineare strettamente il parlato con il suo testo corrispondente e garantire un dataset coerente.
Filtro e Segmentazione dei Dati
Per rendere i nostri dataset utili per diverse applicazioni, passiamo attraverso ulteriori passaggi di filtro e segmentazione. Rimuoviamo eventuali trascrizioni che non hanno un segmento audio corrispondente o quelle che presentano elevate percentuali di errore nel loro allineamento. Ogni segmento viene poi ulteriormente suddiviso in parti più piccole, rendendo più facile per ricercatori e sviluppatori lavorare con.
Rilascio dei Dataset
Forniamo i nostri dataset in tre formati diversi per soddisfare varie esigenze:
Voci del Repository FAIR: Queste voci contengono informazioni complete e possono essere accessibili per un uso a lungo termine.
Dataset di HuggingFace: Questo formato è progettato per gli utenti che vogliono integrare facilmente questi dati nei progetti di tecnologia del parlato.
Corpora Parlati tramite Concordancer: Questa opzione consente ai linguisti di effettuare ricerche dettagliate all'interno delle trascrizioni e ascoltare i segmenti audio corrispondenti.
Questi rilasci aiuteranno ricercatori e sviluppatori a utilizzare i dati in tanti modi creativi, inclusa la formazione di modelli di riconoscimento vocale automatico e la conduzione di studi linguistici.
Conclusione
Il nostro lavoro dimostra un approccio pratico per creare dataset di parlato e testo allineati che possono beneficiare lingue con risorse limitate. Con più di 5.000 ore di dati di parlato e testo allineati disponibili per tre lingue slave, questo progetto pone le basi per future espansioni. Mentre continuiamo a sviluppare i nostri metodi, speriamo di aggiungere ancora più lingue e migliorare ulteriormente il nostro contributo alla comunità di ricerca.
I dataset creati attraverso questo progetto aiuteranno non solo nello sviluppo della tecnologia del parlato ma forniranno anche risorse preziose per la ricerca linguistica. Le sfide che abbiamo affrontato evidenziano le complessità coinvolte, ma i potenziali benefici della Collezione ParlaSpeech sono enormi.
Titolo: The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings
Estratto: Recent significant improvements in speech and language technologies come both from self-supervised approaches over raw language data as well as various types of explicit supervision. To ensure high-quality processing of spoken data, the most useful type of explicit supervision is still the alignment between the speech signal and its corresponding text transcript, which is a data type that is not available for many languages. In this paper, we present our approach to building large and open speech-and-text-aligned datasets of less-resourced languages based on transcripts of parliamentary proceedings and their recordings. Our starting point are the ParlaMint comparable corpora of transcripts of parliamentary proceedings of 26 national European parliaments. In the pilot run on expanding the ParlaMint corpora with aligned publicly available recordings, we focus on three Slavic languages, namely Croatian, Polish, and Serbian. The main challenge of our approach is the lack of any global alignment between the ParlaMint texts and the available recordings, as well as the sometimes varying data order in each of the modalities, which requires a novel approach in aligning long sequences of text and audio in a large search space. The results of this pilot run are three high-quality datasets that span more than 5,000 hours of speech and accompanying text transcripts. Although these datasets already make a huge difference in the availability of spoken and textual data for the three languages, we want to emphasize the potential of the presented approach in building similar datasets for many more languages.
Autori: Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
Ultimo aggiornamento: 2024-11-26 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2409.15397
Fonte PDF: https://arxiv.org/pdf/2409.15397
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/kensho-technologies/pyctcdecode
- https://www.clarin.si/repository/xmlui/
- https://www.clarin.eu
- https://hdl.handle.net/11356/1914
- https://hdl.handle.net/11356/1686
- https://hdl.handle.net/11356/1834
- https://huggingface.co/datasets
- https://huggingface.co/datasets/classla/ParlaSpeech-HR
- https://huggingface.co/datasets/classla/ParlaSpeech-PL
- https://huggingface.co/datasets/classla/ParlaSpeech-RS
- https://www.clarin.si/ske/