Sviluppo del Riconoscimento Automatico del Parlato per l'Arabo Tunisino
Sforzi per migliorare i sistemi ASR per l'arabo tunisino e il code-switching.
― 5 leggere min
Indice
Creare un buon sistema di Riconoscimento Vocale Automatico (ASR) per i dialetti può essere complicato. Questo è particolarmente vero per l'arabo tunisino, dove non c'è molta disponibilità di dati di alta qualità. La complessità dei vari modi di parlare delle persone e il mescolamento delle lingue aumentano la sfida.
Questo articolo parla degli sforzi per migliorare l'ASR per l'arabo tunisino, con un focus particolare sul mescolamento delle lingue, o Code-switching, che è comune nelle conversazioni quotidiane. Prima abbiamo raccolto dati audio e testuali, alcuni dei quali erano contrassegnati per la chiarezza. Poi abbiamo esaminato varie tecniche per migliorare il sistema ASR. Infine, abbiamo controllato l'accuratezza delle nostre trascrizioni con input umano per assicurarci che fossero corrette, dati i problemi unici di ortografia nell'arabo tunisino.
La Necessità di Soluzioni ASR Locali
Negli ultimi anni sono stati fatti molti sforzi per creare sistemi ASR in grado di capire lingue diverse. Tuttavia, questi modelli spesso faticano con dialetti locali come l'arabo tunisino. La performance dei modelli multilingue sui dati tunisini non è sufficiente, indicando una reale necessità di soluzioni su misura che riflettano i modelli di linguaggio locali.
Negli ultimi dieci anni, i ricercatori in Tunisia si sono concentrati sul miglioramento dell'ASR per il dialetto. Hanno prima creato regole per scrivere la lingua. Tuttavia, nonostante gli sforzi utilizzando diversi metodi, la mancanza di dati di qualità ha portato a scarse performance nella comprensione dell'arabo tunisino.
Raccolta Dati
Per affrontare queste sfide, abbiamo iniziato a raccogliere una gamma diversificata di dati audio e testuali. Il nostro obiettivo era creare un grande insieme di risorse che riflettessero il modo in cui le persone parlano naturalmente in Tunisia.
Dati Testuali
Trovare dati scritti di qualità per l'arabo tunisino non è facile. Le ricerche precedenti si basavano spesso su fonti limitate. Nel nostro lavoro, abbiamo prelevato testi da un ampio database di arabo tunisino, insieme a spezzoni da varie piattaforme online. Abbiamo pulito attentamente i dati rimuovendo simboli e numeri non necessari, rendendoli più facili da gestire.
Dati Audio
Per raccogliere dati parlati, abbiamo sviluppato uno strumento per incoraggiare gli utenti a registrarsi mentre leggono frasi specifiche. Questo processo ci ha aiutato a raccogliere oltre 2.600 frasi uniche da 89 partecipanti. Abbiamo anche creato un dataset focalizzato specificamente sul code-switching, dove i relatori usano l'arabo tunisino mescolato con il francese e l'inglese. Abbiamo utilizzato programmi radiofonici e podcast come fonti per questo dataset, assicurandoci una vasta gamma di argomenti e relatori.
Dati Non Contrassegnati
In aggiunta ai dati contrassegnati, abbiamo raccolto circa 317 ore di audio dalla televisione nazionale. Dopo aver rimosso segmenti che includevano musica e parlato sovrapposto, ci siamo ritrovati con 153 ore di audio utilizzabile. Questo dataset riflette il modo in cui le persone parlano nella vita reale, essenziale per addestrare un sistema ASR efficace.
Tecniche per Migliorare l'ASR
Abbiamo implementato diverse metodologie per migliorare i modelli ASR, concentrandoci su vari approcci di addestramento che utilizzano i dati raccolti.
Modello Base
Il primo passo è stato sviluppare un modello che funziona solo con dati vocali che non coinvolgono il code-switching. Abbiamo usato un modello pre-addestrato come base e l'abbiamo adattato per riconoscere l'arabo tunisino. Questo modello è stato addestrato per trasformare audio in testo arabo.
Dopo aver stabilito un modello ASR di base, abbiamo esplorato l'apprendimento semi-supervisionato. Questo processo prevedeva la trascrizione di campioni audio non contrassegnati utilizzando il modello iniziale. Le trascrizioni sono state quindi aggiunte ai dati di addestramento per migliorare le prestazioni del modello.
Few-Shot Code-Switching
Riconoscendo che il parlato tunisino spesso include un mix di lingue, abbiamo adottato un approccio di apprendimento few-shot per il code-switching. Questo metodo ci ha permesso di combinare modelli separati addestrati su arabo, francese e inglese. Utilizzando questi modelli insieme, miravamo a migliorare la capacità del sistema di gestire conversazioni multilingue.
Risultati e Performance
Dati Non Code-Switching
Abbiamo testato i modelli su dati che non coinvolgevano il code-switching. I risultati variavano a seconda del dataset, mostrando differenze nelle performance. Ad esempio, un dataset incentrato sull'acquisto di biglietti del treno, con meno parole e trascrizioni più semplici, ha portato a tassi di errore più bassi. Un altro dataset, con conversazioni spontanee, risultava più impegnativo.
L'aggiunta dell'auto-addestramento ha migliorato le performance del modello su tutti i dataset. I migliori risultati sono stati ottenuti utilizzando modelli linguistici addestrati su dati testuali aggiuntivi, portando a miglioramenti significativi nell'accuratezza delle trascrizioni.
Risultati Code-Switching
Quando abbiamo valutato quanto bene i modelli si siano comportati sui dati code-switching, abbiamo scoperto che utilizzare modelli linguistici ben calibrati faceva una grande differenza. Migliorare i dati utilizzati per l'addestramento linguistico ha portato a prestazioni migliori in generale. Il nostro miglior modello ha raggiunto una solida performance di base su questo compito impegnativo di comprensione di conversazioni spontanee che includevano code-switching tra le tre lingue.
Valutazione Umana
Data la natura unica dell'arabo tunisino, abbiamo condotto valutazioni umane per controllare la qualità delle trascrizioni. Un gruppo di parlanti fluenti di tutte e tre le lingue ha esaminato i risultati e fornito feedback. Le loro valutazioni hanno messo in evidenza alcune incoerenze a causa della mancanza di regole ortografiche standard nel dialetto.
Nonostante questi problemi, gli valutatori umani hanno generalmente accettato molte delle trascrizioni come corrette, mostrando che mentre le valutazioni automatizzate possono indicare errori, un parlante fluente potrebbe comunque comprendere il significato voluto.
Conclusione
Questo lavoro ha stabilito una base per studiare l'arabo tunisino code-switching nei sistemi ASR. Raccogliendo una gamma diversificata di dati audio e testuali e applicando varie tecniche di addestramento, abbiamo creato una promessa di base in un'area di ricerca impegnativa.
Le risorse sviluppate attraverso questo progetto sono destinate a beneficiare altri che lavorano nel campo del riconoscimento vocale, soprattutto per dialetti e scenari di lingue miste. Speriamo che questo lavoro ispiri ulteriori ricerche e innovazioni nell'ASR per lingue e dialetti attualmente sottorappresentati nei sistemi esistenti.
Titolo: Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition
Estratto: Crafting an effective Automatic Speech Recognition (ASR) solution for dialects demands innovative approaches that not only address the data scarcity issue but also navigate the intricacies of linguistic diversity. In this paper, we address the aforementioned ASR challenge, focusing on the Tunisian dialect. First, textual and audio data is collected and in some cases annotated. Second, we explore self-supervision, semi-supervision and few-shot code-switching approaches to push the state-of-the-art on different Tunisian test sets; covering different acoustic, linguistic and prosodic conditions. Finally, and given the absence of conventional spelling, we produce a human evaluation of our transcripts to avoid the noise coming from spelling inadequacies in our testing references. Our models, allowing to transcribe audio samples in a linguistic mix involving Tunisian Arabic, English and French, and all the data used during training and testing are released for public use and further improvements.
Autori: Ahmed Amine Ben Abdallah, Ata Kabboudi, Amir Kanoun, Salah Zaiem
Ultimo aggiornamento: 2023-09-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.11327
Fonte PDF: https://arxiv.org/pdf/2309.11327
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.