Progressi nei modelli ASR bilingui e code-switched
Nuovi metodi migliorano il riconoscimento vocale multilingue usando fonti di dati esistenti.
― 6 leggere min
Indice
- Sfida nella Creazione di Modelli Linguistici
- Affrontare il Code-Switching
- Il Nostro Approccio
- Cosa sono i Tokenizer Aggregati?
- Generazione di Dati Sintetici con Code-Switching
- Identificazione della Lingua con Tokenizer Aggregati
- Impostazione Sperimentale
- Risultati delle Prestazioni
- Conclusioni
- Fonte originale
- Link di riferimento
I sistemi di Riconoscimento Vocale Automatico (ASR) multilingue possono riconoscere e trascrivere il parlato in più lingue contemporaneamente. Questo significa che non è necessario creare modelli separati per ogni lingua. Questi sistemi possono anche identificare la lingua parlata e gestire situazioni in cui i relatori cambiano lingua durante il loro discorso. Tuttavia, costruire questi sistemi richiede set di dati speciali che includano cambi di lingua, e tali set di dati non sono sempre disponibili.
In questo articolo, esploriamo diversi modi per addestrare modelli ASR bilingui e con Code-switching utilizzando solo set di dati disponibili per una lingua. Presentiamo un nuovo metodo chiamato tokenizer aggregati, che è diverso dai metodi tradizionali di indicare la lingua all'inizio e alla fine dei campioni di parlato. Invece, forniamo informazioni linguistiche per ogni parola parlata, il che consente al modello di imparare meglio.
Sfida nella Creazione di Modelli Linguistici
Tradizionalmente, creare sistemi ASR significava sviluppare modelli unici per ogni lingua. Questo approccio era limitato e non permetteva una gestione efficace del parlato multilingue. I ricercatori stanno cercando modi migliori per creare un singolo modello che possa gestire più lingue, consentendo maggiore flessibilità ed efficienza.
Alcuni metodi precedenti prevedevano la creazione di capacità multilingue solo nelle parti del sistema che analizzano il suono, mantenendo modelli specifici per lingua per altre parti. Sforzi più recenti hanno cercato di unire dati provenienti da molte lingue in un solo modello, mostrando miglioramenti. Altri progressi hanno utilizzato dati non etichettati per aiutare i sistemi a scalare per riconoscere ancora più lingue.
Affrontare il Code-Switching
Il code-switching, che si verifica quando un relatore alterna tra due o più lingue, è un fenomeno comune nelle comunità multilingue. I primi tentativi di creare sistemi che riconoscessero il code-switching utilizzavano due sistemi ASR Monolingue separati. I risultati sono stati migliorati utilizzando punteggi di identificazione della lingua per aiutare il sistema a capire quando avviene un cambiamento.
Il problema con il code-switching è che i dati di addestramento di alta qualità sono scarsi. Qui vogliamo capire se possiamo usare i dati monolingue disponibili per creare sistemi ASR che riconoscano efficacemente il code-switching.
Il Nostro Approccio
Nel nostro lavoro, ci concentriamo sulla costruzione di modelli bilingui per il riconoscimento vocale inglese-spagnolo e inglese-hindi utilizzando set di dati disponibili pubblicamente. Effettuiamo test per vedere come la preparazione dei dati, i metodi di inizializzazione e i tokenizer influenzano le prestazioni del modello mantenendo il modello principale invariato.
Presentiamo i tokenizer aggregati, che consentono di riutilizzare i tokenizer monolingue esistenti per nuovi compiti multilingue. Questo metodo aiuta il modello a imparare informazioni linguistiche dai dati stessi, mostrando risultati promettenti quando testato su nuovi set di dati.
Successivamente, espandiamo il nostro lavoro per includere il riconoscimento del parlato con code-switching. Dettagliamo come creare un processo per generare dati ASR sintetici con code-switching, il che ci consente di costruire un ampio set di dati di addestramento da fonti monolingui. Adattiamo la tecnica del tokenizer aggregato per il code-switching e mostriamo come aiuti il modello a gestire le complessità di gestire più lingue nella stessa conversazione.
Infine, presentiamo i risultati di questi modelli, che mostrano che possiamo creare sistemi efficaci che funzionano bene sia con parlato Bilingue che con code-switching.
Cosa sono i Tokenizer Aggregati?
Nel moderno processamento del linguaggio naturale e ASR, i tokenizer vengono utilizzati per convertire il testo in un formato con cui il modello può lavorare. Di solito, è necessario creare un nuovo tokenizer per ogni lingua, il che può richiedere tempo e denaro. Significa anche che perdiamo informazioni su quale lingua appartenga a ciascun token.
Per superare questo problema, proponiamo di usare i tokenizer aggregati. Questi tokenizer ci permettono di riutilizzare tokenizer monolingue pre-addestrati per costruire un singolo tokenizer combinato che incorpora informazioni linguistiche. Il risultato è un sistema in grado di dedurre la lingua di ciascun campione di addestramento senza dover creare un tokenizer completamente nuovo.
Ad esempio, un tokenizer aggregato per inglese e spagnolo potrebbe avere due sezioni distinte di ID di token: un set per l'inglese e un altro per lo spagnolo. Questo significa che quando il modello fa previsioni, può facilmente capire se una parola appartiene all'inglese o allo spagnolo.
Generazione di Dati Sintetici con Code-Switching
Creare dati sintetici con code-switching è una parte fondamentale della nostra ricerca. L'obiettivo è utilizzare in modo efficace i dati di addestramento monolingue per generare un set diversificato di campioni di parlato code-switched per addestrare il modello. Tuttavia, dobbiamo essere cauti per evitare pregiudizi nella generazione dei dati, poiché ciò potrebbe influenzare negativamente le prestazioni del modello in situazioni reali.
Per generare questi dati, seguiamo un algoritmo dettagliato che garantisce la creazione di campioni di parlato code-switched realistici senza introdurre inconsistenze. Il nostro metodo fornisce una solida base per addestrare modelli in grado di gestire scenari di code-switching reali.
Identificazione della Lingua con Tokenizer Aggregati
L'identificazione della lingua, o determinare la lingua parlata in un clip audio, è fondamentale per l'ASR con code-switching perché aiuta a riutilizzare modelli monolingue per verificare e migliorare le previsioni con code-switching. I tokenizer aggregati, per loro natura, includono informazioni su quale lingua appartenga ciascun token, rendendoli adatti a questo compito.
Valutiamo quanto bene i nostri tokenizer aggregati performano nell'identificare le lingue parlate utilizzando diversi set di test. I risultati mostrano che anche quando testati su dati non visti dal modello, i tokenizer aggregati performano bene nel predire la lingua dell'enunciato.
Impostazione Sperimentale
Per i nostri esperimenti, scegliamo set di dati specifici per inglese, spagnolo e hindi. Il set di dati in inglese è composto da 960 ore di audio provenienti dal dataset LibriSpeech, mentre il set di dati spagnolo è compilato da varie fonti e ammonta a circa 200 ore dopo l'elaborazione. Per l'hindi, utilizziamo un set di dati che offre circa 2.250 ore di dati dopo la pulizia.
Generiamo set di dati sintetici con code-switching per inglese-spagnolo e inglese-hindi, creando circa 10.000 ore di dati di addestramento. Inoltre, prepariamo set di test dai rispettivi set di dati monolingui per scopi di valutazione.
Risultati delle Prestazioni
Le prestazioni dei nostri modelli bilingui e con code-switching vengono valutate su diversi benchmark. Osserviamo che i modelli bilingui raggiungono prestazioni comparabili rispetto a modelli monolingui separati. Ad esempio, inizializzare il modello bilingue da un checkpoint monolingue accelera significativamente l'addestramento e migliora l'accuratezza.
I nostri modelli con code-switching mostrano anche forti prestazioni sui set di valutazione, dimostrando che possono gestire efficacemente le complessità del code-switching riscontrate nelle conversazioni reali.
In particolare, i nostri risultati indicano che mentre sia i tokenizer aggregati che quelli tradizionali performano in modo simile, il tokenizer aggregato offre ulteriori vantaggi nell'identificazione della lingua e nel miglioramento del modello.
Conclusioni
In sintesi, la nostra ricerca dimostra che possiamo costruire con successo modelli ASR bilingui e con code-switching utilizzando solo fonti di dati monolingue. L'introduzione dei tokenizer aggregati ci consente di incorporare informazioni linguistiche per ciascun token, il che migliora le prestazioni sia nei compiti bilingui che in quelli con code-switching.
Inoltre, il nostro metodo per generare dati sintetici con code-switching fornisce un modo prezioso per creare campioni di addestramento che migliorano l'accuratezza del modello. Complessivamente, il nostro approccio rappresenta un passo significativo avanti nello sviluppo di sistemi di riconoscimento vocale multilingue che possono adattarsi all'uso reale delle lingue.
Titolo: Unified model for code-switching speech recognition and language identification based on a concatenated tokenizer
Estratto: Code-Switching (CS) multilingual Automatic Speech Recognition (ASR) models can transcribe speech containing two or more alternating languages during a conversation. This paper proposes (1) a new method for creating code-switching ASR datasets from purely monolingual data sources, and (2) a novel Concatenated Tokenizer that enables ASR models to generate language ID for each emitted text token while reusing existing monolingual tokenizers. The efficacy of these approaches for building CS ASR models is demonstrated for two language pairs, English-Hindi and English-Spanish, where we achieve new state-of-the-art results on the Miami Bangor CS evaluation corpus. In addition to competitive ASR performance, the proposed Concatenated Tokenizer models are highly effective for spoken language identification, achieving 98%+ accuracy on the out-of-distribution FLEURS dataset.
Autori: Kunal Dhawan, Dima Rekesh, Boris Ginsburg
Ultimo aggiornamento: 2023-09-16 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.08753
Fonte PDF: https://arxiv.org/pdf/2306.08753
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.