Approccio Innovativo alla Formazione degli Assistenti Vocali
Combinare TTS e dati reali migliora notevolmente i sistemi di riconoscimento vocale.
― 4 leggere min
Indice
Negli ultimi anni, riconoscere le parole chiave parlate è diventato sempre più importante per attivare assistenti vocali come Google Assistant, Siri e Alexa. Per far funzionare bene questi sistemi, hanno bisogno di una grande mole di dati di addestramento. Questi dati di solito provengono da persone reali che parlano, ma raccoglierli può essere costoso e richiedere tempo. Un nuovo approccio utilizza i dati TTS, ovvero Text-to-Speech, per creare questo materiale di addestramento in modo più efficiente.
Il Problema della Raccolta Dati Tradizionale
Quando si crea un modello per riconoscere le parole chiave, è fondamentale avere una varietà di esempi parlati. I metodi tradizionali richiedono di raccogliere Registrazioni audio da molti relatori diversi. Questo può comportare costi elevati, poiché è necessario raccogliere migliaia di registrazioni. Inoltre, la varietà nelle pronunce, negli accenti e negli ambienti di parlato rende questo compito ancora più complicato.
Cos'è il TTS?
La tecnologia TTS può generare discorsi simili a quelli umani a partire dal testo. Questo significa che invece di registrare persone reali, possiamo usare delle macchine per creare le parole parlate di cui abbiamo bisogno per l'addestramento. Questo metodo offre un modo più rapido e conveniente per produrre grandi quantità di dati. Tuttavia, un problema comune con i dati TTS è che potrebbe non avere la stessa varietà delle registrazioni di persone reali. I fonemi e i modelli di linguaggio TTS potrebbero differire da quelli del parlato umano, influenzando potenzialmente l'accuratezza del modello.
Dati Reali
Combinare TTS ePer affrontare le limitazioni dei dati TTS, i ricercatori hanno esaminato la possibilità di combinarli con il parlato umano reale. L'obiettivo è bilanciare l'economicità del TTS garantendo comunque che il modello rimanga preciso. È stato scoperto che usare una piccola quantità di audio reale insieme a un volume maggiore di audio generato da TTS può comunque dare buoni risultati.
Strategie per un Mix di Dati Efficiente
Generazione di Testo: È stato sviluppato un sistema per creare frasi testuali specificamente per addestrare i modelli di Riconoscimento delle parole chiave. Questo sistema si concentra sulla generazione di un insieme diversificato di testi da utilizzare nei motori TTS. Maggiore è la varietà nel testo, più vario sarà l'output TTS. Cambiando l'input testuale, l'output può suonare diverso, simulando una gamma più ampia di variazioni linguistiche.
Utilizzo di Modelli TTS Multipli: I diversi sistemi TTS possono produrre vari tipi di audio parlato. Utilizzando più modelli TTS, i ricercatori possono creare un ricco arazzo di voci sintetizzate. Alcuni modelli TTS supportano molte lingue e accenti, il che aiuta ad aumentare la diversità dei dati di parlato generati.
Strategie di Mixaggio: Un aspetto chiave è trovare il giusto mix di dati reali e generati da TTS. Testando diverse combinazioni, i ricercatori cercano di identificare quanto dato reale è necessario per integrare efficacemente i dati TTS.
Risultati Sperimentali
Gli esperimenti di ricerca hanno mostrato che un modello addestrato principalmente su dati TTS può comunque raggiungere prestazioni lodevoli quando è integrato con una quantità limitata di dati reali. Ad esempio, utilizzare solo 100 registrazioni di relatori diversi insieme a un'ampia quantità di dati TTS potrebbe creare un modello che ha avuto prestazioni con un tasso di errore tre volte maggiore rispetto a un modello che si basava solo su metodi di addestramento tradizionali, che usavano milioni di registrazioni reali.
Importanza della Varietà dei Relatori
Nel testare varie combinazioni di dati reali e TTS, è diventato chiaro che avere più relatori nei dati reali era cruciale. Quando i modelli includevano un numero maggiore di relatori, l'accuratezza migliorava significativamente. Aggiungere più relatori con meno registrazioni ciascuno si è rivelato più vantaggioso che avere molte registrazioni da un numero limitato di relatori.
Tecniche di Aumento Dati
Per migliorare ulteriormente le prestazioni del modello, sono state applicate varie tecniche di aumento dei dati durante l'addestramento. Questo potrebbe includere l'aggiunta di rumore di fondo o la simulazione di diversi ambienti di ascolto per aiutare il modello a imparare a riconoscere meglio le parole chiave in situazioni reali.
Conclusione
La ricerca indica che utilizzare i dati TTS può ridurre notevolmente il tempo e i costi associati all'addestramento dei modelli di riconoscimento delle parole chiave, pur mantenendo una buona accuratezza. Combinando efficacemente l'audio generato da TTS con un insieme più piccolo di dati di parlato reale, questi sistemi possono diventare più robusti. Questo approccio offre prospettive promettenti per sviluppi futuri nelle tecnologie di Riconoscimento vocale e potrebbe aprire la strada a ulteriori progressi nel modo in cui interagiamo con i nostri dispositivi.
Adottare il TTS in questo modo potrebbe portare non solo a processi di addestramento più economici e rapidi, ma potrebbe anche migliorare l'accessibilità della tecnologia di riconoscimento vocale a una gamma più ampia di lingue e dialetti. In generale, la combinazione di dati TTS e reali rappresenta un'opportunità entusiasmante per il futuro del design delle interfacce vocali.
Titolo: Utilizing TTS Synthesized Data for Efficient Development of Keyword Spotting Model
Estratto: This paper explores the use of TTS synthesized training data for KWS (keyword spotting) task while minimizing development cost and time. Keyword spotting models require a huge amount of training data to be accurate, and obtaining such training data can be costly. In the current state of the art, TTS models can generate large amounts of natural-sounding data, which can help reducing cost and time for KWS model development. Still, TTS generated data can be lacking diversity compared to real data. To pursue maximizing KWS model accuracy under the constraint of limited resources and current TTS capability, we explored various strategies to mix TTS data and real human speech data, with a focus on minimizing real data use and maximizing diversity of TTS output. Our experimental results indicate that relatively small amounts of real audio data with speaker diversity (100 speakers, 2k utterances) and large amounts of TTS synthesized data can achieve reasonably high accuracy (within 3x error rate of baseline), compared to the baseline (trained with 3.8M real positive utterances).
Autori: Hyun Jin Park, Dhruuv Agarwal, Neng Chen, Rentao Sun, Kurt Partridge, Justin Chen, Harry Zhang, Pai Zhu, Jacob Bartel, Kyle Kastner, Gary Wang, Andrew Rosenberg, Quan Wang
Ultimo aggiornamento: 2024-07-26 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.18879
Fonte PDF: https://arxiv.org/pdf/2407.18879
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.