Un nuovo metodo leggero per la tecnologia di sintesi vocale
Questo articolo presenta un sistema TTS più efficiente che si adatta ai relatori.
― 6 leggere min
Indice
La tecnologia Text-to-speech (TTS) ha fatto passi da gigante nel generare discorsi che suonano naturali a partire dal testo. I metodi recenti riescono a riprodurre le caratteristiche uniche di diversi parlanti in modo davvero efficace. Però, molti di questi sistemi sono piuttosto grandi e non sono adatti per l'uso quotidiano, come su smartphone o dispositivi piccoli. Quest'articolo parla di un nuovo metodo più Leggero per il TTS che permette di adattarsi a diversi parlanti senza bisogno di molti dati da ognuno di loro.
Contesto
Il TTS funziona convertendo il testo scritto in parole pronunciate. Tradizionalmente, per addestrare un sistema TTS servono grandi quantità di dati da ogni specifico parlante. Negli ultimi anni, sono stati sviluppati metodi per far sì che i sistemi TTS possano adattarsi a nuovi parlanti con pochi o nessun addestramento aggiuntivo. Questo è conosciuto come TTS "Zero-shot". Anche se il TTS zero-shot ha mostrato molte potenzialità, ha ancora delle sfide da affrontare per essere leggero e utilizzabile ogni giorno.
I modelli grandi spesso necessari per un TTS efficace possono essere ingombranti. Faticano a funzionare su dispositivi più piccoli come gli smartphone, il che limita la loro praticità nel mondo reale. La gente vuole una sintesi vocale di alta qualità che possa adattarsi a vari parlanti senza bisogno di tanti dati o risorse.
Approcci Correnti
Sono stati sviluppati diversi metodi per creare sistemi TTS leggeri. Questi metodi possono essere ampiamente classificati in autoregressivi, non autoregressivi e basati su diffusione. Tuttavia, nessuno ha creato con successo un sistema leggero che possa anche adattarsi a nuovi parlanti in modo efficace.
Alcuni sistemi esistenti, come PortaSpeech e LightGrad, sono più leggeri ma sono progettati per un singolo parlante. Altri, come Light-TTS, possono gestire più parlanti ma sono limitati nella quantità di dati che usano per l'addestramento. Per ottenere una sintesi vocale di alta qualità, i modelli di solito necessitano di un'ampia mole di dati da molti parlanti.
Concetto di Mixture of Adapters
Per affrontare la sfida di creare un sistema TTS leggero, viene proposto un concetto chiamato "mixture of adapters" (MoA). Questa idea prevede di usare più piccoli moduli all'interno del sistema TTS, attivando solo i moduli necessari in base alle caratteristiche del parlante. Questo approccio consente al sistema di gestire diverse attività in modo efficiente, mantenendo a un minimo i parametri aggiuntivi.
MoA permette al modello TTS di adattarsi in base alle informazioni del parlante. Attivando selettivamente i moduli giusti, il sistema riesce a gestire efficacemente una vasta gamma di tipi e stili di parlanti senza bisogno di dati eccessivi.
Metodologia Proposta
Il sistema TTS proposto integra i moduli MoA all'interno della sua struttura. L'idea chiave è usare le caratteristiche del parlante per determinare quali moduli attivare durante la generazione del discorso. Facendo così, il sistema può creare un'uscita vocale di alta qualità usando molte meno risorse.
Questo sistema è composto da tre parti principali: il modello TTS, un estrattore di embedding del parlante e un vocoder. Il modello TTS trasforma il testo in parlato, l'estrattore di embedding identifica le caratteristiche chiave di diversi parlanti e il vocoder converte la rappresentazione del discorso in suono reale.
Durante la fase di addestramento, l'estrattore di embedding elabora le voci di molti parlanti per creare un database di caratteristiche del parlante. Al momento di generare il discorso, il sistema può utilizzare questo database per adattare la sua uscita allo stile del parlante desiderato.
Processo di Addestramento
Il processo di addestramento per questo sistema TTS ha coinvolto un ampio database di discorsi giapponesi, contenente registrazioni di migliaia di parlanti. I dati di addestramento sono stati divisi in tre parti: una per l'addestramento, una per la validazione e una per il test. L'obiettivo era creare un modello capace di sintetizzare il discorso dal testo mantenendo alta qualità.
Per assicurarsi che il sistema potesse adattarsi bene, sono stati testati due tipi di MoA: MoA denso, dove tutti gli adapter venivano usati, e MoA scarso, dove venivano attivati solo gli adapter più rilevanti. I risultati hanno mostrato che la versione scarsa poteva funzionare altrettanto bene, risultando più efficiente.
Valutazione delle Prestazioni
Per valutare l'efficacia del sistema TTS proposto, sono stati condotti test sia oggettivi che soggettivi. I test oggettivi misuravano aspetti specifici del discorso generato, mentre i test soggettivi coinvolgevano ascoltatori umani che valutavano la naturalezza e la somiglianza del discorso sintetico rispetto a registrazioni reali.
I risultati hanno indicato che il nuovo metodo ha superato i sistemi esistenti anche con meno parametri. Il discorso generato è risultato naturale e somigliante alle caratteristiche del parlante target, dimostrando che la combinazione di MoA e un modello TTS leggero è stata efficace.
Risultati e Analisi
Nelle valutazioni oggettive, il sistema proposto ha mostrato prestazioni migliori su vari parametri, indicando una capacità di modellazione superiore rispetto ai modelli di riferimento. Le valutazioni hanno dimostrato che il modulo MoA ha migliorato efficacemente la capacità del sistema senza aumentare significativamente il carico computazionale.
Nelle valutazioni soggettive, gli ascoltatori hanno riportato che il discorso generato dal nuovo sistema era più naturale e simile ai parlanti target. Questo è stato particolarmente evidente quando si confrontavano i risultati tra diversi tipi di parlanti, inclusi quelli professionali e non professionali. Il framework MoA ha permesso al sistema TTS di generare un'uscita vocale di qualità superiore adattata alle caratteristiche specifiche del parlante.
Implicazioni
Questo metodo TTS leggero zero-shot ha implicazioni significative per molte applicazioni. Potrebbe essere implementato in smartphone, assistenti vocali e altri dispositivi che richiedono un discorso naturale senza necessità di ampie risorse computazionali o dati. Questo apre a possibilità per esperienze utente più personalizzate in una gamma di interfacce digitali.
Il lavoro futuro esplorerà ulteriori applicazioni di questo metodo in modelli TTS più complessi e architetture diverse. L'obiettivo è migliorare la qualità e ampliare la gamma di parlanti ai quali il sistema può adattarsi senza compromettere le prestazioni.
Conclusione
In sintesi, il metodo TTS leggero zero-shot proposto, usando la mixture of adapters, presenta un approccio innovativo per generare una sintesi vocale di alta qualità. Utilizzando in modo efficace parametri limitati e risorse computazionali, questo sistema può adattarsi a vari parlanti senza bisogno di ampi dati di addestramento. Le valutazioni confermano le sue prestazioni superiori e il suono naturale, rendendolo una soluzione promettente per integrare la tecnologia TTS in dispositivi e applicazioni quotidiane.
Titolo: Lightweight Zero-shot Text-to-Speech with Mixture of Adapters
Estratto: The advancements in zero-shot text-to-speech (TTS) methods, based on large-scale models, have demonstrated high fidelity in reproducing speaker characteristics. However, these models are too large for practical daily use. We propose a lightweight zero-shot TTS method using a mixture of adapters (MoA). Our proposed method incorporates MoA modules into the decoder and the variance adapter of a non-autoregressive TTS model. These modules enhance the ability to adapt a wide variety of speakers in a zero-shot manner by selecting appropriate adapters associated with speaker characteristics on the basis of speaker embeddings. Our method achieves high-quality speech synthesis with minimal additional parameters. Through objective and subjective evaluations, we confirmed that our method achieves better performance than the baseline with less than 40\% of parameters at 1.9 times faster inference speed. Audio samples are available on our demo page (https://ntt-hilab-gensp.github.io/is2024lightweightTTS/).
Autori: Kenichi Fujita, Takanori Ashihara, Marc Delcroix, Yusuke Ijima
Ultimo aggiornamento: 2024-07-01 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.01291
Fonte PDF: https://arxiv.org/pdf/2407.01291
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.