Sviluppi nei modelli di sintesi vocale conversazionale
Un nuovo approccio per generare discorsi piccoli, efficienti e che suonano naturali.
― 9 leggere min
Negli ultimi anni, la generazione del parlato ha fatto enormi progressi. Ora può produrre un discorso che suona molto simile a una voce umana reale al primo tentativo. Combinare questi miglioramenti nella generazione del parlato con grandi modelli di linguaggio può aprire porte a molte nuove applicazioni. Tuttavia, alcuni usi, come i sistemi conversazionali assistivi, hanno bisogno di una generazione del parlato che sembri naturale e funzioni bene in tempo reale.
I modelli attuali di punta, come VALL-E e SoundStorm, si basano su tecniche di elaborazione audio complesse ma hanno bisogno di molti dati e hardware potente per dare il massimo. Al contrario, un nuovo approccio chiamato MQTTS sta lavorando per creare modelli di sintesi del parlato (TTS) conversazionale più piccoli ed efficienti utilizzando dati di conversazione della vita reale che sono meno estesi. Tuttavia, ha alcuni svantaggi: il suo modo di generare il parlato può essere lento, rendendolo meno adatto per compiti in tempo reale.
Per affrontare questi problemi, è stata introdotta una nuova serie di modelli. Questa serie di modelli mira a creare modelli più piccoli ma efficaci per generare parlato che sembri naturale e possa essere addestrato su set di dati più piccoli. Questi nuovi modelli si prevede riducano i dati necessari di oltre 10 volte mantenendo una qualità vicino a quella dei modelli autoregressivi più lenti.
Un'altra caratteristica notevole del nuovo approccio è la capacità di migliorare la qualità della voce utilizzando una tecnica in cui un modello più piccolo impara da uno più grande e complesso. Anche se il modello più grande genera parlato sintetico, il modello più piccolo può migliorare il suo output basato su quello.
Per le moderne applicazioni di intelligenza artificiale, specialmente quelle che coinvolgono assistenti vocali, è fondamentale produrre un parlato che suoni umano. Le tecniche di deep learning hanno portato a significativi progressi nella generazione del parlato. Recentemente, la velocità di questi sviluppi è aumentata grazie all'applicazione di modelli basati su Transformer all'elaborazione del parlato, permettendo l'uso di tecniche efficaci stabilite nei modelli di linguaggio per generare audio.
Il TTS conversazionale è un aspetto essenziale per creare un'esperienza utente realistica, che può portare a una maggiore soddisfazione per gli utenti che interagiscono con macchine conversazionali. Tuttavia, gran parte del lavoro in corso su questi modelli è ancora focalizzato su ambienti controllati, come la lettura di libri o recitazione. Questo non riflette come le persone comunichino naturalmente in molte situazioni quotidiane. Affinché i sistemi TTS siano utili in situazioni del mondo reale, devono adattarsi a vari scenari e funzionare bene in condizioni in cui il parlato può essere poco chiaro, come al telefono.
Il TTS conversazionale porta con sé ulteriori sfide. Il parlato naturale include toni ed emozioni che aggiungono profondità ed espressività alle conversazioni. Pertanto, i modelli devono adattarsi a queste sfumature per suonare più genuini.
L'efficienza dei sistemi TTS è un altro fattore vitale. L'efficienza copre vari aspetti chiave. Innanzitutto, creare modelli compatti li aiuta a funzionare meglio su hardware di consumo. In secondo luogo, i modelli dovrebbero apprendere in modo efficace, fornendo risultati di alta qualità anche con dati limitati. Infine, dovrebbero generare parlato rapidamente per essere utilizzabili in situazioni reali, come conversazioni parlate al telefono.
Il nuovo lavoro si propone di rivedere lo stato attuale dei modelli TTS neurali basati su Transformer. Inizia identificando le limitazioni dei modelli esistenti e poi introduce proprietà desiderabili durante lo sviluppo di un nuovo sistema TTS conversazionale. L'obiettivo è produrre parlato sintetico di alta qualità per più relatori e relatori singoli, offrendo caratteristiche come:
- Generare un parlato che suona naturalmente ricco di espressione.
- Creare modelli compatti e facilmente condivisibili che possano lavorare con voci non viste.
- Ridurre il tempo e i dati richiesti per l'addestramento.
- Assicurare prestazioni veloci con tempi di risposta brevi.
Il nuovo modello propone anche che miglioramenti significativi nelle prestazioni del relatore singolo possano derivare dall'uso di dati sintetici creati da modelli più grandi o strumenti di terze parti.
Sono stati condotti esperimenti per valutare le caratteristiche chiave del nuovo sistema, inclusi chiarezza del parlato, naturalezza e velocità di risposta. Sono stati fatti confronti con il precedente miglior modello TTS conversazionale, MQTTS. I risultati hanno mostrato che il nuovo modello offriva una chiarezza, una naturalezza e una velocità migliorate rimanendo compatto.
Per una diffusione più ampia di molte applicazioni moderne di intelligenza artificiale, in particolare sistemi conversazionali come gli assistenti vocali, è fondamentale poter produrre un parlato naturale che sembri umano. Grazie al deep learning, la sintesi TTS neurale ha visto immensi progressi di recente. La velocità di sviluppo è aumentata, poiché l'applicazione di architetture potenti all'elaborazione del parlato ha aperto nuove strade per la generazione audio.
Gran parte del lavoro sui sistemi TTS si è concentrato sulla lettura o il parlato recitato in ambienti controllati. Questo non considera che il parlato umano reale avviene spesso in contesti conversazionali e richiede un'alta adattabilità attraverso diversi domini. Inoltre, il TTS conversazionale implica trasmettere una varietà di segnali paralinguistici come emozioni e tono, rendendo il compito ancora più complesso.
Un'altra necessità pratica per i sistemi TTS è l'efficienza. Questo comprende diversi aspetti, tra cui:
- Efficienza dei parametri: I modelli TTS dovrebbero essere compatti abbastanza da poter essere condivisi e usati su dispositivi personali.
- Efficienza dei dati: I modelli devono apprendere in modo efficace, generando risultati competitivi anche con dati limitati.
- Efficienza dell'inferenza: Prestazioni rapide e a bassa latenza sono cruciali per applicazioni nel mondo reale.
La nuova ricerca innanzitutto rivede i recenti progressi nei modelli TTS neurali basati su Transformer identificando le limitazioni nei modelli attuali. Poi adotta caratteristiche desiderabili e le incorpora nel nuovo sistema TTS.
L'obiettivo primario è mantenere un output di alta qualità sia in scenari a più relatori che per relatori singoli. Inoltre, l'obiettivo include generare parlato ricco di prosodia e che suoni naturale, creando modelli compatti e facili da modificare, riducendo il tempo di addestramento e le esigenze di dati, e garantendo prestazioni rapide.
Sono stati eseguiti esperimenti per testare aspetti chiave delle prestazioni, tra cui chiarezza, naturalezza ed efficienza. I risultati principali mostrano che il nuovo modello fornisce una migliore chiarezza e naturalezza, e una prestazione più veloce rispetto ai sistemi precedenti.
Sfondo
Questo nuovo modello si basa su ricerche recenti che esplorano grandi modelli audio basati su Transformer. L'idea centrale è applicare grandi modelli di linguaggio nell'elaborazione e generazione audio. Gli attuali sistemi TTS spesso suddividono i segnali vocali in due categorie principali: token semantici e token acustici. I token semantici rappresentano il significato del parlato, mentre i token acustici catturano tratti come l'identità del relatore e la qualità del suono. Idealmente, separare questi due componenti consentirebbe uno sviluppo migliore di ciascuna parte.
In pratica, molti modelli recenti si basano su un concetto chiamato quantizzazione vettoriale residua (RVQ). Qui, i frame audio vengono quantizzati attraverso vari strati, consentendo una rappresentazione efficiente dei segnali vocali. Tuttavia, sono emerse preoccupazioni riguardo all'efficacia della separazione completa delle informazioni semantiche e acustiche, portando allo sviluppo di metodi migliorati che ottimizzano questo aspetto.
Il lavoro tradizionale sul TTS si è spesso affidato a dataset di parlato letto o recitato per l'addestramento, come audiolibri o recitazione. Tuttavia, i nuovi metodi mirano a utilizzare dataset di parlato conversazionale, consentendo ai modelli di apprendere da conversazioni reali. Questo nuovo modello utilizza il corpus GigaSpeech, un ampio set di registrazioni audio che copre una gamma di tipi di parlato, inclusi dialoghi informali.
Per raggiungere gli obiettivi di efficienza, il modello adotta i progressi recenti dai sistemi TTS precedenti. Il miglior modello esistente, MQTTS, è limitato dalla sua natura autoregressiva, che rallenta le prestazioni. Per migliorare questo, viene impiegato un metodo di decodifica parallela non autoregressiva, consentendo al nuovo modello di generare risposte molto più velocemente senza compromettere la qualità.
I nuovi modelli sono costruiti pensando a dimensioni più piccole, approfittando di setup di addestramento efficienti. L'uso dei dati è stato ottimizzato per soddisfare le esigenze delle applicazioni moderne senza bisogno di enormi quantità di informazioni. L'obiettivo è generare parlato di alta qualità in modo efficiente, aprendo la strada a un'integrazione più profonda dei sistemi TTS nelle applicazioni quotidiane.
Configurazione del modello
L'addestramento del modello ha impiegato due dimensioni, etichettate piccola e grande, per consentire confronti equi con i sistemi precedenti. La versione più piccola ha un numero definito di parametri, mentre la versione più grande include parametri aggiuntivi, mirando a valutare come la dimensione e i dati influenzino le prestazioni.
I dati di addestramento per i modelli sono stati selezionati e preelaborati con attenzione per garantire alta qualità. Per la versione più piccola, è stato utilizzato solo un sottoinsieme specifico di GigaSpeech, focalizzandosi su audio più chiaro per ridurre il rumore. La versione più grande ha combinato questi dati con altri dataset, assicurandosi che tutto l'audio fosse uniformemente campionato.
Per entrambe le componenti dell'addestramento, sono stati seguiti parametri rigorosi, inclusa la definizione di tassi di apprendimento e altre configurazioni per migliorare le prestazioni del modello. La selezione attenta dei dati di addestramento ha garantito che i modelli apprendessero in modo efficiente senza complessità inutili.
Test e risultati
Il nuovo modello è stato valutato su diverse dimensioni chiave di qualità, come chiarezza, mantenimento della voce e parlato naturale. Diversi parametri sono stati utilizzati per valutare le prestazioni, includendo la misurazione dell'intelligibilità del parlato e il confronto del parlato generato rispetto a quello umano.
I risultati delle valutazioni hanno indicato significativi miglioramenti rispetto ai sistemi precedenti all'avanguardia. I nuovi modelli hanno mostrato una migliore chiarezza e qualità del suono mantenendo la velocità, dimostrando di poter produrre parlato adatto per applicazioni del mondo reale come conversazioni telefoniche o assistenti vocali.
In termini di efficienza, i nuovi modelli hanno dimostrato guadagni sostanziali, confermando che è possibile generare parlato chiaro e coinvolgente molto più velocemente rispetto ai modelli precedenti. Questa efficienza rende il nuovo approccio ben adatto per applicazioni in tempo reale e adattabile a vari scenari e situazioni, soddisfacendo le esigenze degli utenti moderni.
Conclusione
Lo sviluppo di questi nuovi modelli TTS rappresenta un importante passo avanti nella creazione di sistemi di generazione del parlato efficienti e di alta qualità che possono produrre parlato conversazionale che suona naturale. Concentrandosi sulla riduzione della dimensione dei modelli e della quantità di dati di addestramento necessari pur mantenendo la qualità, i nuovi modelli possono servire una gamma più ampia di applicazioni.
I progressi compiuti indicano una direzione promettente per il lavoro futuro. I ricercatori possono continuare a esplorare miglioramenti nei componenti fondamentali responsabili della generazione del parlato, cercando di colmare ulteriormente il divario tra qualità ed efficienza.
In sintesi, questi modelli forniscono una base solida per ulteriori sviluppi nel campo dei sistemi TTS conversazionali. I piani per miglioramenti futuri dovrebbero concentrarsi sul perfezionamento dei processi di addestramento, sull'espansione dei dataset e, potenzialmente, sull'esplorazione di nuovi modelli per ottenere risultati ancora migliori nell'evoluzione continua della tecnologia di generazione del parlato.
Titolo: Pheme: Efficient and Conversational Speech Generation
Estratto: In recent years, speech generation has seen remarkable progress, now achieving one-shot generation capability that is often virtually indistinguishable from real human voice. Integrating such advancements in speech generation with large language models might revolutionize a wide range of applications. However, certain applications, such as assistive conversational systems, require natural and conversational speech generation tools that also operate efficiently in real time. Current state-of-the-art models like VALL-E and SoundStorm, powered by hierarchical neural audio codecs, require large neural components and extensive training data to work well. In contrast, MQTTS aims to build more compact conversational TTS models while capitalizing on smaller-scale real-life conversational speech data. However, its autoregressive nature yields high inference latency and thus limits its real-time usage. In order to mitigate the current limitations of the state-of-the-art TTS models while capitalizing on their strengths, in this work we introduce the Pheme model series that 1) offers compact yet high-performing models, 2) allows for parallel speech generation of 3) natural conversational speech, and 4) it can be trained efficiently on smaller-scale conversational data, cutting data demands by more than 10x but still matching the quality of the autoregressive TTS models. We also show that through simple teacher-student distillation we can meet significant improvements in voice quality for single-speaker setups on top of pretrained Pheme checkpoints, relying solely on synthetic speech generated by much larger teacher models. Audio samples and pretrained models are available online.
Autori: Paweł Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vulić
Ultimo aggiornamento: 2024-01-05 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2401.02839
Fonte PDF: https://arxiv.org/pdf/2401.02839
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://gist.github.com/johnmeade/d8d2c67b87cda95cd253f55c21387e75
- https://github.com/csteinmetz1/pyloudnorm
- https://github.com/pyannote/pyannote-audio
- https://github.com/openai/whisper
- https://superbbenchmark.org
- https://github.com/microsoft/UniSpeech
- https://github.com/mseitzer/pytorch-fid
- https://github.com/ZhangXInFD/SpeechTokenizer
- https://github.com/bootphon/phonemizer
- https://drscotthawley.github.io/blog/posts/2023-06-12-RVQ.html
- https://datashare.ed.ac.uk/handle/10283/3443
- https://polyai-ldn.github.io/pheme/
- https://github.com/goodfeli/dlbook_notation
- https://polyai.slack.com/archives/C058XMU7E56/p1700829207665169