Progressi nel trasferimento di stile da testo a voce
Nuove tecniche migliorano la qualità della voce espressiva tra diversi oratori.
Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões, Mário U. Neto, Fernando Runstein, Bianca Dal Bó, Paula D. P. Costa
― 6 leggere min
Indice
Creare un discorso che suoni naturale ed espressivo è un compito difficile nel campo della tecnologia text-to-speech (TTS). Una grande sfida è trasferire lo stile da un parlatore all'altro mantenendo intatta la voce unica di ogni oratore. Questo è particolarmente complicato quando non ci sono abbastanza dati disponibili da oratori espressivi. In queste situazioni, tecniche come la Conversione vocale (VC) aiutano a produrre un discorso espressivo modificando la voce di un oratore di partenza per adattarla allo stile di un oratore di destinazione.
Contesto
Per produrre un discorso espressivo per diversi oratori, si usa il trasferimento di stile tra oratori. Questo metodo consente di trasferire lo stile di parlato da un oratore di riferimento a un oratore di destinazione, anche se quest'ultimo ha solo registrazioni neutre. Tuttavia, ottenere qualità in questo trasferimento di stile non è facile, soprattutto quando si cerca di separare i diversi aspetti di una voce: l'identità dell'oratore e il suo stile di parlato.
Negli ultimi anni, i ricercatori hanno sviluppato nuovi metodi per affrontare questo problema. Alcuni metodi prevedono l'uso di un modulo noto come Reference Encoder (RE) per creare una rappresentazione di stile da un clip audio di riferimento. Questa rappresentazione di stile può poi essere utilizzata nei Modelli TTs per aiutare a controllare come suona il discorso. Tuttavia, rimane la sfida della fuga dell'oratore, dove le informazioni sulla voce dell'oratore originale influenzano involontariamente il risultato.
Il Ruolo della Conversione Vocale
I modelli di conversione vocale giocano un ruolo cruciale nella creazione di un discorso sintetico espressivo, soprattutto quando i dati sono scarsi. Questi modelli prendono registrazioni neutre e normali di un oratore e le convertono in discorso espressivo che trasmette emozioni o stili di parlato specifici. La qualità di queste voci convertite influisce sulle prestazioni complessive del modello TTS.
In questo approccio, i ricercatori sviluppano un modello di conversione vocale che aiuta a generare Dati Sintetici, che possono poi essere utilizzati per addestrare il sistema TTS. Applicando tecniche come la perturbazione del timbro, che modifica le caratteristiche vocali dell'oratore, i ricercatori mirano a creare un codificatore di stile che possa produrre rappresentazioni migliori degli stili di parlato senza far trapelare l'identità dell'oratore.
Generazione di Dati Sintetici
Per creare dati sintetici, è stato utilizzato un modello di conversione vocale unico. Questo modello elabora l'audio utilizzando vari codificatori che catturano diverse caratteristiche vocali, come l'identità dell'oratore, il contenuto parlato e il tono emotivo. Utilizzando questi codificatori, il modello può separare e manipolare efficacemente i diversi aspetti del parlato per produrre voci sintetiche di alta qualità.
Ad esempio, il modello analizza l'intonazione, il tono e il ritmo della voce, assicurandosi che il contenuto rimanga comprensibile. Addestrando questo modello e perfezionandolo con dataset specifici, i ricercatori possono generare una grande quantità di discorso espressivo sintetico utilizzabile nel framework TTS.
Addestramento del Codificatore di Stile e del Modello TTS
Il processo di addestramento del modello TTS prevede due fasi chiave. Inizialmente, il codificatore di stile viene pre-addestrato utilizzando i dati sintetici generati dal modello di conversione vocale. Questa fase si concentra sulla creazione di rappresentazioni forti dei diversi stili di parlato, evitando qualsiasi potenziale fuga di informazioni sull'oratore. La seconda fase prevede l'uso del codificatore di stile pre-addestrato nell'addestramento TTS, dove rimane invariato.
Durante l'addestramento, vengono utilizzati dati sia originali che sintetici. Questa combinazione garantisce che il modello TTS impari a trasferire efficacemente gli stili da un oratore all'altro mantenendo un suono naturale.
Sono stati condotti tre esperimenti principali per valutare l'impatto dell'uso di dati sintetici in vari scenari di addestramento:
- Synth None: Viene utilizzato solo dati espressivi originali per l'addestramento.
- Synth TTS: I dati sintetici vengono aggiunti solo durante la fase di addestramento TTS.
- Synth Both: I dati sintetici vengono inclusi durante entrambe le fasi di addestramento del codificatore di stile e del TTS.
Risultati e Osservazioni
I risultati degli esperimenti hanno mostrato variazioni significative nella qualità del discorso generato a seconda dell'impostazione di addestramento. I risultati hanno indicato che l'uso di dati sintetici, in particolare nello scenario Synth Both, ha portato a una maggiore naturalezza e somiglianza con l'oratore nel discorso risultante.
Tuttavia, quando ci si concentra sull'intensità dello stile-quanto bene il sistema cattura le sfumature di stili di parlato specifici-alcune configurazioni hanno avuto prestazioni diverse. Curiosamente, mentre la configurazione Synth None ha avuto buone prestazioni in intensità di stile per alcuni stili, ha fatto ciò a costo della naturalezza. Questo evidenzia l'equilibrio necessario tra catturare lo stile e mantenere un suono naturale.
Lo studio ha continuato a valutare quanto bene la voce sintetica somigli agli oratori originali. È stato riscontrato che utilizzare i dati sintetici durante l'addestramento TTS ha migliorato significativamente la somiglianza con l'oratore, rendendo il discorso sintetico generato più vicino a quello degli oratori reali.
Trasferimento di Accenti Cross-Linguistici
L'efficacia dell'approccio è stata testata anche in un contesto cross-linguistico. Tentando di trasferire accenti da oratori inglesi e spagnoli a oratori di portoghese brasiliano, i ricercatori hanno cercato di vedere se le stesse tecniche funzionassero in diverse lingue. I risultati hanno mostrato che l'integrazione di dati sintetici ha consentito un trasferimento di accento riuscito, migliorando anche la naturalezza e la chiarezza del discorso generato.
Utilizzando voci sintetiche da un modello di conversione vocale, è stato possibile creare output che portavano accenti specifici, anche quando gli oratori neutri originali non erano addestrati in quegli accenti. Questo è un passo promettente verso la creazione di sistemi TTS multilingue che possano suonare autentici, indipendentemente dalla lingua o dall'accento utilizzato.
Conclusione
Le sfide coinvolte nel trasferimento di stile tra oratori in scenari di dati espressivi a bassa risorsa sono significative ma non insormontabili. Utilizzando dati sintetici, i ricercatori hanno trovato modi per migliorare sia la naturalezza che la somiglianza con l'oratore nel discorso generato. Anche se l'intensità dello stile può variare in base alla qualità dei modelli di conversione vocale, integrare voci sintetiche può aiutare a raggiungere un equilibrio tra stile e naturalezza.
In futuro, si concentreranno su come migliorare queste tecniche utilizzando dataset espressivi cross-linguistici, permettendo prestazioni migliori anche in lingue con meno voci espressive disponibili. L'esplorazione continua di dati sintetici e conversione vocale offre vie promettenti per sistemi TTS più naturali ed espressivi, rendendo le voci digitali più umane in varie lingue e stili di parlato.
Titolo: Exploring synthetic data for cross-speaker style transfer in style representation based TTS
Estratto: Incorporating cross-speaker style transfer in text-to-speech (TTS) models is challenging due to the need to disentangle speaker and style information in audio. In low-resource expressive data scenarios, voice conversion (VC) can generate expressive speech for target speakers, which can then be used to train the TTS model. However, the quality and style transfer ability of the VC model are crucial for the overall TTS model quality. In this work, we explore the use of synthetic data generated by a VC model to assist the TTS model in cross-speaker style transfer tasks. Additionally, we employ pre-training of the style encoder using timbre perturbation and prototypical angular loss to mitigate speaker leakage. Our results show that using VC synthetic data can improve the naturalness and speaker similarity of TTS in cross-speaker scenarios. Furthermore, we extend this approach to a cross-language scenario, enhancing accent transfer.
Autori: Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões, Mário U. Neto, Fernando Runstein, Bianca Dal Bó, Paula D. P. Costa
Ultimo aggiornamento: 2024-09-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2409.17364
Fonte PDF: https://arxiv.org/pdf/2409.17364
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.