Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Suono# Apprendimento automatico# Elaborazione dell'audio e del parlato

Sviluppi nella tecnologia di conversione vocale

Un nuovo modello migliora la conversione vocale semplificando le tecniche di separazione del parlato.

― 7 leggere min


Modello di ConversioneModello di ConversioneVocale Semplificatodell'output.della conversione vocale e la qualitàUn nuovo modello migliora l'efficienza
Indice

La Conversione vocale (VC) è una tecnica che fa cambiare la voce di una persona per farla sembrare quella di un'altra, mantenendo lo stesso Contenuto parlato. Questo metodo può essere utile per diverse applicazioni, come il doppiaggio nei film o la creazione di voci AI per assistenti virtuali. Affinché la VC funzioni bene, il discorso deve essere scomposto in diverse parti: contenuto (cosa viene detto), Timbro (la qualità unica della voce), Ritmo (la velocità del parlato) e tono (quanto è alta o bassa la voce).

Tuttavia, molti metodi esistenti si concentrano solo su contenuto e timbro, il che può portare a discorsi innaturali. Alcuni metodi più recenti possono separare il discorso in diverse parti ma richiedono molto sforzo manuale per perfezionare le impostazioni o usare caratteristiche specifiche che devono essere progettate in anticipo.

In questa discussione, viene presentato un nuovo modello di VC che può separare automaticamente il discorso in tutte e quattro le parti utilizzando solo due semplici regolazioni del parlato, senza bisogno di sintonizzazioni complicate o di un sacco di caratteristiche pre-progettate. Questo modello è semplice e mostra risultati migliori rispetto ai modelli precedenti, sia per quanto riguarda la separazione delle parti del parlato che per la naturalezza del suono finale.

Conversione Vocale Spiegata

La conversione vocale permette a una voce di "prendere in prestito" le caratteristiche di un'altra mentre dice le stesse parole. Questo può essere utile in situazioni come la post-produzione per film, dove la voce di un attore deve corrispondere all'animazione o a un altro attore. Può essere applicato anche nelle tecnologie di supporto, dove le voci possono essere modificate per adattarsi alle preferenze di diversi utenti.

Con l'avanzare della tecnologia, anche i metodi per eseguire la VC sono migliorati. Alcuni sistemi più complessi usano modelli secondari, come quelli che convertono il parlato in testo o viceversa, per aiutare a generare la voce desiderata. Anche se questi metodi possono produrre buoni risultati, possono essere difficili da implementare e richiedono sforzi di addestramento significativi.

Un approccio più semplice ed emergente si concentra sulla scomposizione del discorso nei suoi componenti fondamentali, come contenuto e caratteristiche del parlante (timbro). Questi metodi hanno guadagnato popolarità poiché non hanno bisogno di modelli aggiuntivi e sono più facili da addestrare. Tuttavia, non tutti gli aspetti del parlato vengono presi in considerazione; componenti come ritmo e tono vengono spesso trascurati. Se un sistema considera solo il timbro, la voce risultante potrebbe sembrare meno espressiva e naturale.

Modelli Esistenti

Due modelli degni di nota, noti come SpeechSplit e SpeechSplit2.0, cercano di separare questi componenti del parlato in modo efficace. Entrambi i modelli utilizzano una struttura simile con diversi codificatori per contenuto, ritmo e tono, insieme a un decodificatore per combinare queste parti in un output vocale finale.

In SpeechSplit, il modello utilizza diverse caratteristiche create manualmente per ciascun tipo di codificatore. Questo richiede un attento aggiustamento delle impostazioni, spesso sacrificando la qualità della voce generata. SpeechSplit2.0 migliora il suo predecessore utilizzando tecniche di elaborazione del segnale più avanzate, ma si basa ancora pesantemente su queste caratteristiche artigianali.

L'obiettivo è trovare un modo per separare i componenti del parlato senza tutto questo sforzo manuale. Una soluzione automatica può far risparmiare tempo e creare risultati migliori riducendo il bias introdotto dalle decisioni umane nella selezione delle caratteristiche.

Approccio Proposto

Il nuovo modello di VC proposto qui condivide alcune somiglianze con i modelli esistenti. Tuttavia, ha una differenza fondamentale: può separare automaticamente il parlato nelle sue quattro componenti utilizzando solo due modifiche vocali-cambiando il tono e aggiustando il ritmo. Questo elimina la necessità di molte caratteristiche create a mano e rimuove il noioso processo di regolazione.

Ispirato a lavori effettuati in campi correlati, questo modello include un modulo di Ranking che aiuta a identificare rappresentazioni efficaci del parlato dai dati. Il modello è addestrato per classificare il parlato originale rispetto alle sue versioni modificate. Ad esempio, se il tono è alzato, il modello classificherà la versione modificata più in alto per la rappresentazione del tono mantenendo gli punteggi di ritmo uguali.

Utilizzando un approccio che consente al modello di concentrarsi sul contenuto principale, separato dai cambiamenti di tono e ritmo, il modello può discernere accuratamente le caratteristiche rilevanti per ciascun componente del parlato.

Processo di Addestramento

Il modello è composto da diversi passaggi. Inizialmente, più codificatori estraggono informazioni rilevanti per contenuto, ritmo e tono dal parlato in input. Il processo inizia modificando i dati vocali con le due funzioni di aumento-cambiando il tono e il ritmo. Ogni volta che il parlato viene modificato, viene fatto in modo casuale per prevenire l'overfitting.

Una volta aumentati, il parlato originale e quello modificato vengono alimentati in codificatori separati per estrarre le rispettive rappresentazioni di contenuto, ritmo e tono. Dopo aver estratto queste caratteristiche, il modello applica un meccanismo di ranking per garantire che le rappresentazioni prodotte siano effettivamente separate.

Il passo successivo implica l'addestramento del decodificatore, che combina tutti i componenti per generare la voce convertita finale. A differenza dei metodi precedenti che eseguono tutto l'addestramento in un colpo solo, questo modello allena prima i codificatori prima di passare al decodificatore. Questo metodo a due passaggi aiuta a migliorare i risultati.

Setup degli Esperimenti

Il modello è stato addestrato e valutato utilizzando il corpus VCTK, un dataset ben riconosciuto per compiti di conversione vocale. Questo dataset presenta registrazioni di numerosi parlanti inglesi, dove ciascun parlante ha letto diverse frasi. Le registrazioni audio sono state elaborate per estrarre determinate caratteristiche, rendendole pronte per l'addestramento del modello.

È stata effettuata una comparazione di base contro il modello SpeechSplit2.0, già stabilito come un forte performer in questo campo. Sono stati condotti diversi test per valutare l'efficacia del modello proposto rispetto a questa base.

Metodi di Valutazione

Per valutare a fondo quanto bene ha funzionato il nuovo modello, sono stati utilizzati diversi metodi di test. Un test si è concentrato sulla misura del "tasso di conversione", dove i soggetti hanno ascoltato campioni vocali e hanno determinato quale fosse più vicino in tono, ritmo o timbro alla voce sintetizzata. Questo può mostrare quanto efficacemente il modello abbia separato i componenti del parlato.

Un altro metodo di valutazione ha coinvolto un Mean Opinion Score (MOS), dove gli ascoltatori hanno valutato la naturalezza del parlato generato su una scala da brutto a eccellente. I risultati hanno mostrato che il nuovo modello ha prodotto costantemente un parlato che suonava più naturale rispetto alla base.

Il Character Error Rate (CER) è stato utilizzato in un altro test per misurare quanto bene il contenuto del parlato originale fosse preservato nel parlato convertito confrontando le differenze nell'accuratezza linguistica. Risultati CER più bassi suggerivano una migliore performance nella preservazione del contenuto.

Inoltre, le caratteristiche del tono sono state valutate utilizzando il Pearson Correlation Coefficient, che misura quanto strettamente i modelli tonali di due campioni vocali corrispondano. Questa valutazione ha ulteriormente dimostrato l'efficacia del modello nel catturare gli aspetti essenziali del parlato.

Conclusioni

Il modello di conversione vocale proposto mostra un grande potenziale nel separare automaticamente il parlato nelle sue componenti critiche. Utilizzando solo due semplici trasformazioni, evita le complicazioni trovate nei metodi precedenti che dipendevano da un ampio lavoro manuale e sintonizzazione.

I risultati indicano che questo nuovo modello raggiunge una migliore performance non solo nella separazione dei componenti del parlato ma anche nella generazione di voci che suonano più naturali. Il lavoro rappresenta un passo significativo avanti nella tecnologia della conversione vocale e apre nuove possibilità per applicazioni nell'intrattenimento e negli interfaccia AI-driven.

Fonte originale

Titolo: Automatic Speech Disentanglement for Voice Conversion using Rank Module and Speech Augmentation

Estratto: Voice Conversion (VC) converts the voice of a source speech to that of a target while maintaining the source's content. Speech can be mainly decomposed into four components: content, timbre, rhythm and pitch. Unfortunately, most related works only take into account content and timbre, which results in less natural speech. Some recent works are able to disentangle speech into several components, but they require laborious bottleneck tuning or various hand-crafted features, each assumed to contain disentangled speech information. In this paper, we propose a VC model that can automatically disentangle speech into four components using only two augmentation functions, without the requirement of multiple hand-crafted features or laborious bottleneck tuning. The proposed model is straightforward yet efficient, and the empirical results demonstrate that our model can achieve a better performance than the baseline, regarding disentanglement effectiveness and speech naturalness.

Autori: Zhonghua Liu, Shijun Wang, Ning Chen

Ultimo aggiornamento: 2023-06-21 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.12259

Fonte PDF: https://arxiv.org/pdf/2306.12259

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili