Sviluppi nella tecnologia di conversione delle emozioni nel parlato
Un nuovo modo per cambiare le emozioni nel parlato tra il rumore della vita reale.
― 6 leggere min
Indice
La conversione dell'emozione nella voce è il processo di cambiare l'emozione espressa nelle parole parlate mantenendo intatto il significato originale e l'identità del relatori. Questa tecnologia è importante per creare interazioni più naturali tra umani e macchine, specialmente in aree dove l'espressione emotiva è cruciale. Tuttavia, raggiungere una generazione di parlato emotivo realistica rimane una sfida.
Questo articolo si concentra sulla conversione dell'emozione nella voce in condizioni reali e rumorose dove non ci sono dati di riferimento corrispondenti. In parole semplici, stiamo cercando di capire come cambiare l'emozione nel parlato senza avere un esempio perfetto da cui partire. Questo crea difficoltà perché dobbiamo separare il parlato in diverse parti: quali emozioni vengono espresse, chi sta parlando e cosa stanno dicendo le parole.
Metodologia
In questo approccio, usiamo reti speciali che ci aiutano a scomporre il parlato nelle sue parti: le parole, la voce del relatore e il tono emotivo. Dopo aver separato questi elementi, utilizziamo un sistema chiamato HiFiGAN per ricombinarli in un nuovo pezzo di parlato che rifletta l'emozione desiderata.
Per gestire quanto forte si percepisce la nuova emozione, ci concentriamo su un aspetto specifico dell'emozione chiamato "Eccitazione". Questo si riferisce a quanto una persona si sente eccitata o calma, piuttosto che etichettare l'emozione come felice o triste. Facendo questo, possiamo controllare più efficacemente quanto intensamente l'emozione suoni nell'output finale.
Addestramento del Sistema
Il processo di addestramento prevede l'uso di un grande dataset di podcast parlati dove le emozioni sono etichettate. Ci concentriamo specificamente su quanto il parlato sembri eccitato o calmo, piuttosto che semplicemente classificare le emozioni. Questo focus su scale continue ci permette di gestire meglio l'intensità emotiva.
Per addestrare il nostro sistema, partiamo dall'audio delle parole pronunciate, che scompone in componenti. Utilizziamo diversi tipi di encoder per questo processo.
- Encoder Lessicale: Questa parte gestisce le parole pronunciate. Prende l'audio grezzo e lo elabora per estrarre i dettagli fonetici.
- Encoder del Relatore: Questa parte identifica chi sta parlando analizzando le qualità della loro voce.
- Encoder Emotivo: Invece di fare riferimento a etichette categoriali, questa parte lavora con un punteggio semplice che indica quanto è eccitato il parlato.
Dopo aver elaborato con questi encoder, abbiamo rappresentazioni distinte per le parole, la voce del relatore e il tono emotivo.
Successivamente, forniamo queste rappresentazioni all'HiFiGAN, una rete neurale che genera parlato di alta qualità. Usa i componenti separati per creare un nuovo output audio che rifletta il tono emotivo desiderato mantenendo le parole originali e la voce del relatore.
Sfide con i Dati
La maggior parte dei dataset utilizzati per addestrare i sistemi di conversione dell'emozione nella voce sono creati in ambienti controllati dove attori leggono battute con emozioni specifiche. Questi possono essere molto diversi dal parlato spontaneo, che è più caotico e complesso.
Nelle situazioni reali, non è sempre fattibile raccogliere dataset paralleli dove ogni linea pronunciata ha un corrispondente emotivo. Ecco perché ci concentriamo su dati non paralleli. I modelli che possono lavorare con tali dati sono più flessibili poiché non si basano su coppie di emozioni esatte.
Tuttavia, i dati non paralleli presentano anche sfide. Dobbiamo assicurarci che il sistema possa comunque separare e riunire i componenti emotivi, lessicali e del relatore senza avere un esempio diretto da cui partire.
Apprendimento Autosupervisionato
Per affrontare le sfide di lavorare con dati non paralleli, utilizziamo un metodo chiamato apprendimento autosupervisionato (SSL). Questa tecnica utilizza grandi quantità di dati non etichettati per migliorare il processo di addestramento. Facendo questo, possiamo comprendere meglio i vari elementi del parlato coinvolti nell'espressione emotiva e migliorare la qualità del parlato generato.
Il SSL si è dimostrato efficace in compiti correlati, come il riconoscimento delle emozioni nel parlato e la conversione delle voci da un relatore all'altro. Applicando questo metodo, speriamo di ottenere migliori intuizioni su come separare e ricostruire gli elementi del parlato.
Processo di Resintesi
Una volta che abbiamo i nostri componenti separati, il passo successivo è ricombinarli in un output vocale che suoni naturale. Qui l'HiFiGAN gioca un ruolo cruciale. Prende le parti separate e genera audio di alta qualità che riflette l'emozione desiderata.
L'HiFiGAN utilizza una combinazione di tecniche per assicurarsi che l'output finale suoni realistico. Questo include l'adattamento del tono e altre qualità vocali per corrispondere al tono emotivo che stiamo cercando.
Nel nostro addestramento, valutiamo anche quanto bene il sistema si comporta nella generazione di parlato espressivo emotivamente. Guardiamo a quanto il parlato generato corrisponde al contenuto emotivo previsto e quanto suona naturale.
Test e Validazione
Per misurare l'efficacia del nostro approccio, conduciamo test utilizzando un dataset specifico che contiene audio di podcast. Le emozioni in questo dataset sono etichettate in base a eccitazione, valenza e dominanza. Tuttavia, per il nostro studio, ci concentriamo principalmente sull'eccitazione.
Durante il test, valutiamo sia quanto bene il contenuto emotivo viene convertito sia quanto suona naturale l'output. Confrontiamo diverse versioni del nostro modello per vedere quale combinazione di componenti produce i migliori risultati.
Scopriamo che usare una combinazione di tutte le rappresentazioni-parole, identità del relatore ed emozioni-porta al parlato che suona più naturale. Questo suggerisce che condizionare l'HiFiGAN su tutti e tre gli aspetti migliora sia l'espressione emotiva sia il realismo dell'output.
Risultati e Osservazioni
Quando analizziamo i risultati dei nostri esperimenti, notiamo diverse tendenze. Prima di tutto, osserviamo che segmenti di parlato più lunghi tendono a portare a una migliore conversione emotiva. Questo è probabile perché segmenti più lunghi forniscono più contesto per il modello con cui lavorare.
Inoltre, scopriamo che il nostro metodo funziona meglio con livelli di eccitazione emotiva moderati rispetto a quelli estremi. Questo significa che, sebbene il sistema possa convertire le emozioni in modo efficace, ha maggior successo quando si occupa di emozioni che non sono agli estremi della scala.
In aggiunta a valutazioni quantitative come errori quadratici medi e punteggi di naturalezza, conduciamo anche analisi qualitative. Esaminando campioni audio e visualizzando gli spettri, possiamo comprendere quanto bene sono rappresentati i toni emotivi.
Ad esempio, quando sintetizziamo il parlato con alta eccitazione, notiamo che il tono tende ad essere più alto e variabile rispetto al parlato a bassa eccitazione. Questo è in linea con idee esistenti che suggeriscono che le persone parlano con un tono più alto quando sono emozionate.
Conclusione
In sintesi, il nostro lavoro evidenzia il potenziale della conversione dell'emozione nella voce in contesti reali. Concentrandoci sulla separazione dei componenti emotivi, lessicali e del relatore nel parlato, possiamo generare espressioni emotive più dinamiche e realistiche attraverso il parlato sintetizzato.
I risultati indicano che la nostra metodologia migliora la naturalezza e l'accuratezza emotiva dell'output. Raggiungere questo in modo autosupervisionato, specialmente con dati "in-the-wild", è un passo significativo avanti.
Con il continuo avanzamento della tecnologia, le applicazioni della conversione dell'emozione nella voce probabilmente si espanderanno, aprendo la strada a interazioni uomo-macchina più consapevoli delle emozioni. I risultati di questa ricerca possono servire come base per studi futuri mirati a affinare e migliorare l'espressività emotiva del parlato sintetizzato.
Titolo: In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised Representations and Neural Vocoder-based Resynthesis
Estratto: Speech emotion conversion aims to convert the expressed emotion of a spoken utterance to a target emotion while preserving the lexical information and the speaker's identity. In this work, we specifically focus on in-the-wild emotion conversion where parallel data does not exist, and the problem of disentangling lexical, speaker, and emotion information arises. In this paper, we introduce a methodology that uses self-supervised networks to disentangle the lexical, speaker, and emotional content of the utterance, and subsequently uses a HiFiGAN vocoder to resynthesise the disentangled representations to a speech signal of the targeted emotion. For better representation and to achieve emotion intensity control, we specifically focus on the aro\-usal dimension of continuous representations, as opposed to performing emotion conversion on categorical representations. We test our methodology on the large in-the-wild MSP-Podcast dataset. Results reveal that the proposed approach is aptly conditioned on the emotional content of input speech and is capable of synthesising natural-sounding speech for a target emotion. Results further reveal that the methodology better synthesises speech for mid-scale arousal (2 to 6) than for extreme arousal (1 and 7).
Autori: Navin Raj Prabhu, Nale Lehmann-Willenbrock, Timo Gerkmann
Ultimo aggiornamento: 2023-06-02 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.01916
Fonte PDF: https://arxiv.org/pdf/2306.01916
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.