Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Elaborazione dell'audio e del parlato# Intelligenza artificiale# Suono

Progressi nella sintesi vocale usando DDSP

Scopri come DDSP migliora l'efficienza e la qualità della sintesi vocale.

Yisi Liu, Bohan Yu, Drake Lin, Peter Wu, Cheol Jun Cho, Gopala Krishna Anumanchipalli

― 6 leggere min


Rivoluzione nella SintesiRivoluzione nella SintesiVocale Efficientemodello DDSP efficiente.Rivoluzionare la sintesi vocale con un
Indice

La sintesi articolatoria è un metodo usato per creare audio parlato a partire dai movimenti fisici degli organi del linguaggio umano, come la lingua e le labbra. Questi movimenti possono essere tracciati usando una tecnica chiamata Articolografia Elettromagnetica (EMA). Utilizzando i dati EMA, i computer possono sintetizzare la voce in modo che rifletta come le persone parlano realmente.

Vantaggi dell'uso dell'EMA nella sintesi vocale

Usare i dati EMA ha diversi vantaggi. Prima di tutto, fornisce un modo più semplice per rappresentare come funziona il nostro tratto vocale quando parliamo. Questi dati a bassa dimensione sono più facili da capire e gestire per le macchine rispetto a rappresentazioni audio più complesse. In secondo luogo, i sistemi basati su EMA offrono un livello di controllo nella sintesi vocale che altri metodi potrebbero non avere. Questo controllo può essere cruciale per applicazioni destinate ad aiutare chi ha difficoltà nel parlare o per convertire segnali cerebrali in parole.

La sfida della sintesi vocale efficiente

Anche se la sintesi articolatoria ha un grande potenziale, la maggior parte degli studi non si è concentrata sul rendere questi sistemi efficienti in termini di parametri. In parole semplici, molti modelli attuali sono pesanti e richiedono molta memoria e potenza di calcolo. Questo può essere un problema, specialmente quando si cerca di usarli su dispositivi più piccoli, come smartphone o tablet. Modelli più piccoli sono solitamente più veloci e possono rendere possibili applicazioni in tempo reale, il che è fondamentale per usi clinici dove la velocità e l'efficienza sono essenziali.

Introduzione al Processing del Segnale Digitale Differenziabile (DDSP)

Per affrontare queste sfide, i ricercatori si stanno rivolgendo al processing del segnale digitale differenziabile (DDSP). Il DDSP combina tecniche tradizionali di elaborazione audio con il machine learning moderno, permettendo una sintesi audio efficiente mantenendo un'alta qualità sonora. Un modello DDSP solitamente ha due parti principali: un encoder che trasforma le caratteristiche in segnali di controllo e moduli di elaborazione del segnale digitale che creano audio da quei segnali di controllo.

Come funziona il DDSP

In un framework DDSP, un encoder prende caratteristiche come l'intonazione e il volume e le elabora per generare segnali di controllo. I moduli DSP poi convertono questi segnali di controllo in parlato udibile. Il vantaggio chiave del DDSP risiede nella sua leggerezza, poiché si basa su tecniche di elaborazione audio consolidate e impara a generare il parlato in modo più efficiente.

Il nostro vocoder DDSP proposto

Questo articolo presenta un nuovo approccio alla sintesi articolatoria usando il DDSP. Il sistema può prendere dati EMA, pitch (F0) e livelli di volume e convertirli in parlato. Utilizzando un modello specifico noto come modello Harmonic-plus-Noise (H+N), otteniamo risultati migliori in termini di qualità del parlato e efficienza computazionale.

Il nostro modello riduce significativamente la quantità di memoria necessaria. Raggiunge un output vocale di alta qualità usando solo una frazione dei parametri necessari da altri modelli leader. Questo significa che è non solo più veloce ma anche più adatto per l'uso su dispositivi più piccoli.

Metriche di prestazione

Per valutare le prestazioni del nostro modello, guardiamo a due metriche principali: Tasso di errore delle parole (WER) e punteggio medio di opinione (MOS). Un WER più basso indica che il parlato sintetizzato è più comprensibile, mentre un MOS più alto suggerisce che gli ascoltatori percepiscono la qualità del parlato come buona. Il nostro modello ottiene punteggi impressionanti su entrambe le metriche, mostrando chiari miglioramenti rispetto ai sistemi esistenti.

L'architettura del nostro modello

Il modello è composto da due parti: l'encoder e il generatore DSP. L'encoder elabora i dati EMA, F0 e le informazioni sul volume, indirizzandole a strati progettati per catturare le sfumature del parlato. Il generatore DSP poi sintetizza il suono basandosi sui segnali prodotti dall'encoder.

Dettagli dell'Encoder

L'encoder utilizza strati di convoluzione dilatata, che gli permettono di considerare un contesto più ampio delle caratteristiche in input senza aumentare significativamente il numero di parametri. Il processo inizia combinando le caratteristiche in input e poi passando attraverso diversi strati che trasformano gli input in segnali di controllo.

Componenti del Generatore DSP

Il generatore DSP include due moduli principali: un oscillatore armonico e un generatore di rumore. L'oscillatore armonico crea suoni vocali mentre il generatore di rumore simula suoni non vocali, come sussurri o rumori di respiro. Combinando gli output di questi due moduli, il nostro modello sintetizza un parlato che suona naturale e chiaro.

Funzioni di perdita per l'addestramento

Allenare il nostro modello comporta funzioni di perdita specifiche progettate per migliorare la qualità del suono del parlato sintetizzato. Usiamo sia la perdita spettrale multi-scala che la perdita avversariale multi-risoluzione. Queste assicurano che il modello non solo impari a ricreare le voci con precisione, ma catturi anche i dettagli fini nel parlato che lo fanno sembrare genuino.

Dataset utilizzati per l'addestramento

Per addestrare il nostro modello, abbiamo utilizzato due dataset separati. Il primo, chiamato MNGU0, contiene registrazioni di parlato maschile insieme a dati EMA, permettendo un confronto diretto tra il parlato sintetizzato e quello umano reale. Il secondo dataset, LJ Speech, consiste in registrazioni di parlato femminile. Tuttavia, poiché non include dati EMA, abbiamo generato etichette EMA pseudo usando un modello diverso.

Risultati del nostro approccio

Attraverso valutazioni approfondite, abbiamo scoperto che il nostro modello DDSP ha superato i modelli esistenti all'avanguardia in tutte le metriche. Ha dimostrato di essere capace di produrre un parlato chiaro e comprensibile richiedendo significativamente meno risorse.

I miglioramenti sono stati costanti su entrambi i dataset, confermando la versatilità del modello. Questo apre nuove strade per potenziali applicazioni, specialmente in contesti clinici dove efficienza e qualità del parlato sono fondamentali.

Efficienza del nostro modello

Una delle caratteristiche più interessanti del nostro modello DDSP è la sua efficienza. Abbiamo sperimentato con modelli di varie dimensioni per determinare come cambia la prestazione con meno parametri. I nostri risultati hanno mostrato che anche con un modello molto più piccolo, le prestazioni sono rimaste robuste. Per la versione più piccola del nostro modello, la qualità del parlato prodotto era alla pari con un modello molto più grande esistente, evidenziando l'efficacia del nostro approccio.

Velocità di inferenza

Un altro grande vantaggio del nostro vocoder DDSP è la sua velocità. Abbiamo testato quanto velocemente potesse generare parlato rispetto ai sistemi esistenti. Il nostro modello ha completato i compiti in modo significativamente più veloce senza compromettere la qualità. Questa rapidità è particolarmente vantaggiosa per applicazioni in tempo reale, come le tecnologie di assistenza vocale.

Direzioni future

In conclusione, questa ricerca punta verso un futuro promettente per la sintesi articolatoria usando il DDSP. Abbiamo intenzione di perfezionare ulteriormente il nostro modello e esplorare la sua capacità di gestire più parlanti, il che potrebbe portare a notevoli progressi nelle applicazioni di sintesi vocale.

Ottimizzando la sintesi vocale, possiamo migliorare l'accessibilità per le persone con disturbi della parola e migliorare le tecnologie che traducono i pensieri in parole parlate. I progressi nel nostro modello rappresentano un passo cruciale per rendere la sintesi vocale di alta qualità disponibile per tutti.

Fonte originale

Titolo: Fast, High-Quality and Parameter-Efficient Articulatory Synthesis using Differentiable DSP

Estratto: Articulatory trajectories like electromagnetic articulography (EMA) provide a low-dimensional representation of the vocal tract filter and have been used as natural, grounded features for speech synthesis. Differentiable digital signal processing (DDSP) is a parameter-efficient framework for audio synthesis. Therefore, integrating low-dimensional EMA features with DDSP can significantly enhance the computational efficiency of speech synthesis. In this paper, we propose a fast, high-quality, and parameter-efficient DDSP articulatory vocoder that can synthesize speech from EMA, F0, and loudness. We incorporate several techniques to solve the harmonics / noise imbalance problem, and add a multi-resolution adversarial loss for better synthesis quality. Our model achieves a transcription word error rate (WER) of 6.67% and a mean opinion score (MOS) of 3.74, with an improvement of 1.63% and 0.16 compared to the state-of-the-art (SOTA) baseline. Our DDSP vocoder is 4.9x faster than the baseline on CPU during inference, and can generate speech of comparable quality with only 0.4M parameters, in contrast to the 9M parameters required by the SOTA.

Autori: Yisi Liu, Bohan Yu, Drake Lin, Peter Wu, Cheol Jun Cho, Gopala Krishna Anumanchipalli

Ultimo aggiornamento: 2024-09-04 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2409.02451

Fonte PDF: https://arxiv.org/pdf/2409.02451

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili