Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Elaborazione dell'audio e del parlato# Intelligenza artificiale# Suono

HiFTNet: Avanzando la tecnologia Text-to-Speech

HiFTNet offre una sintesi vocale più veloce e di alta qualità usando tecniche innovative ed efficienti.

― 5 leggere min


HiFTNet: Sintesi VocaleHiFTNet: Sintesi VocaleVeloceaudio veloce e di alta qualità.Il nuovo modello offre una generazione
Indice

HiFTNet è un nuovo modello pensato per convertire il testo in audio di alta qualità in modo rapido. Questo nuovo approccio si basa su modelli precedenti come iSTFTNet e HiFi-GAN, noti per le loro ottime prestazioni nella creazione di audio chiaro da rappresentazioni chiamate mel-spectrograms. Tuttavia, quei modelli più vecchi richiedono tempo e risorse considerevoli per essere eseguiti. HiFTNet punta a risolvere questi problemi, essendo più veloce e utilizzando meno risorse, mantenendo comunque un’ottima qualità del suono.

L'importanza della sintesi vocale

Creare un discorso realistico è fondamentale in varie tecnologie, tra cui i sistemi di sintesi vocale (TTS) e la conversione vocale (VC). Queste tecnologie seguono spesso un processo in due fasi. Prima creano una forma intermedia del suono e poi traducono quella in audio reale. I mel-spectrograms sono comunemente usati in questo processo perché riflettono da vicino come gli esseri umani percepiscono il suono e semplificano i dati.

Per generare suono utilizzando queste rappresentazioni, è necessario un Vocoder per riempire le informazioni mancanti e ricreare l'onda audio. Gli approcci tradizionali spesso si basano su modelli complessi che, sebbene efficaci, possono essere troppo ingombranti per le applicazioni in tempo reale.

Presentazione di HiFTNet

HiFTNet offre una nuova prospettiva rispetto ai vocoder precedenti. Invece di generare audio direttamente dai mel-spectrograms, scompone ulteriormente il processo. Prima analizza i dettagli del suono, suddividendolo in due parti: la magnitudo e la fase. Poi utilizza un metodo chiamato trasformata di Fourier a breve termine inversa (iSTFT) per creare l'audio finale.

Una caratteristica importante di HiFTNet è l'uso di un filtro speciale, chiamato filtro sorgente armonico-plus-noise, che lavora nel dominio della frequenza. Questo filtro crea un suono fluido combinando un'onda principale derivata dalla frequenza fondamentale-una nota chiave nel suono-assieme a rumore aggiuntivo. Questo approccio unico consente una generazione del suono più rapida senza compromettere la qualità audio.

Come funziona HiFTNet

Generazione della sorgente efficiente

HiFTNet migliora il modo in cui genera la sorgente sonora. Prende la frequenza fondamentale e la trasforma per adattarla alla velocità audio necessaria. Questo aggiustamento semplifica alcuni calcoli, accelerando il processo di creazione del suono.

Il modello capisce quali parti del suono sono vocalizzate (come le vocali) e quali non vocalizzate (come alcune consonanti). Utilizza una soglia specifica per classificare questi suoni, assicurando di generare i giusti tipi di onde sonore per diversi elementi del discorso.

Stima della frequenza avanzata

A differenza dei modelli più vecchi che si basano su metodi tradizionali per determinare la frequenza fondamentale, HiFTNet utilizza una Rete Neurale addestrata specificamente per questo scopo. Questo approccio lo rende più accurato ed efficiente, permettendogli di gestire meglio campioni audio diversi e risultando in un suono più pulito complessivamente.

Filtro sorgente neurale nel dominio tempo-frequenza

HiFTNet impiega un metodo unico per gestire la sorgente sonora all'interno del dominio tempo-frequenza. Invece di elaborare audio grezzo, traduce prima il suono in questo dominio utilizzando tecniche coerenti con il suo processo di output. Questo assicura che il modello possa creare audio di alta qualità in modo più efficace.

Il filtro sorgente neurale utilizzato in HiFTNet consiste in un design semplice. Impiega alcuni strati e strutture di base, rendendolo sia efficiente che efficace nella produzione di audio di alta qualità.

Discriminatori e funzioni di attivazione aggiornati

Il modello introduce anche un modo migliorato per valutare la qualità del suono. Sostituisce il vecchio Discriminatore multi-scala con un discriminatore multi-risoluzione, che ha dimostrato di migliorare la qualità del suono nei test. Il generatore, responsabile della creazione dell'audio, utilizza una funzione di attivazione speciale chiamata funzione Snake. Questa nuova funzione aiuta il modello a catturare le strutture periodiche presenti nel discorso, che sono cruciali per generare un suono realistico.

Funzione di perdita raffinata

Per ottenere una migliore qualità del suono, HiFTNet incorpora una funzione di perdita raffinata durante la fase di addestramento. Questa funzione aiuta il modello a distinguere tra suoni reali e generati, incoraggiandolo a migliorare fino a produrre audio che suona più autentico.

Test e valutazioni

HiFTNet è stato valutato utilizzando set di dati vocali popolari. Un set di dati, chiamato LJSpeech, include migliaia di brevi clip audio usate per addestrare il modello, concentrandosi su una sola voce. Un altro set di dati, LibriTTS, presenta una gamma più ampia di voci da vari parlanti, consentendo test più vari.

Il confronto con modelli consolidati come HiFi-GAN e BigVGAN ha mostrato che HiFTNet non solo produceva suoni di qualità superiore, ma lo faceva anche più velocemente e utilizzando meno risorse di sistema. Nei test soggettivi dove gli ascoltatori valutavano vari modelli, HiFTNet ha ottenuto punteggi elevati, spesso pareggiando o superando anche sistemi più complessi.

Studi di ablazione

È stata condotta un'analisi ulteriore per vedere come ogni componente di HiFTNet contribuisse alla sua prestazione complessiva. Rimuovendo alcune caratteristiche, i ricercatori hanno scoperto che il filtro sorgente armonico-plus-noise svolgeva un ruolo cruciale nel mantenere alta la qualità del suono. Altre modifiche, come la sostituzione di diverse funzioni di attivazione, hanno mostrato effetti significativi sulle prestazioni del modello.

Questi risultati hanno evidenziato che ogni parte di HiFTNet è fondamentale per il suo successo, anche se alcuni elementi potrebbero rallentare leggermente il sistema.

Conclusione

HiFTNet rappresenta un importante passo avanti nella creazione di discorso realistico e di alta qualità che opera in modo efficiente. Impiegando una combinazione di tecniche innovative, affronta con successo le limitazioni dei modelli precedenti. Con le sue caratteristiche avanzate e i metodi di elaborazione raffinati, HiFTNet si distingue nel panorama delle tecnologie di sintesi vocale, posizionandosi come un'opzione pratica per applicazioni in tempo reale che necessitano di generazione audio veloce e chiara.

Il lavoro futuro si concentrerà probabilmente su un ulteriore affinamento del sistema, in particolare nelle aree di stima del tono e velocità di elaborazione complessiva, il che potrebbe migliorare ulteriormente le sue capacità.

Fonte originale

Titolo: HiFTNet: A Fast High-Quality Neural Vocoder with Harmonic-plus-Noise Filter and Inverse Short Time Fourier Transform

Estratto: Recent advancements in speech synthesis have leveraged GAN-based networks like HiFi-GAN and BigVGAN to produce high-fidelity waveforms from mel-spectrograms. However, these networks are computationally expensive and parameter-heavy. iSTFTNet addresses these limitations by integrating inverse short-time Fourier transform (iSTFT) into the network, achieving both speed and parameter efficiency. In this paper, we introduce an extension to iSTFTNet, termed HiFTNet, which incorporates a harmonic-plus-noise source filter in the time-frequency domain that uses a sinusoidal source from the fundamental frequency (F0) inferred via a pre-trained F0 estimation network for fast inference speed. Subjective evaluations on LJSpeech show that our model significantly outperforms both iSTFTNet and HiFi-GAN, achieving ground-truth-level performance. HiFTNet also outperforms BigVGAN-base on LibriTTS for unseen speakers and achieves comparable performance to BigVGAN while being four times faster with only $1/6$ of the parameters. Our work sets a new benchmark for efficient, high-quality neural vocoding, paving the way for real-time applications that demand high quality speech synthesis.

Autori: Yinghao Aaron Li, Cong Han, Xilin Jiang, Nima Mesgarani

Ultimo aggiornamento: 2023-09-18 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.09493

Fonte PDF: https://arxiv.org/pdf/2309.09493

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili