Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Suono# Elaborazione dell'audio e del parlato

Avanzamenti nella sintesi del suono Foley con il machine learning

Un nuovo sintetizzatore migliora la generazione di effetti sonori realistici per i media.

― 6 leggere min


Sintesi del Suono FoleySintesi del Suono Foleydi Nuova Generazionesonori usando il machine learning.Rivoluzionare la creazione di effetti
Indice

La sintesi del Suono Foley è il processo di creazione di effetti sonori realistici per i media come film o programmi radiofonici. In questo progetto, abbiamo costruito un sintetizzatore neurale che può produrre clip audio in sette categorie diverse. Il nostro obiettivo è rendere queste clip audio più varie e ricche di suono, migliorando la qualità dei suoni Foley sintetizzati.

Che cos'è il suono Foley?

Il suono Foley si riferisce ai suoni creati per abbinarsi alle azioni che accadono sullo schermo o in un contesto audio. Ad esempio, quando un personaggio cammina, il suono dei passi viene aggiunto in post-produzione per rendere la scena più reale. Creare questi suoni di solito richiede molto tempo e risorse. Il nostro sintetizzatore mira a rendere questo processo più veloce e conveniente generando suoni direttamente tramite l'apprendimento automatico.

Le categorie di suoni

Ci siamo concentrati su sette tipi di suoni Foley: Abbaio di cane, Passo, Colpo di pistola, Tastiera, Veicolo a motore in movimento, Pioggia e Starnuto/Tosse. I nostri test iniziali mostrano che il nostro modello ha performato meglio dei modelli esistenti in sei delle sette categorie, indicando che il nostro approccio migliora effettivamente la qualità e la diversità del suono.

Imparare dai modelli esistenti

Abbiamo esaminato lavori precedenti nel campo della sintesi del suono per guidare lo sviluppo del nostro modello. Un approccio degno di nota ha coinvolto la combinazione di vari tipi di modelli di deep learning per generare suoni per clip video silenziose. Altri modelli che lavorano con la generazione di testo in audio sono stati anche esaminati. Questi modelli sono stati addestrati a comprendere audio e testo simultaneamente, permettendo loro di generare suoni basati su indicazioni testuali.

Nonostante i loro successi, questi modelli precedenti potrebbero non funzionare altrettanto bene per le nostre esigenze specifiche, in particolare per generare Foley specifici per categoria. Pertanto, abbiamo dovuto apportare miglioramenti alle tecniche esistenti.

Migliorare il modello di base

Per avviare il nostro progetto, abbiamo iniziato replicando il modello di base fornito da un'organizzazione di sfide sonore. Dopo aver confermato che potevamo riprodurre i loro risultati, abbiamo iniziato a fare miglioramenti per migliorare la qualità e la diversità del suono.

Il nostro primo aggiustamento è stato il tasso di apprendimento del modello, che inizialmente era troppo alto. Abbiamo implementato un piano di apprendimento per aiutare il modello a imparare in modo più efficace. Abbiamo anche adeguato il nostro schema di addestramento per funzionare su hardware di consumo, consentendo un addestramento all'interno di un intervallo di tempo ragionevole.

Rappresentazione audio avanzata

Il modello di base ha trasformato l'audio in una rappresentazione più semplice nota come melspectrogrammi. Tuttavia, credevamo che questa compressione potesse perdere informazioni preziose. Per affrontare questo, abbiamo incorporato un modello pre-addestrato per migliorare il nostro input audio. Questo utilizzava caratteristiche audio più dettagliate, che hanno permesso al nostro sintetizzatore di imparare meglio e produrre suoni più accurati.

Introduzione di embeddings combinati

La nostra nuova rappresentazione audio di input, chiamata Embeddings Combinati (CEmbed), ha combinato i tradizionali melspectrogrammi con le nuove caratteristiche audio. Questo aggiornamento ha richiesto di riaddestrare i nostri modelli, ma alla fine ha fornito un input più ricco e informativo per generare suoni.

Aggiornamento del modello VQ-VAE

Abbiamo adottato una tecnica chiamata Variational Autoencoder (VQ-VAE) per migliorare il modo in cui il nostro modello impara a generare suoni. Questo ha comportato la modifica del modo in cui il nostro modello cattura le diverse caratteristiche sonore. Il nostro modello potenziato, chiamato MVQVAE, include caratteristiche per catturare informazioni sonore più dettagliate e separa le categorie sonore in modo più efficace.

Condizionamento per classe

Una sfida con il modello più vecchio era che non considerava la categoria sonora specifica mentre imparava. Abbiamo introdotto il condizionamento per classe per aiutare il modello a riconoscere le differenze tra le varie classi sonore. Questo ha comportato l'aggiunta di uno strato per prevedere a quale categoria sonora appartiene ogni input, migliorando la capacità del modello di generare output di qualità.

Adattamento a nuove dimensioni di input

Con i nuovi CEmbeds più grandi rispetto ai precedenti melspectrogrammi, abbiamo dovuto adeguare di conseguenza l'architettura del nostro modello. Questo ci ha portato ad aumentare il numero di rappresentazioni sonore che il modello poteva gestire. Aggiungere più strati ha aiutato il modello a comprendere le informazioni più ricche nel nuovo input, risultando in una generazione sonora migliore.

Ottimizzazione del PixelSNAIL

Un altro componente chiave del nostro sintetizzatore è un modello chiamato PixelSNAIL, che genera suoni in sequenza. Quando abbiamo applicato questo modello ai nostri nuovi CEmbeds, abbiamo affrontato sfide a causa dell'aumento delle richieste computazionali. Quindi, abbiamo sviluppato un approccio chiamato "Zen Mode" per migliorare l'efficienza mantenendo comunque la qualità della generazione sonora.

Raffinamento del processo di generazione audio

Abbiamo anche migliorato il modello Hifi-GAN che converte le uscite del nostro sintetizzatore in onde audio reali. Questo ha comportato il riaddestramento di HiFi-GAN da zero per gestire efficacemente il nostro nuovo formato di input. Mascherando alcune parti degli input audio durante l'addestramento, abbiamo assicurato che il modello potesse imparare a gestire le imperfezioni nei nostri suoni generati.

Metriche di valutazione

Per misurare il successo del nostro modello, abbiamo utilizzato due principali metodi di valutazione: la Distanza Audio di Frechet (FAD) e test di ascolto soggettivi. FAD fornisce una misura quantitativa della qualità audio generata, mentre i test soggettivi coinvolgono valutatori umani che giudicano quanto l'output assomigli a suoni reali.

Set di sviluppo

I nostri dati di addestramento provenivano da una raccolta di clip sonore costituite da 4.850 file audio mono. Queste clip erano categorizzate nei tipi di suono precedentemente menzionati. Per seguire le regole della sfida, non potevamo utilizzare set di dati aggiuntivi per l'addestramento.

Risultati preliminari

Abbiamo addestrato con successo il nostro modello e scoperto che ha superato il modello di base in tutte le categorie sonore. Attraverso vari test, siamo riusciti a ottenere una qualità del suono migliore come indicato dalle nostre metriche di valutazione.

Obiettivi futuri

Nonostante il nostro successo, ci sono ancora ostacoli da superare. La natura complessa del nostro sistema coinvolge più modelli che devono funzionare bene insieme. Abbiamo affrontato sfide, in particolare riguardo alla stabilità dell'addestramento dei nostri modelli con dimensioni di input più grandi.

C'è un'opportunità per esplorare approcci alternativi alla generazione sonora che potrebbero bypassare alcune delle limitazioni che abbiamo incontrato con i nostri modelli attuali.

Conclusione

In sintesi, il nostro lavoro mira a creare un sintetizzatore che genera suoni Foley realistici in modo efficiente ed efficace. Utilizzando rappresentazioni audio avanzate e affinando i nostri modelli, speriamo di produrre suoni che possano competere con i metodi tradizionali di creazione di Foley. Il nostro lavoro futuro si concentrerà sull'affrontare le sfide incontrate durante l'addestramento del modello ed esplorare nuove metodologie che potrebbero ulteriormente migliorare la qualità e la diversità dei suoni generati.

Fonte originale

Titolo: Exploring Domain-Specific Enhancements for a Neural Foley Synthesizer

Estratto: Foley sound synthesis refers to the creation of authentic, diegetic sound effects for media, such as film or radio. In this study, we construct a neural Foley synthesizer capable of generating mono-audio clips across seven predefined categories. Our approach introduces multiple enhancements to existing models in the text-to-audio domain, with the goal of enriching the diversity and acoustic characteristics of the generated foleys. Notably, we utilize a pre-trained encoder that retains acoustical and musical attributes in intermediate embeddings, implement class-conditioning to enhance differentiability among foley classes in their intermediate representations, and devise an innovative transformer-based architecture for optimizing self-attention computations on very large inputs without compromising valuable information. Subsequent to implementation, we present intermediate outcomes that surpass the baseline, discuss practical challenges encountered in achieving optimal results, and outline potential pathways for further research.

Autori: Ashwin Pillay, Sage Betko, Ari Liloia, Hao Chen, Ankit Shah

Ultimo aggiornamento: 2023-09-08 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.04641

Fonte PDF: https://arxiv.org/pdf/2309.04641

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili