Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Apprendimento automatico# Suono# Elaborazione dell'audio e del parlato

Avanzare nel matching dello stile audio con effetti tradizionali

Un nuovo metodo semplifica il trasferimento di stile audio usando effetti non differenziabili.

― 7 leggere min


Metodo Innovativo diMetodo Innovativo diTrasferimento di StileAudiodi stile audio senza sistemi complessi.Nuova tecnica migliora il trasferimento
Indice

Gli Effetti Audio sono strumenti che gli ingegneri del suono usano per cambiare il modo in cui i suoni vengono percepiti. Questi effetti possono modificare cose come il volume, il tono e il tempo. Ma con così tante impostazioni disponibili, questi effetti possono risultare complicati per i nuovi utenti e possono rallentare i professionisti esperti che cercano di essere creativi. Recentemente, ci sono stati sforzi per usare il deep learning per regolare automaticamente queste impostazioni confrontando un pezzo audio con una traccia di riferimento. Questo metodo è noto come Trasferimento di Stile.

Molti metodi attuali si basano su sistemi complessi che non permettono facili cambiamenti alle impostazioni una volta impostate o richiedono che gli effetti siano costruiti in un certo modo. Questo limita il loro utilizzo perché molti effetti audio popolari sono realizzati con tecnologie diverse. Il nostro lavoro cerca di colmare queste lacune offrendo un modo per abbinare stili audio usando effetti audio normali che non devono essere differenziabili.

Vogliamo rendere l'abbinamento di stili audio più facile e flessibile. Il nostro metodo può funzionare con una gamma più ampia di effetti audio e non richiede che gli effetti siano in formati speciali. Utilizzando un tipo speciale di Rete Neurale, possiamo prendere le Caratteristiche audio e trasformarle in impostazioni per diversi effetti. Il processo inizia con l'addestramento di un Variational Autoencoder (VAE) per catturare le caratteristiche audio importanti, che vengono poi utilizzate per abbinare gli stili tra due tracce audio.

L'importanza degli effetti audio

Gli effetti audio digitali giocano un ruolo cruciale nella produzione musicale e nel design del suono. Aiutano a creare un suono lucido e professionale. Tuttavia, con un grande numero di impostazioni regolabili, i principianti possono sentirsi sopraffatti e i professionisti possono spendere tempo inutile a perfezionare queste impostazioni per ottenere i risultati desiderati.

I modelli di machine learning sono sempre più utilizzati per gestire questi effetti. Questi modelli possono eliminare il fastidio delle regolazioni manuali, rendendo più veloce e facile trasformare l'audio nella qualità desiderata. Alcune soluzioni recenti hanno utilizzato un metodo che richiede l'elaborazione dei segnali digitali differenziabili, il che rende più semplice l'addestramento ma limita la flessibilità nella scelta degli effetti.

La maggior parte degli effetti audio commerciali sono costruiti per compiti specifici e non possono facilmente passare a sistemi che richiedono l'elaborazione differenziabile. Questo può rendere gli utenti riluttanti ad adottare metodi più recenti quando sono a proprio agio con i loro strumenti esistenti.

Il nostro approccio

Nel nostro lavoro, abbiamo sviluppato un metodo che può abbinare stili audio utilizzando effetti audio tradizionali che non devono essere differenziabili. Abbiamo addestrato un VAE per apprendere le caratteristiche audio da una gamma di effetti. Questo modello poi aiuta a creare rappresentazioni comuni dell'audio sorgente e di quello di destinazione. Una semplice rete neurale prende poi queste rappresentazioni e le trasforma nelle impostazioni necessarie per l'effetto in uso.

Per facilitare il processo di apprendimento, abbiamo implementato una tecnica per stimare i gradienti, permettendoci di usare efficacemente parametri non differenziabili. Dopo aver addestrato il modello VAE, congeliamo alcune parti della rete, così possiamo riaddestrare la rete di controllo per diversi effetti non visti in seguito.

Contributi chiave

Il nostro lavoro introduce un encoder audio pre-addestrato che aiuta nelle attività di produzione audio. Questo encoder consente una migliore stabilità nell'addestramento e prestazioni migliorate nell'abbinamento degli stili senza dover addestrare tutto da zero ogni volta. Questo rende il nostro metodo più efficace in una gamma più ampia di applicazioni.

Anche se abbiamo fatto grandi progressi, c'è ancora lavoro da fare nell'applicare il nostro metodo a effetti che non sono stati visti in fase di addestramento. Siamo entusiasti di condividere la nostra implementazione open-source e fornire esempi delle trasformazioni audio ottenute tramite il nostro metodo.

Lavori correlati

Negli ultimi anni, il deep learning ha trovato molti usi nell'elaborazione audio, dalla generazione di discorsi alla classificazione di generi musicali. Un'area è stata l'applicazione del deep learning per modellare attrezzature analogiche. Ad esempio, ci sono stati tentativi di modellare amplificatori per chitarra vintage che producono suoni unici a causa dei loro componenti specifici.

Alcuni ricercatori hanno anche cercato di utilizzare metodi che combinano l'elaborazione audio tradizionale con il deep learning. Questo ha permesso di creare sistemi che possono regolare i loro parametri in base all'input dell'utente. Tuttavia, questi approcci spesso presentano sfide, incluso il bisogno di programmazione differenziabile o richiedere un riaddestramento per ogni diversa impostazione dell'effetto.

L'uso delle reti Siamese è un altro metodo comune nel trasferimento di stile audio. Queste reti possono imparare rappresentazioni sia dell'audio sorgente che di quello di destinazione, rendendole utili per varie attività, incluso il controllo degli effetti audio.

Architettura del modello

Il nostro modello inizia con un VAE che ricostruisce lo spettrogramma (una rappresentazione visiva del suono) dell'audio in input. L'obiettivo principale è estrarre caratteristiche che possono essere strettamente legate alle impostazioni dei vari effetti audio. L'architettura include diversi strati che si costruiscono gradualmente fino a uno spazio latente dove sono catturate informazioni audio importanti.

Il VAE è composto da strati convoluzionali seguiti da strati lineari per derivare una rappresentazione compatta dell'audio in input. Il decodificatore poi ricostruisce lo spettrogramma da questo spazio latente.

Per connettere questa rappresentazione ai parametri degli effetti audio, utilizziamo una semplice rete feed-forward che prende l'input combinato e i codificatori di riferimento, mappandoli alle impostazioni necessarie per l'effetto audio. Questa rete è strutturata con diversi strati nascosti e utilizza normalizzazione e funzioni di attivazione per garantire un apprendimento efficace.

Generazione del dataset

Per addestrare il nostro modello, abbiamo utilizzato una collezione di plugin audio open-source. Questi plugin coprono vari tipi di effetti audio ed sono popolari nella produzione audio reale. Abbiamo selezionato specificamente effetti che regolano parametri continui per allineare i nostri metodi di stima dei gradienti.

Il nostro dataset è stato costruito campionando varie registrazioni audio e applicando diversi effetti audio per creare un dataset di addestramento diversificato. Abbiamo utilizzato tecniche come lo spostamento di tono e tempo per aumentare i nostri dati e aumentare la varietà. Ogni campione di addestramento è stato suddiviso in patch, con una che fungeva da input e l'altra come riferimento durante l'addestramento.

Addestramento del modello

Nell'addestramento del VAE, abbiamo selezionato effetti audio specifici con cui lavorare. Questa strategia ha permesso al modello di apprendere da diversi tipi di cambiamenti audio e generalizzare meglio. Gli spettrogrammi sono stati elaborati per migliorare la visibilità e rafforzare la capacità del modello di catturare informazioni audio critiche.

Abbiamo poi addestrato la rete end-to-end per condurre l'abbinamento di stili. Durante questa fase, ci siamo concentrati sul minimizzare la differenza tra gli output previsti e l'audio reale per affinare ulteriormente il modello.

Risultati e valutazione

Dopo l'addestramento, abbiamo valutato il nostro encoder audio testando quanto bene classificava diversi effetti audio. I risultati sono stati positivi, dimostrando che il nostro metodo potrebbe differenziare accuratamente tra gli effetti.

Per la nostra rete end-to-end, abbiamo confrontato le sue prestazioni su diversi dataset e effetti audio. Sebbene il nostro approccio abbia mostrato promettenti risultati, ha ottenuto prestazioni inferiori rispetto ai metodi di base in alcuni casi, in particolare per effetti che producono cambiamenti meno pronunciati nel suono.

Sono stati condotti test di ascolto per raccogliere feedback su quanto bene il nostro modello abbinasse gli stili audio. I partecipanti hanno valutato diversi campioni audio, fornendo informazioni sulla qualità del trasferimento di stile. I risultati hanno indicato che la nostra rete ha funzionato meglio con alcuni effetti, specialmente quando i cambiamenti nella qualità audio erano più evidenti.

Conclusione

In sintesi, abbiamo sviluppato un metodo per trasferire stili audio usando effetti tradizionali che non richiedono metodi di elaborazione differenziabili. Anche se abbiamo fatto importanti progressi nel migliorare il processo di abbinamento degli stili, abbiamo anche riconosciuto aree che necessitano di miglioramento, specialmente nell'applicare il nostro metodo a effetti audio non visti. Il lavoro futuro si concentrerà sul perfezionamento dell'encoder e sul suo adattamento a classi di effetti specifiche per aumentare l'efficacia nelle attività di produzione audio.

Fonte originale

Titolo: Style Transfer for Non-differentiable Audio Effects

Estratto: Digital audio effects are widely used by audio engineers to alter the acoustic and temporal qualities of audio data. However, these effects can have a large number of parameters which can make them difficult to learn for beginners and hamper creativity for professionals. Recently, there have been a number of efforts to employ progress in deep learning to acquire the low-level parameter configurations of audio effects by minimising an objective function between an input and reference track, commonly referred to as style transfer. However, current approaches use inflexible black-box techniques or require that the effects under consideration are implemented in an auto-differentiation framework. In this work, we propose a deep learning approach to audio production style matching which can be used with effects implemented in some of the most widely used frameworks, requiring only that the parameters under consideration have a continuous domain. Further, our method includes style matching for various classes of effects, many of which are difficult or impossible to be approximated closely using differentiable functions. We show that our audio embedding approach creates logical encodings of timbral information, which can be used for a number of downstream tasks. Further, we perform a listening test which demonstrates that our approach is able to convincingly style match a multi-band compressor effect.

Autori: Kieran Grant

Ultimo aggiornamento: 2023-09-29 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.17125

Fonte PDF: https://arxiv.org/pdf/2309.17125

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili