Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Elaborazione dell'audio e del parlato# Apprendimento automatico# Suono

Avanzando il matching dei suoni dei sintetizzatori con il trasformatore dello spettrogramma audio

Un nuovo metodo semplifica il matching dei suoni dei sintetizzatori per i musicisti.

― 6 leggere min


Rivoluzionare il matchingRivoluzionare il matchingdei suoni synthsonoro avanzato.sintetizzatori attraverso il matchingTrasformare la creatività dei
Indice

I sintetizzatori sono strumenti popolari per fare musica. Creano suoni regolando vari Parametri. Tuttavia, impostare questi parametri può essere complicato, soprattutto per chi è nuovo nell'uso dei sintetizzatori. Sistemi che regolano automaticamente le impostazioni del Sintetizzatore per ricreare un suono possono semplificare questo processo, rendendolo più veloce e facile per tutti. Con così tanti sintetizzatori diversi disponibili, un sistema generale che funzioni con vari tipi può essere di grande aiuto.

In questo articolo, presentiamo un nuovo metodo per abbinare i suoni dei sintetizzatori usando una tecnica chiamata Audio Spectrogram Transformer. Questo metodo usa un computer per analizzare i suoni, poi abbina le impostazioni del sintetizzatore a quei suoni. La nostra ricerca è stata fatta con un noto sintetizzatore chiamato Massive. Abbiamo creato un grande dataset contenente suoni generati cambiando casualmente le impostazioni su Massive e abbiamo addestrato il nostro Modello per prevedere le impostazioni corrette in base ai suoni in ingresso.

Importanza dell'abbinamento dei suoni

Regolare automaticamente i parametri del sintetizzatore per creare suoni specifici non è un'idea nuova. L'interesse per questi sistemi esiste fin dagli anni '90. Possono aiutare i musicisti che hanno poca comprensione della creazione del suono, mentre accelerano il processo per gli utenti più esperti. Questi sistemi di abbinamento dei suoni hanno il potenziale di aprire nuove porte creative, permettendo ai musicisti di usare i suoni come modo per controllare i sintetizzatori e creare profili sonori unici.

Tuttavia, molti sistemi esistenti richiedono conoscenze pregresse sul funzionamento di un sintetizzatore. Questo può limitarne l'utilità. Ogni sintetizzatore ha il proprio insieme di regole e caratteristiche, quindi un modello progettato per uno potrebbe non funzionare per un altro. Questo rende difficile creare un sistema flessibile in grado di adattarsi a diversi sintetizzatori, soprattutto a quelli con impostazioni complesse.

Alcuni approcci recenti hanno cercato di evitare la necessità di una profonda conoscenza dei sintetizzatori. Ad esempio, alcuni sistemi usano reti neurali convoluzionali per inferire le impostazioni dagli input audio. Altri hanno esplorato l'uso di variazioni di reti neurali per connettere meglio i suoni con le impostazioni che li hanno creati.

Presentazione dell'Audio Spectrogram Transformer

I trasformatori sono diventati sempre più popolari in vari compiti, inclusa il recupero di informazioni musicali. Sono noti per le loro forti prestazioni ma richiedono molte risorse computazionali e dati. Per l'abbinamento sonoro nei sintetizzatori, proponiamo di utilizzare l'Audio Spectrogram Transformer come base. Questo metodo ci permette di creare un modello che funzioni con assunzioni minime su come operano i sintetizzatori.

Il nostro approccio si concentra sull'abbinamento dei suoni prevedendo le impostazioni sottostanti usate per creare quel suono. Dato un campione audio, il nostro modello cerca di indovinare i parametri del sintetizzatore, che possono poi essere usati per generare un nuovo suono. Il modello è stato addestrato su un dataset appositamente creato di campioni audio abbinati e delle loro corrispondenti impostazioni di parametri del sintetizzatore.

Come abbiamo costruito il nostro dataset

Per il nostro progetto di abbinamento suoni dei sintetizzatori, abbiamo creato un dataset di un milione di campioni. Ogni campione consisteva in un suono prodotto dal sintetizzatore e nel suo insieme di parametri corrispondenti. Invece di usare suoni esistenti, abbiamo generato suoni casualmente cambiando le impostazioni del sintetizzatore Massive. Questo metodo ci ha permesso di catturare una vasta gamma di suoni e le loro impostazioni associate.

Il processo ha comportato la generazione di un suono alimentando il sintetizzatore con impostazioni di parametri casuali e registrando l'output. Ci siamo assicurati che i suoni fossero abbastanza forti da evitare campioni silenziosi filtrando qualsiasi audio al di sotto di un certo livello di volume. Questo metodo ci ha permesso di campionare una gamma sostanziale di impostazioni del sintetizzatore e produrre un grande dataset per addestrare il nostro modello.

Addestramento e valutazione del modello

Il processo di addestramento del nostro modello ha coinvolto l'alimentazione del dataset generato e l'insegnamento a prevedere le impostazioni dei parametri del sintetizzatore in base all'input audio. Abbiamo usato due metriche principali per valutare le prestazioni del nostro modello: l'errore quadratico medio per la previsione dei parametri e la convergenza spettrale per la qualità audio.

Quando abbiamo testato il nostro modello contro due metodi consolidati, ha mostrato un vantaggio significativo sia nella previsione precisa dei parametri che nella ricreazione di audio di alta qualità. In entrambi i casi, il nostro approccio ha dimostrato forti capacità, anche rispetto ai modelli esistenti.

Risultati e osservazioni

I risultati hanno rivelato che il nostro modello non solo ha eccelso nella previsione dei parametri del sintetizzatore, ma ha anche generato suoni che somigliavano molto all'audio in ingresso. Anche se il modello ha funzionato bene per i suoni generati dal sintetizzatore Massive, ha mostrato anche promesse per abbinare suoni di altri strumenti e persino imitazioni vocali.

Tuttavia, un'area di miglioramento è la capacità del modello di prevedere la tonalità con precisione. In alcuni casi, piccole discrepanze nella sintonia del tono hanno portato a differenze percettibili nell'audio risultante. Affrontare questi problemi potrebbe migliorare l'efficacia del nostro approccio all'abbinamento sonoro.

Direzioni future

Guardando al futuro, intendiamo espandere il nostro approccio lavorando con set di parametri più grandi e complessi. Vogliamo esplorare come modellare meglio vari tipi di parametri, comprese le impostazioni categoriali e continue, per riflettere le diverse opzioni disponibili nei sintetizzatori.

Inoltre, puntiamo a migliorare il processo di addestramento incorporando variazioni di tonalità, permettendo al nostro modello di adattarsi in modo più efficace a diverse note musicali. Questo può aiutare ad abbinare i suoni con precisione senza perdere qualità.

Conclusione

La nostra ricerca dimostra il potenziale di utilizzare un Audio Spectrogram Transformer per creare un sistema flessibile e potente di abbinamento suoni del sintetizzatore. Sviluppando un metodo che richiede assunzioni minime su come funzionano i sintetizzatori, possiamo creare soluzioni che soddisfano una vasta gamma di suoni. I risultati mostrano che questo approccio può abbinare efficacemente i suoni alle impostazioni del sintetizzatore, suggerendo una via promettente per future esplorazioni nella tecnologia della produzione musicale.

Continuare a lavorare in questo campo può portare a una creazione di suoni più semplice per musicisti di tutti i livelli e incoraggiare modi più innovativi di usare i sintetizzatori nella musica. Il nostro obiettivo è continuare a spingere i confini di ciò che è possibile con l'abbinamento sonoro dei sintetizzatori e aprire nuove opportunità di espressione creativa attraverso la tecnologia.

Fonte originale

Titolo: Synthesizer Sound Matching Using Audio Spectrogram Transformers

Estratto: Systems for synthesizer sound matching, which automatically set the parameters of a synthesizer to emulate an input sound, have the potential to make the process of synthesizer programming faster and easier for novice and experienced musicians alike, whilst also affording new means of interaction with synthesizers. Considering the enormous variety of synthesizers in the marketplace, and the complexity of many of them, general-purpose sound matching systems that function with minimal knowledge or prior assumptions about the underlying synthesis architecture are particularly desirable. With this in mind, we introduce a synthesizer sound matching model based on the Audio Spectrogram Transformer. We demonstrate the viability of this model by training on a large synthetic dataset of randomly generated samples from the popular Massive synthesizer. We show that this model can reconstruct parameters of samples generated from a set of 16 parameters, highlighting its improved fidelity relative to multi-layer perceptron and convolutional neural network baselines. We also provide audio examples demonstrating the out-of-domain model performance in emulating vocal imitations, and sounds from other synthesizers and musical instruments.

Autori: Fred Bruford, Frederik Blang, Shahan Nercessian

Ultimo aggiornamento: 2024-07-23 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.16643

Fonte PDF: https://arxiv.org/pdf/2407.16643

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili