Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Suono# Elaborazione dell'audio e del parlato

Migliorare l'elaborazione audio con i livelli SFI

Nuovi algoritmi migliorano le prestazioni di elaborazione audio su diverse frequenze di campionamento.

― 5 leggere min


Strati SFI TrasformaStrati SFI TrasformaElaborazione Audiodella qualità audio in modo efficace.Nuovi algoritmi affrontano le sfide
Indice

Il deep learning è stato usato in tantissime cose legate all'audio, come separare le sorgenti musicali, migliorare la qualità del parlato e tradurre la musica in note. Un problema comune è che questi sistemi di solito si aspettano che il campionamento audio abbia la stessa frequenza sia in fase di addestramento che quando vengono utilizzati. Se la frequenza cambia, serve un'elaborazione extra, come cambiare la velocità dell'audio, che può essere complicato.

Per affrontare questo, i ricercatori hanno sviluppato strati speciali nei modelli di deep learning chiamati strati indipendenti dalla frequenza di campionamento (SFI). Questi strati permettono al modello di lavorare con diverse frequenze di campionamento senza dover cambiare prima l'audio. Possono sostituire strati tradizionali in vari design di rete, rendendoli flessibili. Tuttavia, combinare questi strati SFI con altri strati ha mostrato alcune limitazioni. Per esempio, un modello ben noto usato per separare sorgenti audio, chiamato Conv-TasNet, ha difficoltà quando le variazioni nella frequenza di campionamento non sono numeri interi, portando a una performance peggiore.

Il Problema dei Passi Non Interi

Nelle operazioni tipiche, le reti neurali si aspettano che alcuni valori, come passo e dimensione del kernel, siano numeri interi. Quando si lavora con valori non interi, questi sistemi non riescono a funzionare correttamente. Per esempio, se un modello è addestrato usando passi di 5 ms e 2,5 ms a una frequenza di campionamento di 32 kHz, incontra problemi se deve lavorare a una frequenza diversa, come 22,05 kHz, dove i valori cambiano e diventano frazioni.

Arrotondare questi valori al numero intero più vicino sembra una soluzione facile, ma causa dei problemi. Questo arrotondamento può cambiare la risoluzione temporale dell'input, portando a performance peggiori in compiti come la separazione audio. Inoltre, un altro metodo che coinvolge sistemi complessi ha dimostrato di limitare la flessibilità nel design. Di conseguenza, è necessaria un nuova approccio per gestire efficacemente questi valori non interi.

La Soluzione Proposta

Suggeriamo di usare l'interpolazione sinc finestrata come soluzione. Questo metodo ci permette di creare una versione continua di un segnale audio discreto. Applicando questo prima di ridurre i dati nel modello, possiamo creare campioni di input agli intervalli necessari senza perdere qualità.

Per raggiungere questo, progettiamo algoritmi sia per gli strati convoluzionali SFI che per gli strati convoluzionali trasposti. Questi algoritmi utilizzeranno l'interpolazione sinc finestrata per gestire i valori di passo non interi, cercando di assicurare che il sistema mantenga accuratezza nella rappresentazione dei segnali audio.

Come Funzionano gli Strati Convoluzionali SFI

Lo strato convoluzionale SFI è progettato per elaborare audio lavorando con vari canali. Utilizza filtri analogici per adattarsi a diverse frequenze di campionamento. Quando l'audio viene inserito, il sistema elabora il segnale calcolando una cross-correlazione con pesi e poi riduce i dati a intervalli stabiliti. Tuttavia, se quegli intervalli non sono numeri interi, il sistema ha difficoltà.

Applicando l'interpolazione sinc finestrata, possiamo superare questi problemi con i passi non interi. L'interpolazione smussa i cambiamenti, permettendo al modello di funzionare senza essere impattato negativamente da valori non interi. Questo crea una transizione più fluida, assicurando risultati migliori in compiti come la separazione audio.

Lo Strato Convoluzionale Trasposto SFI

Simile allo strato convoluzionale, la versione trasposta è anch'essa modificata per usare il metodo di interpolazione sinc. Questo tipo di strato alternativo funziona inizialmente aggiungendo zero tra i valori di input prima di elaborare ulteriormente il segnale. Per i passi non interi, abbiamo di nuovo bisogno della versione continua del segnale in ingresso.

Trattando il segnale come se avesse un periodo di campionamento, possiamo raccogliere i punti dati necessari per l'elaborazione. La stessa tecnica di interpolazione si applica qui, permettendo una corretta gestione dei segnali audio senza perdere dettagli.

Sperimentazione con la Separazione delle Sorgenti Musicali

Per testare l'efficacia dei metodi che abbiamo proposto, abbiamo condotto esperimenti di separazione delle sorgenti musicali utilizzando un dataset ben noto. Questo dataset è composto da vari brani musicali che presentano strumenti diversi. Per i test, abbiamo addestrato i modelli utilizzando una combinazione di impostazioni e abbiamo usato misure come il Rapporto Segnale-Distorsione per valutare le performance.

Il nostro focus era sul confronto tra diversi metodi di gestione dei passi non interi. I metodi includevano semplice arrotondamento, ri-campionamento audio a una frequenza di campionamento compatibile e il nostro metodo proposto usando l'interpolazione sinc.

Risultati e Osservazioni

I risultati degli esperimenti hanno mostrato che i metodi proposti che usano l'interpolazione sinc hanno fornito performance coerenti e affidabili attraverso diverse frequenze di campionamento. Al contrario, il metodo di semplice arrotondamento ha portato a cali significativi nelle performance, specialmente a frequenze più basse.

Quando usavamo l'arrotondamento, abbiamo notato che la qualità di separazione diminuiva man mano che la frequenza di campionamento scendeva, evidenziando come questo metodo comprometta la qualità audio. I metodi di ri-campionamento hanno performato meglio rispetto al semplice arrotondamento ma non sono riusciti a eguagliare i risultati stabili ottenuti con i nostri algoritmi proposti.

Le nostre scoperte hanno anche indicato che alcuni tipi di strumenti, in particolare i suoni con tonalità, sono stati più colpiti dai passi non interi rispetto ai suoni senza tonalità come le batterie. Questa osservazione suggerisce che gestire la risoluzione temporale in modo coerente e chiaro è cruciale, specialmente nel trattare tipi di audio più complessi.

Conclusione

Abbiamo presentato nuovi algoritmi per strati SFI per gestire efficacemente i passi non interi nelle attività di elaborazione audio. Utilizzando l'interpolazione sinc finestrata, i nostri metodi colmano le lacune causate da frequenze di campionamento variabili, portando a performance costantemente migliori nella Separazione delle sorgenti audio rispetto ai metodi più vecchi.

I risultati dei nostri esperimenti sottolineano l'importanza di gestire queste sfide tecniche in modo da preservare la qualità audio e funzionare in vari contesti. Il nostro lavoro apre possibilità per sistemi di elaborazione audio più robusti che possono adattarsi a una gamma di condizioni senza perdere efficacia.

Questi progressi indicano una direzione promettente per future ricerche nell'elaborazione audio e nel deep learning, aprendo la strada a modelli che possono operare in modo più flessibile e preciso nelle applicazioni del mondo reale.

Fonte originale

Titolo: Algorithms of Sampling-Frequency-Independent Layers for Non-integer Strides

Estratto: In this paper, we propose algorithms for handling non-integer strides in sampling-frequency-independent (SFI) convolutional and transposed convolutional layers. The SFI layers have been developed for handling various sampling frequencies (SFs) by a single neural network. They are replaceable with their non-SFI counterparts and can be introduced into various network architectures. However, they could not handle some specific configurations when combined with non-SFI layers. For example, an SFI extension of Conv-TasNet, a standard audio source separation model, cannot handle some pairs of trained and target SFs because the strides of the SFI layers become non-integers. This problem cannot be solved by simple rounding or signal resampling, resulting in the significant performance degradation. To overcome this problem, we propose algorithms for handling non-integer strides by using windowed sinc interpolation. The proposed algorithms realize the continuous-time representations of features using the interpolation and enable us to sample instants with the desired stride. Experimental results on music source separation showed that the proposed algorithms outperformed the rounding- and signal-resampling-based methods at SFs lower than the trained SF.

Autori: Kanami Imamura, Tomohiko Nakamura, Norihiro Takamune, Kohei Yatabe, Hiroshi Saruwatari

Ultimo aggiornamento: 2023-06-19 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.10718

Fonte PDF: https://arxiv.org/pdf/2306.10718

Licenza: https://creativecommons.org/licenses/by-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili