Sviluppi nella localizzazione e rilevamento degli eventi sonori
Un nuovo sistema migliora la rilevazione dei suoni e la stima della distanza.
― 4 leggere min
Indice
La localizzazione e rilevazione di eventi sonori (SELD) è un compito importante nell'analisi audio. Si tratta di identificare da dove provengono i suoni e riconoscere quali siano. Con l'introduzione della stima della distanza del suono (SDE) in questo compito, i sistemi devono non solo trovare e identificare i suoni, ma anche stimare quanto sia lontana la sorgente del suono. Questo rende il compito più impegnativo. Anche se ci sono stati studi su SELD e SDE separatamente, ci sono meno lavori che combinano i due in un unico compito.
La Sfida
La DCASE 2024 Challenge si concentra su SELD con SDE. I partecipanti devono creare sistemi che riescano a rilevare i suoni, determinare la loro direzione e stimare la loro distanza dal dispositivo di registrazione. Questa sfida aggiunge complessità, rendendo fondamentale per gli sviluppatori esplorare nuovi metodi e tecnologie per migliorare i loro sistemi.
Approccio Proposto
Per migliorare le prestazioni in questo compito, è stato proposto un nuovo sistema per potenziare i modelli esistenti noti come ResNet-Conformers. Questo sistema include delle caratteristiche chiamate blocchi Squeeze-and-Excitation (SE), che permettono al modello di concentrarsi sulle caratteristiche sonore importanti. Questi blocchi introducono meccanismi di attenzione che aiutano il modello a capire quali parti dei dati sonori siano più rilevanti.
Il sistema utilizza anche caratteristiche avanzate chiamate Log-Spectrogram con Cue Spaziali Augmentati (SALSA). Queste caratteristiche sono progettate per rappresentare meglio i dati sonori rispetto ai metodi tradizionali, consentendo al sistema di gestire più suoni che si verificano contemporaneamente in modo più efficace.
Preparazione e Aumento dei Dati
I dati utilizzati per l'addestramento provengono da un dataset che include diverse registrazioni audio da vari ambienti. Per migliorare ulteriormente le prestazioni, vengono sintetizzati dati aggiuntivi utilizzando un metodo che genera nuove registrazioni sonore basate su quelle esistenti. Questo aiuta a creare un dataset più vario per l'addestramento.
Vengono anche applicate tecniche di aumento dei dati per ridurre il rischio di overfitting, che si verifica quando un modello impara troppo dai dati di addestramento e si comporta male su dati nuovi e non visti. Apportando varie modifiche alle registrazioni audio durante l'addestramento, il modello può imparare a generalizzare meglio e migliorare le sue prestazioni in diverse situazioni.
Architettura del Sistema
Il sistema proposto utilizza una combinazione di architetture ResNet-Conformer, che sono popolari nei compiti di rilevazione di eventi sonori. Queste architetture sono composte da diversi moduli che lavorano insieme per elaborare i dati sonori. L'aggiunta dei blocchi SE migliora la capacità del modello di apprendere dai dati audio.
In particolare, il sistema utilizza una struttura ResNet più profonda prima dei blocchi Conformer, permettendo al modello di catturare meglio informazioni sonore importanti. Vengono applicate diverse tipologie di operazioni di pooling, che aiutano il modello a mantenere dettagli chiave sui suoni analizzati.
Blocchi Squeeze-and-Excitation
I blocchi Squeeze-and-Excitation giocano un ruolo significativo nel migliorare le prestazioni del modello. Funzionano analizzando l'importanza delle diverse caratteristiche sonore, aiutando il modello a concentrarsi sulle informazioni più rilevanti. Ci sono varianti di questi blocchi, come i blocchi SE a livello di canale e spaziali, che insieme aiutano il sistema a comprendere meglio le relazioni tra le caratteristiche sonore sia nel tempo che nella frequenza.
Processo di Addestramento
Addestrare il modello implica suddividere le registrazioni audio in segmenti più piccoli e convertirli in caratteristiche SALSA. Il sistema viene addestrato per diversi epoch, durante i quali vengono apportati aggiustamenti a vari parametri per ottimizzare le prestazioni. La capacità del modello di stimare accuratamente le distanze viene anche migliorata attraverso una tecnica di scaling che aiuta a mantenere l'equilibrio durante l'addestramento.
Sperimentazione e Risultati
Nella valutazione del sistema proposto, vengono testate varie configurazioni per valutare i miglioramenti delle prestazioni. I risultati mostrano che l'aggiunta dei blocchi SE porta a miglioramenti significativi nella capacità del modello di rilevare suoni e stimare distanze. Diverse configurazioni del sistema rivelano che un posizionamento attento di questi blocchi può influenzare le prestazioni complessive.
Conclusione
Questo lavoro dimostra il potenziale di combinare architetture avanzate con meccanismi di attenzione per affrontare le sfide della localizzazione e rilevazione di eventi sonori con stima della distanza. Il sistema proposto rappresenta un passo avanti in quest'area, mostrando una maggiore accuratezza e prestazioni rispetto ai modelli di base. Gli studi futuri mireranno a perfezionare ulteriormente questi approcci ed esplorare caratteristiche aggiuntive che possono migliorare le prestazioni per i compiti SELD con SDE.
Titolo: Squeeze-and-Excite ResNet-Conformers for Sound Event Localization, Detection, and Distance Estimation for DCASE 2024 Challenge
Estratto: This technical report details our systems submitted for Task 3 of the DCASE 2024 Challenge: Audio and Audiovisual Sound Event Localization and Detection (SELD) with Source Distance Estimation (SDE). We address only the audio-only SELD with SDE (SELDDE) task in this report. We propose to improve the existing ResNet-Conformer architectures with Squeeze-and-Excitation blocks in order to introduce additional forms of channel- and spatial-wise attention. In order to improve SELD performance, we also utilize the Spatial Cue-Augmented Log-Spectrogram (SALSA) features over the commonly used log-mel spectra features for polyphonic SELD. We complement the existing Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23) dataset with the audio channel swapping technique and synthesize additional data using the SpatialScaper generator. We also perform distance scaling in order to prevent large distance errors from contributing more towards the loss function. Finally, we evaluate our approach on the evaluation subset of the STARSS23 dataset.
Autori: Jun Wei Yeow, Ee-Leng Tan, Jisheng Bai, Santi Peksi, Woon-Seng Gan
Ultimo aggiornamento: 2024-07-12 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.09021
Fonte PDF: https://arxiv.org/pdf/2407.09021
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.