Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Suono# Apprendimento automatico# Elaborazione dell'audio e del parlato

Innovazioni nell'annotazione e classificazione dei dati audio

Questo studio presenta un metodo veloce per l'etichettatura e la classificazione dei dati audio.

― 6 leggere min


Metodo Veloce diMetodo Veloce diAnnotazione Audioefficace con etichettatura minima.Introduzione alla classificazione audio
Indice

Negli ultimi anni, classificare i suoni è diventato importante. Questo è utile in vari campi come l'analisi musicale, il monitoraggio del rumore, lo studio dei versi degli animali e il miglioramento della voce. Tuttavia, ottenere grandi set di dati audio etichettati può essere difficile e costoso perché etichettare richiede tempo e soldi. Quindi, c'è bisogno di creare metodi affidabili per etichettare questi dataset audio.

Un modo per gestire i dati non etichettati è attraverso l'apprendimento semi-supervisionato. Alcuni studi si concentrano su questo metodo, mentre altri esplorano l'Apprendimento Attivo. L'apprendimento attivo ha dimostrato di fornire una migliore precisione di etichettatura. Questo approccio inizia con un piccolo numero di dati con etichette note per addestrare un modello. Poi, il modello prevede le etichette per i restanti dati non etichettati. Il modello seleziona i campioni incerti o difficili da prevedere per unirsi al set di addestramento. Questo ciclo continua finché tutti i campioni audio non sono etichettati.

Sono stati suggeriti vari metodi per classificare gli eventi sonori. Alcuni suggeriscono di usare reti neurali profonde, che possono avere bassa precisione se si adattano troppo o apprendono troppo bene da dati di addestramento limitati. Tuttavia, nella classificazione del suono, dove sono disponibili più campioni, l'overfitting potrebbe non essere una preoccupazione significativa. Al contrario, usare metodi di machine learning classici potrebbe essere più efficace quando i dati di addestramento sono limitati. Tuttavia, questi metodi classici possono avere difficoltà con dimensioni di input fisse.

Questo lavoro propone un approccio Consapevole del contesto per superare questi problemi. Un sistema consapevole del contesto tiene conto delle condizioni attuali per prendere decisioni. Per esempio, potrebbe regolare parametri e modelli in base alle sue performance.

Il Metodo Proposto

Preparazione dei Dati e Estrazione delle Caratteristiche

Immagina un dataset contenente segnali audio della durata di quattro secondi. Se ogni segnale audio ha numerosi campioni, usare tutti quei campioni come input diventa pesante in termini di risorse. Input lunghi possono portare a overfitting, rendendo il modello meno efficace. Invece, estraiamo caratteristiche specifiche dai segnali audio per formare un input più corto e gestibile.

Sono stati studiati diversi metodi di estrazione delle caratteristiche per la classificazione degli eventi sonori. In questo approccio consapevole del contesto, sono stati valutati vari metodi per trovare quello più efficace. Mentre alcuni metodi mostrano grande Accuratezza di classificazione, possono essere lenti. Un focus sulla velocità è stato fondamentale.

Un dataset impiegato si chiama UrbanSound8K, composto da classi di eventi audio urbani come clacson di auto e perforazioni. Ogni classe contiene molti campioni audio, e distinguere tra le diverse classi può essere difficile. Ri-sampling di questi segnali audio a una frequenza uniforme aiuta a creare un dataset coerente.

Sono state esaminate diverse caratteristiche, tra cui l'autocorrelazione locale della forza di inizio (Tempogram), lo spettrограмma scalato in Mel e molte altre. Per la prima volta, questo studio ha anche analizzato il Tempogram nella classificazione del suono ambientale.

La maggior parte dei metodi di estrazione delle caratteristiche prevede di suddividere il segnale audio in segmenti o finestre. Le caratteristiche estratte da questi segmenti sono chiamate caratteristiche statiche. Inoltre, le caratteristiche dinamiche mostrano come il segnale audio cambia nel tempo. Sono state impiegate varie tecniche, inclusi strumenti di visualizzazione e applicazioni di filtri, per garantire che il set di caratteristiche estratto rappresenti accuratamente i campioni audio evitando problemi di overfitting.

Selezione del Classificatore

Trovare il giusto classificatore è cruciale per distinguere i dati audio. La scelta iniziale delle caratteristiche può a volte mascherare il potenziale di classificazione dell'algoritmo scelto. Bisogna trovare un equilibrio tra selezione delle caratteristiche e capacità del classificatore.

Per visualizzare come i dati si distribuiscono tra le caratteristiche, è stata generata una trama t-SNE. Questa trama mostra che i dati audio non sono raggruppati in modo uniforme, rendendo difficile per classificatori semplici separare le classi. Metodi più avanzati, come l'apprendimento per ensemble usando più classificatori, potrebbero aiutare a ottenere risultati migliori.

Tra i vari classificatori testati, il classificatore XGBoost si è dimostrato efficace. Questa tecnica utilizza più classificatori binari per tracciare i confini decisionali tra le classi. Invece di usare un grande classificatore, vari più piccoli affrontano il compito di classificare i campioni audio.

Annotazione dei Dati

Per quanto riguarda l'annotazione dei dati audio, di solito si presume che solo una piccola parte sia etichettata dagli esseri umani. La soluzione proposta sfrutta un classificatore One-vs-All XGBoost per questa annotazione, concentrandosi sui campioni audio più promettenti.

Questo metodo di apprendimento attivo include fasi in cui vengono identificati campioni audio incerti per l'annotazione umana. L'idea è di etichettare prima i campioni più facili e difficili da prevedere per garantire alta accuratezza. Campioni casuali sono inclusi per mantenere un equilibrio nel dataset.

Classificazione dei Dati

È stata creata una rete neurale appositamente progettata per la classificazione audio. La rete contiene diversi strati convoluzionali e localmente connessi. Gli strati lavorano insieme per analizzare i dati audio ottimizzando il modello per velocità e accuratezza.

Diverse iperparametri come dimensioni dei kernel e conteggi dei filtri sono stati regolati utilizzando il dataset di validazione. Il design della rete neurale ha preferito la larghezza alla profondità, promuovendo un'elaborazione più rapida attraverso il calcolo parallelo.

Risultati dell'Implementazione

Per testare il metodo di annotazione consapevole del contesto proposto, è stato applicato al dataset UrbanSound8K con un budget limitato per l'etichettatura. I risultati hanno mostrato un'accuratezza notevole, che è stata un miglioramento rispetto ai metodi precedenti.

Per il compito di classificazione, è stato utilizzato un numero fisso di epoche di addestramento per raggiungere la massima accuratezza. Il metodo proposto ha raggiunto un'accuratezza di classificazione che supera qualsiasi lavoro precedente. Una misura aggiuntiva di qualità è stata ottenuta tramite una matrice di confusione, evidenziando le performance del metodo di classificazione.

L'apprendimento attivo ha ulteriormente migliorato l'accuratezza della classificazione, dimostrando che il metodo può raggiungere risultati affidabili con solo una piccola quantità di dati etichettati.

Conclusione

Questo documento ha introdotto un metodo per annotare e classificare rapidamente e accuratamente i segnali audio. Un design consapevole del contesto ha migliorato i livelli di accuratezza nelle attività di annotazione e classificazione. Il metodo ha utilizzato un vettore di caratteristiche compatto e un metodo di classificazione computazionalmente efficiente per ottenere un'annotazione rapida, etichettando numerosi campioni audio quasi in tempo reale.

Raggiungere un'alta accuratezza media di classificazione sottolinea l'efficacia di questo metodo. La tecnica di apprendimento attivo illustra anche come richiedere etichette su solo una parte del dataset possa portare a significativi miglioramenti in accuratezza.

Futuri lavori potrebbero coinvolgere il perfezionamento ulteriore di questo metodo, esplorare caratteristiche aggiuntive per l'estrazione e ampliare il dataset utilizzato nei test per convalidare ulteriormente l'efficienza e l'adattabilità di questo approccio.

Fonte originale

Titolo: Face: Fast, Accurate and Context-Aware Audio Annotation and Classification

Estratto: This paper presents a context-aware framework for feature selection and classification procedures to realize a fast and accurate audio event annotation and classification. The context-aware design starts with exploring feature extraction techniques to find an appropriate combination to select a set resulting in remarkable classification accuracy with minimal computational effort. The exploration for feature selection also embraces an investigation of audio Tempo representation, an advantageous feature extraction method missed by previous works in the environmental audio classification research scope. The proposed annotation method considers outlier, inlier, and hard-to-predict data samples to realize context-aware Active Learning, leading to the average accuracy of 90% when only 15% of data possess initial annotation. Our proposed algorithm for sound classification obtained average prediction accuracy of 98.05% on the UrbanSound8K dataset. The notebooks containing our source codes and implementation results are available at https://github.com/gitmehrdad/FACE.

Autori: M. Mehrdad Morsali, Hoda Mohammadzade, Saeed Bagheri Shouraki

Ultimo aggiornamento: 2023-03-07 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.03666

Fonte PDF: https://arxiv.org/pdf/2303.03666

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili