Migliorare il tagging audio con il framework CED
Un nuovo metodo migliora le prestazioni e l'efficienza del tagging audio.
― 5 leggere min
Indice
L'audio tagging è il processo di identificare suoni e classificarli in categorie specifiche, come riconoscere un neonato che piange o il rumore dell'acqua che scorre. Questa tecnologia è utile in vari campi, come aiutare le persone con difficoltà uditive o monitorare suoni per diversi scopi. Migliorare le performance dei sistemi di audio tagging mantenendo le loro dimensioni ridotte è fondamentale per un uso pratico.
Tecniche Usate nell'Audio Tagging
Per migliorare le performance e ridurre le dimensioni dei modelli di audio tagging, si usano due metodi comuni: l'augmentazione dei dati e la Distillazione della Conoscenza. L'augmentazione dei dati consiste nel creare variazioni dei campioni audio per aiutare il modello a imparare meglio. La distillazione della conoscenza, invece, è un metodo in cui un modello più piccolo impara da uno più grande. Il modello più grande, chiamato insegnante, genera etichette morbide o previsioni dalle quali il modello più piccolo, conosciuto come studente, impara.
Studi recenti suggeriscono che potrebbe essere meglio addestrare il modello più piccolo usando solo queste etichette morbide invece di combinarle con le etichette dure originali che indicano la vera classe. Inoltre, combinare questi metodi potrebbe migliorare ulteriormente i risultati. Tuttavia, prima di questo studio, nessuno aveva applicato questo approccio all'audio tagging.
La Necessità di Insegnamenti Coerenti
Una sfida nell'usare insieme entrambe le tecniche è garantire dati coerenti durante l'addestramento. Se il Modello Studente viene addestrato con augmentazioni di dati diverse rispetto al modello insegnante, potrebbe portare a prestazioni scarse. Esistono vari approcci per applicare la distillazione della conoscenza, comprese le metodologie online e offline.
La distillazione della conoscenza online prevede l'invio di ogni campione audio attraverso entrambi i modelli, insegnante e studente, durante l'addestramento. Questo può rallentare il processo perché il modello insegnante è solitamente più grande e complesso. La distillazione della conoscenza offline, invece, memorizza le previsioni dell'insegnante e i campioni aumentati su disco, ma gestire il grande spazio di archiviazione può essere un problema.
Il Framework CED
Questo studio presenta un nuovo framework chiamato Consistent Ensemble Distillation (CED) che si propone di affrontare queste sfide. CED consente di memorizzare solo le informazioni necessarie dal modello insegnante, specificamente i logit o le previsioni, insieme ai dettagli sulle augmentazioni dei dati utilizzate. Questo design rende CED scalabile per grandi set di dati.
Un aspetto unico di CED è che non richiede etichette dure per il suo addestramento. Usa principalmente i logit memorizzati, il che fa risparmiare un sacco di spazio di archiviazione, permettendo di gestire efficientemente grandi set di dati come Audioset (AS). Il metodo è stato testato con vari modelli basati su transformer, ottenendo prestazioni notevoli.
Come Funziona il Framework CED
In CED, il primo passo consiste nell'aumentare ogni campione audio usando diverse tecniche a due livelli: livello onda e livello spettrogramma. Dopo aver creato queste variazioni, si utilizza un modello insegnante per prevedere punteggi per i campioni aumentati. Invece di salvare tutti i dati aumentati, CED memorizza solo il seme che ha generato l'augmentazione e i punteggi migliori.
Questo approccio aiuta a gestire i requisiti di archiviazione, poiché solo una piccola quantità di dati viene salvata ogni volta. Ad esempio, ogni logit memorizzato occupa pochissimo spazio rispetto al salvataggio dell'intero set di campioni audio. Ciò significa che CED può operare efficacemente anche con grandi set di dati, portando a un processo di addestramento più efficiente.
Addestramento e Valutazione
I modelli testati in questo studio impiegano una gamma di architetture transformer. Il processo di addestramento prevede l'uso del framework CED per estrarre caratteristiche e migliorare le loro performance. In particolare, ogni modello è addestrato usando un numero specifico di epoche e impiega una dimensione di batch specifica per ottimizzare l'apprendimento.
Gli autori conducono esperimenti su due sottogruppi dei dati di Audioset per valutare l'efficacia del framework CED. Il sottogruppo più piccolo, AS-20K, aiuta ad analizzare gli effetti immediati del metodo, mentre il più grande AS-2M consente di confrontare i risultati finali con studi precedenti.
Risultati del Framework CED
Gli esperimenti mostrano che il framework CED migliora significativamente le performance di audio tagging. Ad esempio, il modello Mini ha ottenuto una media di precisione di 49.0, superiore a molti modelli precedenti pur utilizzando molti meno parametri. Questo significa che il metodo CED non solo migliora i risultati, ma lo fa in modo efficiente riguardo alle risorse richieste.
Lo studio evidenzia anche l'importanza di un'augmentazione dei dati coerente tra i modelli insegnante e studente. Quando entrambi i modelli usano le stesse tecniche di augmentazione, le performance migliorano notevolmente. I risultati indicano che utilizzare CED con insegnamenti coerenti porta a progressi sostanziali nelle performance, mostrando guadagni di 5-7 punti nella media di precisione.
Trasferibilità delle Caratteristiche Addestrate con CED
Un altro aspetto interessante dello studio è se le caratteristiche apprese dai modelli addestrati con CED siano utili per altri compiti. Sono stati condotti test per vedere se questi modelli potessero esibirsi bene in compiti di rilevamento di eventi sonori e classificazione di scene acustiche, che sono diversi dall'audio tagging.
I risultati di questi test indicano che i modelli addestrati con CED hanno effettivamente dato buone performance in questi compiti di classificazione audio diversi, mostrando la versatilità dell'approccio. Sono stati in grado di competere efficacemente contro altri metodi che si concentravano anche su sfide legate all'audio.
Conclusione
Il framework CED offre una soluzione pratica per migliorare i modelli di audio tagging mantenendoli efficienti. Concentrandosi su una gestione coerente dei dati e massimizzando l'uso dello spazio di archiviazione, CED permette alte performance senza sovraccaricare i requisiti di risorse.
Questo studio dimostra che CED può distillare efficacemente modelli singoli da ensemble più grandi senza compromettere la qualità. I significativi miglioramenti delle performance ottenuti con il modello Mini evidenziano che questo approccio può aiutare i futuri sviluppi nell'audio tagging e aree simili. CED apre anche la strada per la sua applicazione in altri tipi di reti neurali, rendendolo un approccio flessibile per addestrare vari modelli nel machine learning.
Titolo: CED: Consistent ensemble distillation for audio tagging
Estratto: Augmentation and knowledge distillation (KD) are well-established techniques employed in audio classification tasks, aimed at enhancing performance and reducing model sizes on the widely recognized Audioset (AS) benchmark. Although both techniques are effective individually, their combined use, called consistent teaching, hasn't been explored before. This paper proposes CED, a simple training framework that distils student models from large teacher ensembles with consistent teaching. To achieve this, CED efficiently stores logits as well as the augmentation methods on disk, making it scalable to large-scale datasets. Central to CED's efficacy is its label-free nature, meaning that only the stored logits are used for the optimization of a student model only requiring 0.3\% additional disk space for AS. The study trains various transformer-based models, including a 10M parameter model achieving a 49.0 mean average precision (mAP) on AS. Pretrained models and code are available at https://github.com/RicherMans/CED.
Autori: Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Junbo Zhang, Yujun Wang
Ultimo aggiornamento: 2023-09-07 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.11957
Fonte PDF: https://arxiv.org/pdf/2308.11957
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.