Progressi nel tagging audio in tempo reale
I trasformatori audio in streaming migliorano la velocità e l'efficienza nei sistemi di tagging audio.
― 6 leggere min
Indice
L'annotazione audio è un processo che coinvolge l'assegnazione di etichette specifiche ai clip audio in base al loro contenuto. Questo può includere suoni come il abbaiare di un cane o una persona che parla. Questi sistemi possono essere molto utili in vari contesti, come aiutare le persone con disabilità uditive, migliorare le tecnologie per le case intelligenti e monitorare suoni in ambienti diversi. Recentemente, l'annotazione audio è diventata rilevante anche in dispositivi come smartphone e altoparlanti intelligenti.
Per ottenere ottimi risultati nell'annotazione audio, modelli avanzati chiamati trasformatori sono diventati popolari. Originariamente progettati per l'elaborazione del linguaggio, i trasformatori si sono adattati per lavorare con i dati audio, specificamente utilizzando un metodo noto come Vision Transformer (ViT). Il ViT prende i segnali audio e li elabora in modo tale da facilitare al modello la comprensione del contenuto. Tuttavia, l'uso dei trasformatori per l'annotazione audio presenta delle sfide, tra cui un alto consumo di memoria e tempi di risposta lenti, rendendoli meno pratici per Applicazioni in tempo reale.
La sfida del ritardo
Un grosso problema con i sistemi tradizionali di annotazione audio è il loro ritardo. Molti sistemi elaborano audio in blocchi di 10 secondi o più, il che porta a un tempo di risposta di almeno quel tempo. Questo non è adatto per applicazioni reali dove sono necessarie risposte rapide. Idealmente, per un'annotazione audio efficace in scenari in tempo reale, il sistema dovrebbe avere un ritardo di solo 1 o 2 secondi.
Il ritardo si riferisce alla quantità di dati audio che un modello deve elaborare prima di poter generare un output. In molti casi, questo significa che il modello deve attendere l'intero blocco audio prima di poter iniziare a identificare i suoni, il che è inefficiente.
Introduzione dei Trasformatori Audio in Streaming
Per affrontare queste sfide, si propone un nuovo approccio chiamato trasformatori audio in streaming (SAT). I modelli SAT combinano l'architettura ViT con tecniche che consentono di elaborare i dati audio in blocchi più piccoli. In questo modo, questi modelli possono gestire segnali audio più lunghi senza il lungo ritardo associato ai metodi tradizionali.
I modelli SAT sono progettati specificamente per brevi Ritardi, permettendo loro di fornire risultati più rapidi consumando meno memoria. Rispetto ad altri modelli di trasformatori all'avanguardia, queste nuove varianti SAT mostrano miglioramenti significativi in termini di prestazioni ed efficienza.
L'importanza della memoria e della velocità
Per un modello di annotazione audio funzionare efficacemente in scenari in tempo reale, deve soddisfare determinati requisiti. Dovrebbe avere un ritardo minimo nella produzione dei risultati, mantenere un'impronta di memoria ridotta per funzionare in modo efficiente e garantire prestazioni affidabili nel tempo. Molti modelli precedenti si sono concentrati solo su uno o due di questi aspetti, ma i SAT mirano a affrontare tutti e tre contemporaneamente.
Le architetture tradizionali dei trasformatori tendono a lottare con i requisiti di memoria perché devono elaborare grandi quantità di dati tutto in una volta. Questo porta a un alto consumo di memoria, che può essere un problema significativo nelle applicazioni in tempo reale. Un modello SAT, tuttavia, può sfruttare risultati precedenti e accedere a una quantità minore di dati alla volta, riducendo le richieste di elaborazione e semplificando le prestazioni complessive.
Addestramento dei modelli
L'addestramento dei modelli SAT segue una serie di passaggi chiave. Inizialmente, i modelli vengono pre-addestrati utilizzando un metodo chiamato autoencoder mascherati, che aiuta a stabilire una solida base per le loro capacità. Dopo questa fase di pre-addestramento, i modelli sono sottoposti a un affinamento in cui imparano a etichettare clip audio in un contesto audio completo (come 10 secondi). Infine, vengono adattati per prevedere etichette sulla base di intervalli di tempo più brevi, allineandosi con i tempi di risposta rapidi desiderati.
Durante questo processo di addestramento, il modello impara da un grande dataset che include milioni di campioni di vari clip audio. L'addestramento enfatizza l'equilibrio tra velocità e utilizzo della memoria piuttosto che concentrarsi puramente sul raggiungimento dei metriche di prestazione più elevate.
Confronto delle prestazioni
In scenari pratici, le prestazioni dei modelli SAT possono essere valutate rispetto ai modelli tradizionali che operano con ritardi più lunghi. Quando testati, i modelli SAT hanno dimostrato prestazioni migliori nell'identificare eventi sonori in un intervallo di tempo più breve, utilizzando significativamente meno memoria. Questo è evidente confrontando le velocità e i requisiti di memoria dei modelli SAT, che sono notevolmente inferiori rispetto a quelli dei loro equivalenti a pieno contesto.
Per esempio, mentre modelli tradizionali come AST e BEATs performano bene con clip audio più lunghi, si fermano quando il periodo di valutazione si accorcia. Al contrario, i modelli SAT riescono a mantenere prestazioni relativamente elevate anche quando devono rispondere entro soli 2 secondi.
Valutazione a livello di segmento
Per supportare ulteriormente l'efficacia dei modelli SAT, sono state condotte valutazioni utilizzando segmenti audio etichettati. Queste valutazioni aiutano a determinare quanto bene i modelli possono prevedere categorie sonore in base a blocchi audio più brevi, che è cruciale per applicazioni in tempo reale. L'approccio SAT ha costantemente superato altri modelli di trasformatori in questi test, dimostrando la sua capacità di lavorare efficacemente in contesti reali.
I risultati indicano che quando i modelli SAT sono stati testati con segmenti audio di soli 2 secondi o addirittura 1 secondo, hanno comunque identificato eventi sonori in modo accurato ed efficiente. Al contrario, molti modelli tradizionali hanno faticato con segmenti così brevi, sottolineando l'importanza di progettare modelli che possano adattarsi ai requisiti in tempo reale.
Rilevamento continuo dei suoni
Un'applicazione utile per i modelli SAT è nel rilevamento continuo di eventi sonori prolungati. Mentre molti modelli tradizionali di annotazione audio sono adattati per finestre temporali specifiche, i modelli SAT possono monitorare efficacemente flussi audio in corso. Questa capacità di riconoscere suoni su intervalli più lunghi è critica per varie applicazioni, come il monitoraggio di allarmi o l'identificazione di attività insolite in ambienti.
Nonostante le sfide nel trovare dataset che imitano i flussi audio reali, i ricercatori hanno effettuato confronti utilizzando esempi audio raccolti. Queste valutazioni hanno confermato che i modelli SAT possono identificare con precisione suoni di lunga durata, come l'acqua che scorre, con significativa fiducia e accuratezza.
Conclusione
In conclusione, i trasformatori audio in streaming (SAT) rappresentano un passo significativo in avanti nella tecnologia di annotazione audio. Questi modelli possono funzionare efficacemente in scenari in tempo reale, affrontando le sfide critiche di velocità e utilizzo della memoria che storicamente hanno afflitto i sistemi di annotazione audio. Migliorando la compatibilità con varie attività audio mentre garantiscono prestazioni affidabili, i modelli SAT aprono la strada a applicazioni più pratiche nella vita quotidiana.
Con i progressi nell'annotazione audio che continuano, l'integrazione dei SAT in contesti reali promette di migliorare la comunicazione, fornire assistenza a chi ne ha bisogno e monitorare gli ambienti in modo più efficace. Lo sviluppo continuo e l'ottimizzazione di modelli come i SAT giocheranno un ruolo fondamentale nel plasmare i futuri sistemi di annotazione audio.
Titolo: Streaming Audio Transformers for Online Audio Tagging
Estratto: Transformers have emerged as a prominent model framework for audio tagging (AT), boasting state-of-the-art (SOTA) performance on the widely-used Audioset dataset. However, their impressive performance often comes at the cost of high memory usage, slow inference speed, and considerable model delay, rendering them impractical for real-world AT applications. In this study, we introduce streaming audio transformers (SAT) that combine the vision transformer (ViT) architecture with Transformer-Xl-like chunk processing, enabling efficient processing of long-range audio signals. Our proposed SAT is benchmarked against other transformer-based SOTA methods, achieving significant improvements in terms of mean average precision (mAP) at a delay of 2s and 1s, while also exhibiting significantly lower memory usage and computational overhead. Checkpoints are publicly available https://github.com/RicherMans/SAT.
Autori: Heinrich Dinkel, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang, Bin Wang
Ultimo aggiornamento: 2024-06-10 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.17834
Fonte PDF: https://arxiv.org/pdf/2305.17834
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/RicherMans/SAT
- https://msranlcmtteamdrive.blob.core.windows.net/share/BEATs/BEATs_iter1_finetuned_on_AS2M_cpt2.pt?sv=2020-08-04&st=2022-12-18T10%3A37%3A23Z&se=3022-12-19T10%3A37%3A00Z&sr=b&sp=r&sig=8EXUc69cBaUFCe1LhUIVbf6P0w%2Bcew%2FqePV6kM4wBkY%3D
- https://drive.google.com/drive/folders/1cZhMO7qLXTeifXVPP7PdM1NRYCG5cx28
- https://www.dropbox.com/s/cv4knew8mvbrnvq/audioset_0.4593.pth?dl=1