Sviluppi nel riconoscimento delle parole chiave e nel tagging audio
Nuovi modelli migliorano l'efficienza degli assistenti vocali mobili.
― 6 leggere min
Indice
- L'importanza del Keyword Spotting e dell'Audio Tagging
- Lavori Precedenti nel Campo
- Introduzione ai Unified Transformers
- Vision Transformers
- Struttura del Modello Proposto
- Riduzione delle Patch e Meccanismi di Attenzione
- Addestramento e Valutazione
- Risultati e Confronti
- Velocità di Inferenza sui Dispositivi Mobili
- Risultati Importanti dagli Studi
- Conclusione
- Fonte originale
- Link di riferimento
Il keyword spotting (KWS) e il tag audio (AT) sono compiti importanti per gli assistenti vocali intelligenti, che rispondono a frasi specifiche o capiscono suoni nell'ambiente. Recentemente, è stato introdotto un sistema che combina sia KWS che AT. Questo sistema, chiamato UniKW-AT, consente ai dispositivi di riconoscere parole chiave e allo stesso tempo di classificare vari suoni.
Anche se questo sistema sembra promettente, l'uso reale di modelli del genere deve tenere conto di alcuni fattori pratici. Questi includono la grandezza del modello, quanto velocemente può elaborare le informazioni e l'efficienza generale, soprattutto per l'uso su dispositivi mobili. Per soddisfare queste esigenze, è stata sviluppata una nuova serie di modelli chiamati Unified Transformers (UiT).
Il migliore di questi nuovi modelli è stato testato con buoni risultati, ottenendo una precisione media (mAP) di 34.09 sul dataset Audioset e un'accuratezza del 97.76% sul dataset Google Speech Commands V1. Inoltre, questi modelli sono stati valutati su diverse piattaforme mobili, mostrando che possono elaborare informazioni da 2 a 6 volte più velocemente rispetto a un modello competitivo noto come MobileNetV2.
L'importanza del Keyword Spotting e dell'Audio Tagging
Il keyword spotting è fondamentale per gli assistenti vocali intelligenti. Quando un utente dice una parola o frase specifica, l'assistente diventa attivo e pronto a rispondere. Il Tagging audio, invece, consiste nell'identificare e etichettare suoni nelle registrazioni. Per esempio, potrebbe riconoscere il suono di un bambino che piange o di un cane che abbaia.
Combinare KWS e AT in un unico modello può migliorare le prestazioni. Questo approccio rende il sistema più capace di gestire il rumore senza perdere accuratezza nel Riconoscimento delle parole chiave. Tuttavia, affinché un modello del genere funzioni bene nella vita reale, deve essere abbastanza piccolo da girare su un dispositivo mobile e rispondere rapidamente ai comandi.
Lavori Precedenti nel Campo
Ricerche precedenti si sono concentrate sul miglioramento dei modelli KWS rendendoli più piccoli, più veloci e più accurati. Molti di questi sistemi utilizzano reti neurali convoluzionali (CNN) per l'elaborazione. Più recentemente, sono stati studiati modelli transformer per il loro potenziale in applicazioni sia KWS che AT.
La maggior parte dei lavori in AT ha cercato di spingere i limiti delle prestazioni su benchmark consolidati come l'Audioset, ma spesso trascura gli aspetti pratici dell'implementazione di questi modelli in situazioni reali.
Introduzione ai Unified Transformers
Questo nuovo lavoro presenta una gamma di modelli, noti come unified transformers (UiT), progettati per fornire velocità di elaborazione rapide mantenendo prestazioni sia nei compiti KWS che AT. I modelli UiT mirano a ridurre la dimensione e la complessità del sistema, rendendoli più adatti per l'implementazione su dispositivi mobili.
Il framework combina due tipi di dataset, uno per KWS e uno per AT, per creare un processo di addestramento senza soluzione di continuità. I modelli sono addestrati utilizzando un metodo che li aiuta a imparare in modo efficiente e robusto, sfruttando i punti di forza di entrambi i compiti.
Vision Transformers
I transformers sono stati utilizzati per la prima volta per compiti come la traduzione linguistica, ma sono stati adattati anche per l'elaborazione delle immagini e, più recentemente, per l'analisi audio. Il Vision Transformer (ViT) ha introdotto un nuovo modo di vedere le immagini, spezzandole in pezzi più piccoli chiamati patch. Questo rende più facile analizzare e elaborare anche gli spettrogrammi audio.
Nel framework UiT proposto, l'input audio è anch'esso suddiviso in patch, che vengono poi analizzate dai modelli transformer. Questo approccio consente un'elaborazione efficiente mantenendo la dimensione del modello gestibile.
Struttura del Modello Proposto
Il processo di addestramento coinvolge campioni sia dai dataset AT che KWS. Questi vengono ritagliati per adattarsi a una lunghezza specifica, e il modello impara a riconoscere i suoni e le parole chiave insieme. Utilizzando un modello pre-addestrato come riferimento, il sistema unificato può migliorare la sua accuratezza.
Ridurre il numero di patch utilizzate per l'analisi è una parte chiave del design del modello. Mentre mantenere alta la qualità per AT è importante, il modello si concentra anche sulla riduzione dei costi computazionali complessivi e dell'uso della memoria.
Riduzione delle Patch e Meccanismi di Attenzione
Lavorare con dati audio può essere dispendioso in termini di risorse. Pertanto, i modelli sono progettati per limitare il numero di patch che analizzano in un dato momento. Questo è cruciale per mantenere elevate velocità di elaborazione e ridurre al minimo l'uso della memoria.
Per migliorare ulteriormente l'efficienza, viene impiegata una tecnica chiamata attenzione bottleneck (BN-A). Questo aiuta a concentrare l'attenzione del modello sulle informazioni più importanti all'interno delle patch audio, semplificando il processo di analisi e accelerando le prestazioni complessive.
Addestramento e Valutazione
I modelli sono stati testati utilizzando dataset audio popolari, tra cui Google Speech Commands V1 e Audioset. La configurazione prevede di addestrare i modelli con clip audio di diverse lunghezze e complessità, garantendo che possano gestire le condizioni audio reali.
Durante la valutazione, i modelli hanno mostrato risultati solidi sia nei compiti KWS che AT, indicando la loro efficacia. Le metriche di prestazione includono misure di accuratezza e di quanto bene i modelli riescano a identificare diversi eventi audio.
Risultati e Confronti
Confrontando i nuovi modelli UiT con approcci precedenti, i risultati indicano un chiaro miglioramento sia nelle prestazioni che nell'efficienza. Ad esempio, il modello tradizionale TC-ResNet8 ha ottenuto buoni risultati per KWS ma ha faticato con AT. Al contrario, i modelli UiT hanno raggiunto risultati competitivi in entrambi i compiti, risultando anche più efficienti.
Il modello UiT-XS si distingue con un'accuratezza del 97.76% sul dataset dei comandi vocali e un forte punteggio mAP per il tagging audio. Questo riflette le sue capacità duali e l'efficacia nell'uso reale.
Velocità di Inferenza sui Dispositivi Mobili
La velocità è un fattore critico per le applicazioni mobili. I modelli UiT sono stati testati su varie piattaforme mobili, tra cui dispositivi di fascia alta e media. I risultati hanno mostrato che i nuovi modelli possono elaborare informazioni significativamente più velocemente rispetto ai sistemi precedenti, rendendoli più adatti per l'uso mobile.
Ad esempio, mentre i modelli precedenti avevano ritardi fino a 320 ms, i modelli UiT hanno reagito entro 160 ms, riflettendo un notevole miglioramento nella reattività.
Risultati Importanti dagli Studi
Ulteriori studi hanno esaminato gli effetti di diversi meccanismi di attenzione e funzioni di attivazione all'interno del modello. L'uso dell'approccio BN-A ha portato a un aumento di almeno il 20% nella velocità di inferenza senza compromettere le prestazioni.
In sintesi, mentre i modelli proposti potrebbero non superare sempre i metodi tradizionali in ogni aspetto, la loro velocità e ridotta complessità li rendono più applicabili per ambienti mobili.
Conclusione
Questo lavoro presenta un passo innovativo nei sistemi di keyword spotting e audio tagging ottimizzati per i dispositivi mobili. I modelli unificati transformers (UiT) offrono un efficace equilibrio tra prestazioni ed efficienza, rendendoli uno strumento prezioso per i futuri sviluppi negli assistenti vocali intelligenti.
Con la loro capacità di gestire entrambi i compiti simultaneamente e con maggiore velocità, questi modelli rappresentano un avanzamento pratico e promettente nel campo della tecnologia di analisi audio. Man mano che la domanda per i dispositivi smart continua a crescere, la necessità di sistemi efficienti e reattivi diventa sempre più importante, posizionando i modelli UiT come una soluzione leader.
Titolo: Unified Keyword Spotting and Audio Tagging on Mobile Devices with Transformers
Estratto: Keyword spotting (KWS) is a core human-machine-interaction front-end task for most modern intelligent assistants. Recently, a unified (UniKW-AT) framework has been proposed that adds additional capabilities in the form of audio tagging (AT) to a KWS model. However, previous work did not consider the real-world deployment of a UniKW-AT model, where factors such as model size and inference speed are more important than performance alone. This work introduces three mobile-device deployable models named Unified Transformers (UiT). Our best model achieves an mAP of 34.09 on Audioset, and an accuracy of 97.76 on the public Google Speech Commands V1 dataset. Further, we benchmark our proposed approaches on four mobile platforms, revealing that the proposed UiT models can achieve a speedup of 2 - 6 times against a competitive MobileNetV2.
Autori: Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Junbo Zhang, Yujun Wang
Ultimo aggiornamento: 2023-03-03 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.01812
Fonte PDF: https://arxiv.org/pdf/2303.01812
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.