Tracciamento Leggero di Oggetti Usando Trasformatori Efficaci
Un nuovo approccio per il tracciamento degli oggetti con un'architettura transformer efficiente per dispositivi a risorse limitate.
― 7 leggere min
Indice
Tracciare oggetti nei video è un compito importante nella visione artificiale. Significa identificare e seguire un oggetto specifico in una serie di fotogrammi. Ultimamente, i modelli chiamati trasformatori sono stati usati per migliorare le prestazioni dei sistemi di tracciamento. Tuttavia, i modelli tradizionali di trasformatori possono essere complessi e pesanti, rendendoli meno adatti per applicazioni leggere, come quelle che girano su smartphone o hardware limitato.
Questo articolo introduce un nuovo approccio al tracciamento degli oggetti usando una versione più leggera dei trasformatori. L’obiettivo è creare un sistema efficiente che possa funzionare rapidamente pur fornendo risultati di tracciamento precisi. Questo metodo combina i punti di forza di due tecniche: un meccanismo di attenzione separabile e attenzione mista. In questo modo, il sistema proposto mira a migliorare il processo di tracciamento senza richiedere una potenza di calcolo eccessiva.
Contesto
L'uso delle Reti Siamese (SN) è stato comune nel tracciamento visivo grazie alla loro semplicità e velocità. Una SN consiste in un backbone che cattura le caratteristiche del template target e delle aree di ricerca, un modulo di localizzazione per stimare la posizione del target, e talvolta un fusore di caratteristiche per modellare le relazioni tra le caratteristiche.
Negli ultimi anni, le SN hanno integrato metodi basati su trasformatori, che sono migliori nella gestione delle relazioni tra le caratteristiche. Questa integrazione semplifica l'architettura e migliora le prestazioni. Tuttavia, le esigenze computazionali dei trasformatori possono ridurre la loro efficacia su hardware meno potente, come le CPU.
Sono emersi tracker leggeri per risolvere questo problema. Utilizzano componenti efficienti per mantenere velocità elevate mentre performano bene. Tuttavia, spesso hanno difficoltà a sfruttare appieno i benefici che i trasformatori offrono, principalmente a causa dei loro alti costi computazionali. Pertanto, l'obiettivo qui è creare un sistema di tracciamento che possa utilizzare efficacemente i trasformatori rimanendo leggero.
Metodo Proposto
Il nuovo modello presentato qui utilizza un'architettura di trasformatori con attenzione separabile e mista specificamente progettata per il tracciamento degli oggetti leggero. Il backbone di questo sistema funziona combinando le caratteristiche di un template target e di una regione di ricerca, portando a una migliore rappresentazione delle caratteristiche.
L'architettura è divisa in due parti principali:
Backbone di Attenzione Mista Separabile
Questo backbone consiste in strati di trasformatori specializzati che facilitano la condivisione delle informazioni tra il template e le aree di ricerca. Il processo inizia utilizzando Reti Neurali Convoluzionali (CNN) per generare caratteristiche locali da entrambe le immagini. L'output di queste CNN viene combinato, permettendo una rappresentazione più integrata del target e dell'area circostante.
Invece di fare affidamento su strati di trasformatori standard, che possono essere pesanti, questo modello impiega blocchi di attenzione mista separabile. Questa tecnica riduce il carico computazionale eseguendo operazioni in modo da evitare pesanti calcoli matriciali. Il backbone quindi modella in modo efficiente sia le relazioni all'interno di ogni immagine che tra le due immagini.
Testa di Predizione con Auto-attenzione
Dopo il backbone, c'è una testa di predizione che si concentra su due compiti principali: riconoscere il target e stimare il bounding box che lo circonda. Questa testa utilizza sia strati convoluzionali che strati di trasformatori.
Le CNN catturano caratteristiche locali fondamentali per una classificazione precisa. Nel frattempo, gli strati di trasformatori gestiscono relazioni più ampie, rendendoli particolarmente utili in situazioni di movimento rapido o quando il target è nascosto. Combinando questi approcci, la testa di predizione migliora le prestazioni complessive del tracciamento senza aumentare significativamente i tempi di elaborazione.
Dettagli di Implementazione
Il metodo richiede un paio di immagini come input: una contenente il target e l'altra che mostra l'area in cui il tracker dovrebbe cercare il target. L'elaborazione efficiente è vitale, quindi il backbone utilizza blocchi specifici per ridurre la dimensione delle immagini di input mantenendo le caratteristiche essenziali.
Per il tracciamento, le caratteristiche di queste immagini vengono passate attraverso una serie di blocchi di trasformatori. I risultati di questi blocchi vengono calcolati per capire come gli oggetti nelle immagini si relazionano tra loro, in particolare come appare il target nell'area di ricerca rispetto al suo template originale.
Processo di Allenamento
Il modello viene addestrato su diversi set di dati video. Durante l'allenamento, vengono generate coppie di immagini sia dai set di addestramento che da quelli di validazione, garantendo una vasta varietà di scenari da cui il tracker può imparare. Tecniche di aumento dei dati come flipping e scaling vengono utilizzate per ampliare ulteriormente le opzioni di allenamento.
Il processo di allenamento prevede numerosi epoch, con aggiustamenti fatti ai tassi di apprendimento per garantire che il modello impari in modo efficace senza overfitting. I pesi del backbone vengono inizializzati utilizzando un modello preesistente per migliorare il processo di allenamento.
Valutazione delle Prestazioni
Per valutare le prestazioni del modello, viene testato su vari set di dati di riferimento. Questi set sono progettati per sfidare i sistemi di tracciamento, fornendo una visione completa di quanto bene il tracker possa funzionare in situazioni del mondo reale.
Metriche come la Sovrapposizione Media e il Tasso di Successo vengono utilizzate per misurare l'efficacia del tracker. Queste metriche valutano quanto accuratamente il tracker possa seguire l'oggetto e quanto bene possa prevedere la sua posizione attraverso i diversi fotogrammi.
Confronto con Altri Tracker
Il modello proposto viene confrontato con diversi altri tracker leggeri per determinarne l'efficacia. Risulta costantemente superiore a questi modelli su vari set di dati, dimostrando le sue capacità in diversi scenari.
Tracciamento in Diverse Condizioni
Il nuovo modello è stato testato sotto diverse condizioni che mettono alla prova il tracciamento, come movimento rapido, occlusione e bassa visibilità. In questi test, il tracker proposto ha mantenuto un alto livello di accuratezza e velocità, dimostrando la sua robustezza in situazioni difficili.
Efficienza Computazionale
Una delle caratteristiche distintive di questo tracker è la sua efficienza computazionale. L'uso di meccanismi di attenzione separabili consente di funzionare a velocità elevate sia su CPU che su GPU. Su una CPU, opera a una velocità in tempo reale di 37 fotogrammi al secondo (fps), il che è un miglioramento significativo rispetto ai modelli tradizionali. Su una GPU, la velocità supera i 158 fps.
Studio di Ablazione
Uno studio di ablazione aiuta a capire come diversi componenti del modello contribuiscano alle sue prestazioni. Cambiando sistematicamente parti del modello, i ricercatori possono determinare l'impatto di ciascun componente sull'efficacia complessiva.
Impatto dei Meccanismi di Attenzione
Lo studio mostra che il meccanismo di attenzione separabile migliora la velocità e l'accuratezza del tracker. Sostituirlo con un meccanismo di attenzione standard ha portato a una diminuzione delle prestazioni e a un aumento della latenza, evidenziando l'importanza di un design efficiente nei sistemi di tracciamento leggeri.
Tecniche di Fusione delle Caratteristiche
I risultati di varie tecniche di fusione delle caratteristiche confermano che l'approccio di attenzione mista è superiore agli altri. I metodi che non consentono interazione tra le caratteristiche del template e quelle di ricerca performano peggio rispetto a quelli che lo fanno.
Conclusione
In sintesi, questo articolo presenta un sistema di tracciamento leggero che sfrutta una nuova architettura di trasformatori con attenzione separabile e mista. I risultati mostrano che questo modello non solo raggiunge un'alta accuratezza nel tracciamento, ma lo fa in modo efficiente, rendendolo adatto all'uso in ambienti a risorse limitate come gli smartphone.
Lavori futuri si concentreranno su ulteriori miglioramenti del tracker incorporando tecniche aggiuntive e valutando le sue prestazioni in diverse impostazioni. L'obiettivo è creare un sistema di tracciamento ancora più robusto e versatile, in grado di gestire un'ampia gamma di condizioni e applicazioni.
Titolo: Separable Self and Mixed Attention Transformers for Efficient Object Tracking
Estratto: The deployment of transformers for visual object tracking has shown state-of-the-art results on several benchmarks. However, the transformer-based models are under-utilized for Siamese lightweight tracking due to the computational complexity of their attention blocks. This paper proposes an efficient self and mixed attention transformer-based architecture for lightweight tracking. The proposed backbone utilizes the separable mixed attention transformers to fuse the template and search regions during feature extraction to generate superior feature encoding. Our prediction head performs global contextual modeling of the encoded features by leveraging efficient self-attention blocks for robust target state estimation. With these contributions, the proposed lightweight tracker deploys a transformer-based backbone and head module concurrently for the first time. Our ablation study testifies to the effectiveness of the proposed combination of backbone and head modules. Simulations show that our Separable Self and Mixed Attention-based Tracker, SMAT, surpasses the performance of related lightweight trackers on GOT10k, TrackingNet, LaSOT, NfS30, UAV123, and AVisT datasets, while running at 37 fps on CPU, 158 fps on GPU, and having 3.8M parameters. For example, it significantly surpasses the closely related trackers E.T.Track and MixFormerV2-S on GOT10k-test by a margin of 7.9% and 5.8%, respectively, in the AO metric. The tracker code and model is available at https://github.com/goutamyg/SMAT
Autori: Goutam Yelluru Gopal, Maria A. Amer
Ultimo aggiornamento: 2023-09-07 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.03979
Fonte PDF: https://arxiv.org/pdf/2309.03979
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.