Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Avanzare nel tracciamento degli oggetti con immagini RGB e termiche

Un nuovo metodo migliora il tracciamento degli oggetti usando sia immagini RGB che termiche.

― 5 leggere min


Metodo di tracciamentoMetodo di tracciamentooggetti RGB-TIRusando tipi di immagini combinati.Nuovo metodo eccelle nel tracciamento
Indice

Tracciare oggetti nei video può essere tosto. Ci sono tanti problemi come oggetti che vengono bloccati, cambiamenti di luce e immagini sfocate che rendono difficile tenere traccia di qualcosa mentre si muove. I recenti miglioramenti nel deep learning stanno aiutando con queste sfide. Tuttavia, la maggior parte dei sistemi attuali usa solo immagini a colori normali (RGB) e non sfrutta quelle che mostrano il calore (termico infrarosso, TIR). Usare entrambi i tipi di immagini può dare più dettagli su un oggetto, specialmente in situazioni complicate.

Questo articolo parla di un nuovo metodo che combina immagini RGB e TIR per tracciare oggetti in modo più efficace. Il metodo proposto si compone di due parti principali: un Estrattore di Caratteristiche per raccogliere informazioni visive importanti e un Tracker per seguire l'oggetto.

Il Processo di Tracciamento

Il primo passo consiste nel raccogliere informazioni da entrambi i tipi di immagini. L'estrattore di caratteristiche estrae caratteristiche profonde dalle immagini RGB e TIR. Poi, il tracker usa queste caratteristiche per continuare a seguire l'oggetto, usando una struttura unica che si concentra su specifiche caratteristiche dell'oggetto.

Per migliorare il processo di tracciamento, lo studio sviluppa due idee principali: rami speciali per combinare le caratteristiche dei due tipi di immagini e un metodo per combinare efficacemente queste caratteristiche. L'obiettivo è migliorare come queste caratteristiche lavorano insieme, usando meno risorse e meno dati di addestramento.

La Sfida del Tracciamento RGBT

Tracciare oggetti che usano sia immagini RGB che termiche è complesso a causa delle differenze tra come appaiono queste immagini. I metodi tradizionali che cercano di combinarle in uno potrebbero non funzionare bene in condizioni difficili. Il nuovo approccio si concentra su come migliorare l'integrazione di queste immagini, usando un design più semplice che integra parti specializzate per i differenti attributi delle immagini.

Il metodo prevede l'uso di meccanismi di attenzione per capire quali parti delle immagini sono più importanti per seguire l'oggetto. Questo aiuta il modello a concentrarsi sulle aree chiave mentre ignora parti meno importanti, rendendolo migliore nel seguire l'oggetto.

La Struttura del Metodo Proposto

Il metodo di tracciamento proposto funziona in due fasi. Prima, ogni parte è addestrata separatamente, con le impostazioni iniziali che provengono da un modello già addestrato su un grande dataset di immagini. Dopo, tutte le parti vengono addestrate insieme per perfezionare come combinano le informazioni da entrambe le immagini RGB e termiche.

Durante il tracciamento, il sistema usa il primo fotogramma del video per trovare l'oggetto, raccoglie un insieme di posizioni potenziali intorno ad esso e usa quelle per prevedere dove si troverà l'oggetto nel fotogramma successivo. Il modello aggiorna continuamente le sue previsioni basandosi su ciò che vede in tempo reale.

Setup Sperimentale

Il nuovo metodo è stato testato usando una serie di dataset di tracciamento ampiamente riconosciuti. Uno dei principali dataset, RGBT234, contiene coppie di immagini RGB e termiche di alta qualità. Lo scopo di questi test era capire quanto bene funziona il nuovo metodo rispetto ad altri sistemi di tracciamento.

Un altro dataset, LasHeR, ha tanti esempi con coppie di video RGB e termici allineati. Questo dataset è cruciale per l'addestramento e il testing dei metodi di tracciamento perché presenta sfide reali che possono influenzare il tracciamento.

Metriche di Valutazione

Per valutare l'efficacia dei metodi di tracciamento, sono state usate due misure chiave: Tasso di Precisione (PR) e Tasso di Successo (SR). Il PR misura quanto la posizione prevista dell'oggetto sia vicina alla sua posizione reale, mentre l'SR guarda a quanto spesso il tracciamento rimane in target durante il video.

Risultati sul Dataset RGBT234

Il metodo ha ottenuto risultati impressionanti sul dataset RGBT234. Il punteggio di precisione era molto alto, mostrando che il tracker riusciva a seguire accuratamente l'oggetto in molte situazioni. Anche il tasso di successo indicava che il metodo ha avuto successo nel tracciare il target nella maggior parte dei casi attraverso le sequenze.

Un'analisi più approfondita delle prestazioni basate su diverse sfide ha evidenziato i punti di forza del nuovo metodo nella gestione del disordine sullo sfondo, dell'occlusione e del motion blur. Il metodo ha mostrato risultati solidi in ogni aspetto, superando diversi tracker esistenti.

In scenari dove c’era molto disturbo di sfondo, il nuovo metodo è riuscito a mantenere alti tassi di precisione e successo. Anche quando i target erano parzialmente bloccati da altri oggetti, il tracker ha continuato a funzionare bene.

Risultati sul Dataset LasHeR

Il metodo è stato anche testato sul dataset LasHeR. Anche se le prestazioni qui erano leggermente inferiori rispetto a RGBT234, ha comunque ottenuto i punteggi migliori rispetto ad altri metodi. Questo indica che il metodo proposto è robusto e può affrontare una varietà di sfide.

Il calo di prestazioni nel dataset LasHeR può essere attribuito alle difficoltà specifiche presenti in quei video. Nonostante ciò, il tracker ha dimostrato la sua capacità di continuare a seguire i target in diversi scenari con successo.

Conclusione

In sintesi, il nuovo metodo per tracciare oggetti che combina immagini RGB e termiche ha mostrato grande potenziale. Il metodo ha avuto successo nei test, dimostrando la sua capacità di mantenere un tracciamento accurato attraverso varie sfide.

Anche con il leggero calo di prestazioni in dataset più impegnativi come LasHeR, i risultati indicano comunque che il metodo è un forte concorrente tra i sistemi di tracciamento attuali. In generale, questo lavoro contribuisce con preziose intuizioni per migliorare la tecnologia di tracciamento e può aprire la strada a sistemi migliori in campi come veicoli autonomi, sicurezza e robotica.

Le scoperte qui aiuteranno a far avanzare le tecniche di tracciamento RGBT e suggeriranno nuove strade per future ricerche e sviluppi.

Fonte originale

Titolo: EANet: Enhanced Attribute-based RGBT Tracker Network

Estratto: Tracking objects can be a difficult task in computer vision, especially when faced with challenges such as occlusion, changes in lighting, and motion blur. Recent advances in deep learning have shown promise in challenging these conditions. However, most deep learning-based object trackers only use visible band (RGB) images. Thermal infrared electromagnetic waves (TIR) can provide additional information about an object, including its temperature, when faced with challenging conditions. We propose a deep learning-based image tracking approach that fuses RGB and thermal images (RGBT). The proposed model consists of two main components: a feature extractor and a tracker. The feature extractor encodes deep features from both the RGB and the TIR images. The tracker then uses these features to track the object using an enhanced attribute-based architecture. We propose a fusion of attribute-specific feature selection with an aggregation module. The proposed methods are evaluated on the RGBT234 \cite{LiCLiang2018} and LasHeR \cite{LiLasher2021} datasets, which are the most widely used RGBT object-tracking datasets in the literature. The results show that the proposed system outperforms state-of-the-art RGBT object trackers on these datasets, with a relatively smaller number of parameters.

Autori: Abbas Türkoğlu, Erdem Akagündüz

Ultimo aggiornamento: 2023-07-04 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2307.01893

Fonte PDF: https://arxiv.org/pdf/2307.01893

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili