Tracciare oggetti piccoli: un nuovo approccio
HGT-Track combina telecamere visibili e termiche per un tracciamento efficace di oggetti piccoli.
Qingyu Xu, Longguang Wang, Weidong Sheng, Yingqian Wang, Chao Xiao, Chao Ma, Wei An
― 4 leggere min
Indice
Seguire oggetti piccoli, come quelli che si vedono nei video di droni o telecamere di sicurezza, non è facile. Immagina di dover trovare una macchinina in un parcheggio affollato, specialmente quando è una giornata buia e piovosa. In queste condizioni, molti metodi di tracciamento esistenti arrancano, soprattutto quando si basano su un solo tipo di telecamera, come una telecamera normale o una termica.
Questo articolo presenta un nuovo modo per seguire oggetti piccoli usando insieme due tipi di telecamere: visibile e termica. Chiamiamo il nostro metodo HGT-Track, che utilizza tecniche intelligenti per combinare i punti di forza di entrambi i tipi di telecamere.
Il Problema con il Tracciamento di Oggetti Piccoli
Il tracciamento di oggetti piccoli affronta molte sfide. Questi oggetti hanno caratteristiche deboli, rendendoli difficili da vedere. Quando usiamo solo una telecamera, spesso perdiamo dettagli critici. Ad esempio, se la visibilità è bassa, alcuni oggetti potrebbero non essere proprio visibili da una telecamera normale, ma potrebbero ancora essere ripresi da una termica.
Per di più, non ci sono abbastanza dataset che includono filmati di entrambi i tipi di telecamere con ID di oggetti marcati, rendendo difficile allenare e testare i sistemi di tracciamento in modo efficace. La mancanza di dati di qualità combinata con le piccole dimensioni degli oggetti crea una tempesta perfetta per le difficoltà di tracciamento.
La Soluzione: HGT-Track
HGT-Track offre una soluzione utilizzando due tipi di telecamere insieme. Integrando le informazioni sia dalle telecamere visibili che termiche, possiamo individuare oggetti piccoli in modo più affidabile.
Come Funziona HGT-Track
HGT-Track utilizza due componenti chiave:
-
Trasformatore di Grafi Eterogenei: Questo termine fancy si riferisce a un metodo per analizzare diversi tipi di dati (come ciò che vedono le nostre telecamere) e capire come si relazionano tra loro. Tratta oggetti e i loro ambienti circostanti come una rete, simile a una ragnatela, dove ogni incrocio (o nodo) rappresenta informazioni importanti.
-
Modulo di Rilettura (ReDet): A volte, le nostre telecamere perdono di vista un oggetto. Il modulo ReDet aiuta a ritrovare questi obiettivi mancanti dando un secondo sguardo usando l'altro tipo di telecamera. Pensa a questo come all'opinione di un amico quando non sei sicuro di aver visto ciò che pensavi.
Il Processo
HGT-Track elabora le immagini di entrambe le telecamere in diversi passaggi:
-
Raccolta Dati: Prima, vengono catturate immagini sia visibili che termiche.
-
Embedding: Il sistema converte queste immagini in un formato che può capire.
-
Costruzione del Grafo: Costruisce una rete che rappresenta gli oggetti rilevati e le loro relazioni.
-
Integrazione delle Informazioni: Il Trasformatore di Grafi Eterogenei prende il sopravvento, collegando diversi tipi di dati insieme per un quadro più chiaro.
-
Rilevamento e Tracciamento degli Oggetti: Con tutte queste informazioni, il nostro metodo può identificare e seguire oggetti piccoli mentre si spostano tra i frame.
-
Rilettura: Se un oggetto scompare, il sistema torna indietro e controlla di nuovo, cercandolo nei filmati dell'altra telecamera.
Testare il Nostro Metodo
Per vedere se HGT-Track funziona davvero, lo abbiamo messo alla prova usando un dataset appena creato chiamato VT-Tiny-MOT, composto da video con oggetti piccoli catturati da entrambe le telecamere visibili e termiche.
Caratteristiche del Dataset
Il dataset VT-Tiny-MOT include:
- 115 coppie di video (una per ogni tipo di telecamera).
- Un totale di 5208 istanze di obiettivi in vari scenari che includono navi, pedoni, auto e altro.
- Annotazioni dettagliate che evidenziano dove appare ogni oggetto nel filmato.
Risultati
Quando abbiamo confrontato il nostro metodo con altri, HGT-Track ha performato meglio nel tracciamento di oggetti piccoli in modo accurato, anche in condizioni difficili. È riuscito a tenere il passo nonostante ostacoli come bassa luminosità e occlusioni (quando gli oggetti si bloccano a vicenda).
Lavoro Correlato
Tracciamento Multi-Modale
Il tracciamento multi-modale significa utilizzare diversi tipi di fonti di dati (come diverse telecamere) per migliorare le prestazioni di tracciamento. Anche se molti metodi hanno esplorato l'uso di vari tipi di dati, la maggior parte si è concentrata su obiettivi singoli e non ha considerato le complessità del tracciamento di più oggetti piccoli.
Tracciamento di Oggetti Piccoli
Seguire oggetti piccoli, come in situazioni militari o monitoraggio della fauna selvatica, è sempre stato difficile. Molti ricercatori hanno provato varie tecniche, ma la mancanza di caratteristiche chiare porta spesso a incontrare scenari complicati che sono difficili da gestire per i metodi esistenti.
Conclusione
HGT-Track presenta un potente nuovo metodo per seguire oggetti piccoli sfruttando i punti di forza delle informazioni sia visibili che termiche. Il suo design innovativo del Trasformatore di Grafi Eterogenei e le capacità di rilettura aprono una nuova strada per un tracciamento efficace in ambienti difficili.
Non dobbiamo più strizzare gli occhi sui nostri schermi, sperando di vedere la sfuggente macchinina o uccellino. Ora abbiamo un sistema che ci aiuta a tenerli d'occhio, anche quando le cose si complicano!
Fonte originale
Titolo: Heterogeneous Graph Transformer for Multiple Tiny Object Tracking in RGB-T Videos
Estratto: Tracking multiple tiny objects is highly challenging due to their weak appearance and limited features. Existing multi-object tracking algorithms generally focus on single-modality scenes, and overlook the complementary characteristics of tiny objects captured by multiple remote sensors. To enhance tracking performance by integrating complementary information from multiple sources, we propose a novel framework called {HGT-Track (Heterogeneous Graph Transformer based Multi-Tiny-Object Tracking)}. Specifically, we first employ a Transformer-based encoder to embed images from different modalities. Subsequently, we utilize Heterogeneous Graph Transformer to aggregate spatial and temporal information from multiple modalities to generate detection and tracking features. Additionally, we introduce a target re-detection module (ReDet) to ensure tracklet continuity by maintaining consistency across different modalities. Furthermore, this paper introduces the first benchmark VT-Tiny-MOT (Visible-Thermal Tiny Multi-Object Tracking) for RGB-T fused multiple tiny object tracking. Extensive experiments are conducted on VT-Tiny-MOT, and the results have demonstrated the effectiveness of our method. Compared to other state-of-the-art methods, our method achieves better performance in terms of MOTA (Multiple-Object Tracking Accuracy) and ID-F1 score. The code and dataset will be made available at https://github.com/xuqingyu26/HGTMT.
Autori: Qingyu Xu, Longguang Wang, Weidong Sheng, Yingqian Wang, Chao Xiao, Chao Ma, Wei An
Ultimo aggiornamento: 2024-12-14 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2412.10861
Fonte PDF: https://arxiv.org/pdf/2412.10861
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.