Concentrati sull'aspetto nel tracciamento di più oggetti
Un nuovo metodo per il tracciamento e la segmentazione usando solo modelli di apparenza.
― 8 leggere min
Indice
Il tracciamento di più oggetti (MOT) e la Segmentazione (MOTS) sono compiti importanti nella visione artificiale. Aiutano a identificare e seguire più oggetti nei video. Questo è utile in settori come la videosorveglianza, le auto a guida autonoma e la comprensione delle scene nei video. Tradizionalmente, è stato usato un metodo conosciuto come tracking-by-detection per questi compiti. Tuttavia, questo approccio dipende fortemente da due componenti: il rilevamento degli oggetti e l'associazione tra i frame del video basata sul loro movimento e sull'aspetto.
Con i progressi nel deep learning, ci sono stati miglioramenti nel modo in cui gli oggetti vengono rilevati e riconosciuti. Tuttavia, molti metodi esistenti dipendono ancora dai dati di movimento insieme ai dati di aspetto per mantenere un alto livello di performance. La domanda chiave è se sia possibile raggiungere prestazioni elevate utilizzando solo modelli di rilevamento e aspetto forti senza la necessità di informazioni sul movimento.
Il nostro approccio
Questo lavoro propone un metodo che si concentra solo sull'uso di modelli di rilevamento e aspetto ad alte prestazioni per il tracciamento e la segmentazione di più oggetti. Utilizziamo un Modello di rilevamento specifico abbinato a un modello di aspetto auto-supervisionato. Il nostro approccio omette le informazioni sul movimento e si concentra esclusivamente sull'aspetto degli oggetti per il tracciamento. Questa strategia semplice ma efficace ha mostrato risultati promettenti in recenti competizioni.
Il nostro metodo enfatizza la semplicità. Non facendo affidamento sui dati di movimento, miriamo a ridurre la complessità coinvolta nel processo di tracciamento. Basiamo il nostro metodo su due componenti principali: un modello di rilevamento progettato per identificare gli oggetti e un modello di Apprendimento Auto-Supervisionato che migliora la qualità della rappresentazione dell'aspetto.
Abbiamo ottenuto risultati significativi in contesti competitivi. In un workshop recente, il nostro metodo ha conquistato il primo posto nella categoria MOTS e il secondo posto nella categoria MOT. Questo dimostra che concentrarsi sull'aspetto può portare a prestazioni competitive nei compiti di tracciamento e segmentazione degli oggetti.
Contesto
Il tracciamento di più oggetti (MOT) è un'area di ricerca attiva da molti anni. La maggior parte dei metodi contemporanei utilizza il tracking-by-detection, che combina il rilevamento degli oggetti con strategie di associazione basate sul movimento e sull'aspetto. Nel tempo, lo sviluppo di tecniche di deep learning ha contribuito a rapidi progressi nelle prestazioni di rilevamento.
Attualmente, molti metodi di tracciamento dipendono da sistemi di rilevamento ben noti, come YOLOX. Tuttavia, volevamo testare se una rete di rilevamento più avanzata potesse dare risultati migliori. Pertanto, abbiamo selezionato una rete focalizzata sulle prestazioni per convalidare la nostra ipotesi riguardo all'importanza del rilevatore.
In aggiunta al modello di rilevamento, le strategie di associazione utilizzate nel tracciamento sono cruciali. I metodi popolari includono quelli basati sul movimento, sull'aspetto o su una combinazione di entrambi. Il nostro approccio semplifica questo rimuovendo tutti i componenti legati al movimento e facendo affidamento esclusivamente su un modello di aspetto di alta qualità.
MOTS è un'estensione di MOT in cui l'obiettivo non è solo tracciare oggetti, ma anche determinare le loro forme utilizzando maschere. Molti metodi MOTS derivano da tracker MOT esistenti, che hanno fornito una base per il nostro lavoro. Abbiamo costruito su metodi tradizionali aggiungendo un'intestazione di maschera al nostro framework di tracciamento.
L'apprendimento auto-supervisionato ha fatto progressi negli ultimi anni, in particolare nella creazione di rappresentazioni utili senza la necessità di dati etichettati. Un metodo prominente è l'apprendimento contrastivo, che aiuta a imparare rappresentazioni comparabili a quelle ottenute attraverso l'apprendimento supervisionato in vari dataset.
Panoramica del framework
Abbiamo progettato il nostro framework attorno al modello tracking-by-detection. Per il compito MOT, il framework rileva box di delimitazione per gli oggetti in ogni frame video. In MOTS, abbiamo incluso una testa di segmentazione per generare maschere binarie corrispondenti a ciascun box rilevato. Abbiamo anche integrato un modello che estrae caratteristiche uniche da questi box di delimitazione.
Dopo che le caratteristiche sono state estratte, il nostro framework elabora l'associazione dei dati per abbinare le identità degli oggetti attraverso il flusso video. Questa associazione è fondamentale per mantenere le identità corrette degli oggetti, specialmente quando possono sovrapporsi o occludersi a vicenda nei frame.
Rilevamento e Segmentazione
Il nostro framework utilizza un'architettura specifica che combina due modelli in parallelo. Questa configurazione consente un'integrazione efficace di diversi livelli di caratteristiche, che migliora le prestazioni complessive del processo di rilevamento. Utilizziamo una testa di rilevamento che non solo prevede box di delimitazione, ma genera anche maschere binarie per gli oggetti tracciati.
Per migliorare il processo di addestramento, abbiamo impiegato una strategia di addestramento multi-step. Inizialmente, abbiamo addestrato il modello a rilevare box con un ampio set di dati etichettati. Dopo questo, abbiamo affinato il modello con un dataset etichettato sia per il rilevamento che per la segmentazione.
Inoltre, abbiamo affrontato problemi di sbilanciamento delle classi nei dati applicando una strategia di soppressione non massima multi-classe (NMS). Questo approccio aiuta a filtrare i box sovrapposti e a mantenere solo le rilevazioni più sicure.
ReID
ModuloPer il riconoscimento, il nostro framework include un componente ReID che si concentra sulla re-identificazione degli oggetti attraverso i frame. Questo componente estrae caratteristiche che rappresentano i box rilevati. Applichiamo pesi a queste caratteristiche in base al punteggio di rilevamento. Tenere traccia delle caratteristiche attraverso i frame ci consente di mantenere l'identità anche durante le occlusioni.
Abbiamo adottato un metodo specifico che categorizza i box di rilevamento in base ai loro punteggi di confidenza. I box con punteggi elevati vengono abbinati per primi con i tracklet esistenti, mentre i rilevamenti con punteggi più bassi seguono. L'associazione finale dei dati viene completata utilizzando un metodo ben noto che coinvolge l'algoritmo ungherese, garantendo che i migliori abbinamenti vengano effettuati tra i frame.
Dataset e Valutazione
Per i nostri esperimenti, abbiamo utilizzato un ampio dataset che contiene video di scene di guida. Questo dataset fornisce dati etichettati sia per i compiti MOT che per i MOTS. Include vari video per addestrare i modelli in modo efficace, consentendo al contempo test robusti.
Abbiamo impiegato diverse metriche per valutare le prestazioni del nostro metodo. Queste includono l'accuratezza media nel tracciare tutto, l'accuratezza nel tracciamento di più oggetti e l'accuratezza nel tracciamento di ordine superiore. Queste metriche aiutano a valutare l'efficacia del nostro modello nel rilevare e tracciare oggetti attraverso le sequenze video.
Dettagli di Implementazione
Nella nostra implementazione, ci siamo concentrati sull'ottimizzazione dell'addestramento del modello di rilevamento utilizzando un'architettura specifica. Abbiamo applicato varie tecniche di aumento dei dati durante l'addestramento per migliorare la capacità del modello di generalizzare. Questo ha incluso il ridimensionamento delle immagini e l'applicazione di inversioni casuali.
L'ottimizzatore utilizzato durante l'addestramento è stato AdamW, che ha consentito un apprendimento efficace con parametri ben tarati. Abbiamo addestrato il nostro modello su più GPU per velocizzare il processo e gestire il grande dataset in modo efficiente.
Per la testa di segmentazione, abbiamo avviato il modello sulla base di un rilevatore MOT esistente. Questo ci ha permesso di costruire su lavori precedenti anziché partire da zero. L'affinamento è stato eseguito utilizzando un dataset di segmentazione separato che forniva informazioni dettagliate sugli oggetti.
Il modello ReID ha anche subito un processo di tuning, in cui ha imparato a estrarre caratteristiche dalle immagini ritagliate degli oggetti in base alle etichette delle box di delimitazione. Questo modello di deep learning è stato impostato per riconoscere efficacemente gli oggetti attraverso frame variabili.
Configurazione dell'Addestramento
Per l'addestramento, abbiamo utilizzato hardware dedicato per sfruttare l'alta potenza di calcolo. Questo ha consentito iterazioni rapide e test di diverse configurazioni senza grandi ritardi. Ci siamo concentrati sull'ottenere un modello di alta qualità che funzioni bene su dati non visti, selezionando attentamente i parametri di addestramento e monitorando le metriche di performance durante tutto il processo.
Risultati principali
Dopo una valutazione approfondita sui dati di test, il nostro metodo ha dimostrato prestazioni impressionanti sia nelle categorie MOT che MOTS. I risultati hanno mostrato il nostro metodo come uno dei migliori nelle sfide recenti, dimostrando che un approccio più semplice può portare a risultati competitivi.
In particolare, abbiamo raggiunto punteggi notevoli su varie metriche, indicando che il nostro focus sull'aspetto rispetto al movimento ha portato a risultati di tracciamento e segmentazione riusciti. Le prestazioni hanno superato molti metodi standard esistenti, confermando l'efficacia della nostra strategia proposta.
Conclusione
In sintesi, il nostro lavoro evidenzia un approccio diretto ma efficace al tracciamento di più oggetti e alla segmentazione. Facendo affidamento esclusivamente su modelli di aspetto e omettendo i dati legati al movimento, abbiamo dimostrato che è possibile raggiungere prestazioni competitive in compiti reali.
I risultati della nostra implementazione riflettono un passo significativo avanti nella semplificazione del processo di tracciamento di più oggetti. Mentre continuiamo a costruire su questa base, speriamo di ispirare ulteriori ricerche che esplorino il potenziale dei metodi basati sull'aspetto nel campo della visione artificiale.
Il codice e il framework risultanti da questa ricerca saranno resi disponibili alla comunità, promuovendo collaborazione e innovazione nell'avanzamento delle tecniche di tracciamento e segmentazione.
Titolo: ReIDTrack: Multi-Object Track and Segmentation Without Motion
Estratto: In recent years, dominant Multi-object tracking (MOT) and segmentation (MOTS) methods mainly follow the tracking-by-detection paradigm. Transformer-based end-to-end (E2E) solutions bring some ideas to MOT and MOTS, but they cannot achieve a new state-of-the-art (SOTA) performance in major MOT and MOTS benchmarks. Detection and association are two main modules of the tracking-by-detection paradigm. Association techniques mainly depend on the combination of motion and appearance information. As deep learning has been recently developed, the performance of the detection and appearance model is rapidly improved. These trends made us consider whether we can achieve SOTA based on only high-performance detection and appearance model. Our paper mainly focuses on exploring this direction based on CBNetV2 with Swin-B as a detection model and MoCo-v2 as a self-supervised appearance model. Motion information and IoU mapping were removed during the association. Our method wins 1st place on the MOTS track and wins 2nd on the MOT track in the CVPR2023 WAD workshop. We hope our simple and effective method can give some insights to the MOT and MOTS research community. Source code will be released under this git repository
Autori: Kaer Huang, Bingchuan Sun, Feng Chen, Tao Zhang, Jun Xie, Jian Li, Christopher Walter Twombly, Zhepeng Wang
Ultimo aggiornamento: 2023-08-03 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.01622
Fonte PDF: https://arxiv.org/pdf/2308.01622
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.