Avanzamenti nel tracking multi-oggetto con Co-MOT
Co-MOT migliora l'accuratezza e l'efficienza del tracciamento usando tecniche innovative.
― 5 leggere min
Indice
Il tracciamento multi-oggetto è un processo dove un sistema tiene traccia di più oggetti mentre si muovono in una scena, come persone che ballano o auto su una strada. Tradizionalmente, questo tracciamento è stato suddiviso in due compiti principali: rilevare gli oggetti e poi collegarli tra i frame in un video. Questi metodi hanno funzionato bene ma hanno dei limiti, come dipendere molto dalla precisione del rilevamento.
Recentemente, sono emersi nuovi approcci che gestiscono il tracciamento in modo più integrato. Invece di trattare il rilevamento e il tracciamento come compiti separati, i metodi end-to-end puntano a fare entrambe le cose contemporaneamente. Usano tecniche avanzate, in particolare quelle basate su Transformers, per migliorare l'efficienza e la precisione del tracciamento. Tuttavia, nonostante le promesse, questi metodi non hanno ancora raggiunto il livello dei metodi tradizionali.
Uno dei problemi principali con il tracciamento end-to-end è come assegnano le etichette durante l'addestramento. Tipicamente, quando si addestra un modello, il sistema abbina gli oggetti tracciati con le query di tracciamento e assegna gli oggetti appena nati (quelli che appaiono nella scena) alle query di rilevamento. Sfortunatamente, questo metodo può portare a una situazione sbilanciata dove non ci sono abbastanza esempi positivi per le query di rilevamento. Questo è particolarmente problematico in scene dove la maggior parte dei nuovi oggetti appare all'inizio di un video. Di conseguenza, a volte i metodi di tracciamento end-to-end possono finire il tracciamento senza aggiornare i loro obiettivi.
Per affrontare questo problema, è stato proposto un nuovo metodo chiamato Co-MOT. Questo metodo mira a migliorare il tracciamento end-to-end introducendo un nuovo modo di assegnare etichette durante l'addestramento, chiamato assegnazione di etichette in coopetizione. Questo metodo consente agli oggetti tracciati di assistere le query di rilevamento, rendendo il processo di tracciamento più robusto. In sostanza, permette al sistema di usare oggetti tracciati in precedenza per aiutare a identificare quelli nuovi, creando un approccio di addestramento più bilanciato.
In aggiunta a questo, Co-MOT utilizza un concetto noto come set ombra. Questi sono set di query che lavorano insieme, fornendo supporto reciproco quando si tracciano oggetti. Generando più query per lo stesso obiettivo, il sistema diventa meno sensibile a errori o fluttuazioni nel tracciamento, migliorando così la precisione complessiva. In situazioni affollate dove gli oggetti potrebbero sovrapporsi o apparire e scomparire, queste query ombra possono aiutare a mantenere la continuità del tracciamento.
Il sistema Co-MOT ha mostrato guadagni di prestazioni notevoli in vari benchmark di tracciamento. Ad esempio, ha raggiunto un punteggio alto nel dataset DanceTrack, che si concentra sul tracciamento dei ballerini. Questo dataset è particolarmente impegnativo a causa dei movimenti rapidi e delle apparenze simili delle persone. Co-MOT ha superato i metodi di tracciamento tradizionali con un margine significativo, il che indica la sua efficacia in questi scenari complessi.
Un altro dataset usato per testare le prestazioni di Co-MOT è BDD100K, progettato per capire scene di guida autonoma. Questo dataset presenta le sue difficoltà, come il traffico intenso e le condizioni che cambiano rapidamente. Anche qui, Co-MOT ha mostrato buone prestazioni, in particolare nella precisione del tracciamento, evidenziando la sua versatilità in ambienti diversi.
Il confronto tra Co-MOT e altri metodi mostra vantaggi chiari. Ad esempio, i metodi di tracciamento tradizionali spesso richiedono noiosi aggiustamenti dei parametri, mentre Co-MOT automatizza questo processo. Il suo design consente di apprendere direttamente dai dati e ottimizzare l'intero pipeline, rendendo il tracciamento più efficiente.
Inoltre, quando esaminato rispetto ad altri metodi end-to-end, Co-MOT si distingue. Ha ottenuto risultati impressionanti senza la necessità di un rilevatore extra, che è spesso un requisito in altri modelli. L'assenza di ulteriori oneri computazionali rende Co-MOT più adatto per applicazioni del mondo reale dove velocità ed efficienza sono cruciali.
Un aspetto essenziale del metodo Co-MOT è come gestisce l'addestramento delle query. I metodi tradizionali usavano spesso un approccio di abbinamento uno a uno, che poteva portare a una scarsità di campioni positivi per addestrare la parte di rilevamento. Co-MOT affronta questo problema usando una strategia di abbinamento uno a set, dove ogni query in un set supporta le altre. Questo approccio collaborativo migliora la capacità del modello di imparare dai propri errori e potenzia le sue prestazioni di tracciamento.
Durante la fase di sperimentazione, sono stati esplorati vari metodi per inizializzare queste query ombra. Sono state provate diverse strategie per vedere quali fornivano i migliori risultati in termini di convergenza e prestazioni complessive. È stato scoperto che avere una certa coerenza iniziale tra le query aiutava ad accelerare l'apprendimento e migliorava il successo del tracciamento.
Un altro punto chiave emerso dallo studio è che Co-MOT non solo funziona bene in termini di precisione del tracciamento ma anche in modo efficiente. Il sistema ha dimostrato di essere più veloce di altri metodi simili mantenendo prestazioni competitive nel tracciamento. Questa gestione efficiente delle risorse facilita il suo utilizzo in applicazioni pratiche, come sorveglianza o guida autonoma.
In conclusione, Co-MOT rappresenta un avanzamento significativo nel campo del tracciamento multi-oggetto. Integrando il rilevamento e il tracciamento in modo più efficace e utilizzando tecniche innovative come l'assegnazione di etichette in coopetizione e i set ombra, affronta con successo diverse sfide dei metodi tradizionali. Le sue prestazioni su vari dataset mostrano il suo potenziale per un uso diffuso in applicazioni in tempo reale.
Con l'evoluzione della tecnologia, la necessità di sistemi di tracciamento efficienti e precisi crescerà solo. Metodi come Co-MOT stanno aprendo la strada a prestazioni migliorate in ambienti dove più oggetti devono essere monitorati simultaneamente. Questo progresso non solo evidenzia gli sviluppi in corso nel campo della visione computerizzata, ma sottolinea anche l'importanza di affinare le metodologie di tracciamento per applicazioni future.
Titolo: Bridging the Gap Between End-to-end and Non-End-to-end Multi-Object Tracking
Estratto: Existing end-to-end Multi-Object Tracking (e2e-MOT) methods have not surpassed non-end-to-end tracking-by-detection methods. One potential reason is its label assignment strategy during training that consistently binds the tracked objects with tracking queries and then assigns the few newborns to detection queries. With one-to-one bipartite matching, such an assignment will yield unbalanced training, i.e., scarce positive samples for detection queries, especially for an enclosed scene, as the majority of the newborns come on stage at the beginning of videos. Thus, e2e-MOT will be easier to yield a tracking terminal without renewal or re-initialization, compared to other tracking-by-detection methods. To alleviate this problem, we present Co-MOT, a simple and effective method to facilitate e2e-MOT by a novel coopetition label assignment with a shadow concept. Specifically, we add tracked objects to the matching targets for detection queries when performing the label assignment for training the intermediate decoders. For query initialization, we expand each query by a set of shadow counterparts with limited disturbance to itself. With extensive ablations, Co-MOT achieves superior performance without extra costs, e.g., 69.4% HOTA on DanceTrack and 52.8% TETA on BDD100K. Impressively, Co-MOT only requires 38\% FLOPs of MOTRv2 to attain a similar performance, resulting in the 1.4$\times$ faster inference speed.
Autori: Feng Yan, Weixin Luo, Yujie Zhong, Yiyang Gan, Lin Ma
Ultimo aggiornamento: 2023-05-22 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.12724
Fonte PDF: https://arxiv.org/pdf/2305.12724
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.