Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Walker: Un Nuovo Approccio per Monitorare Oggetti nei Video

Walker offre un tracciamento degli oggetti efficiente con una minima etichettatura dei dati.

― 6 leggere min


Walker Trasforma ilWalker Trasforma ilTracciamento degliOggettioggetti.etichettatura nel tracciamento degliNuovo metodo riduce gli sforzi di
Indice

Il tracking di più oggetti (MOT) è un compito importante nella visione artificiale dove l'obiettivo è seguire più oggetti in un video nel tempo. Tradizionalmente, questo compito richiede molto lavoro manuale per etichettare ogni oggetto in ogni fotogramma, il che può essere davvero dispendioso in termini di tempo e costoso. Questo documento presenta Walker, un nuovo metodo che può tracciare oggetti nei video con uno sforzo di etichettatura minimo.

Cos'è l'Apprendimento Auto-Supervisionato?

L'apprendimento auto-supervisionato è una tecnica dove il modello impara dai dati stessi senza bisogno di etichette dettagliate. In questo caso, Walker impara a tracciare gli oggetti usando solo annotazioni sparse delle bounding box, il che significa che le scatole che identificano gli oggetti sono fornite solo per alcuni fotogrammi, non per tutti. Questo riduce la necessità di etichettature estensive, rendendo il processo di addestramento più efficiente.

Panoramica del Metodo Walker

Il metodo Walker è progettato per apprendere il tracking degli oggetti da video con solo annotazioni limitate. Invece di richiedere etichette costanti per ogni fotogramma, Walker utilizza quello che chiama un grafo temporale di apparizione degli oggetti quasi denso (TOAG). Questo grafo collega le diverse rilevazioni nel video per aiutare il modello a imparare le identità degli oggetti.

Come Funziona Walker

  1. Progettare il Grafo: Il primo passo è creare un grafo dove ogni nodo rappresenta un oggetto rilevato nel video. Le connessioni (fili) tra i nodi si basano su quanto sono simili gli oggetti.

  2. Imparare le Somiglianze tra Oggetti: Walker utilizza una tecnica speciale chiamata apprendimento contrastivo multi-positivo, che aiuta il modello a capire quali oggetti sono simili tra loro. Questo viene fatto ottimizzando i cammini casuali, essenzialmente un modo per navigare attraverso il grafo per trovare connessioni tra oggetti rilevati.

  3. Trovare L'Associazione: Quando è il momento di tracciare gli oggetti, Walker usa le informazioni del grafo per associare oggetti rilevati in un fotogramma a tracklet in un altro. Questo avviene basandosi sulle transizioni più probabili degli oggetti mentre si muovono nel video.

Perché è Importante?

Il MOT è cruciale per varie applicazioni, come le auto a guida autonoma, la sorveglianza video e la realtà aumentata. I metodi di tracking tradizionali richiedono molti dati annotati, che possono essere difficili da ottenere. L'approccio auto-supervisionato di Walker consente un tracking efficace anche quando la quantità di dati etichettati disponibili è bassa.

Vantaggi di Walker

  • Costi di Annotazione Ridotti: Usando l'auto-supervisione a livello video, Walker può utilizzare fotogrammi senza etichette, diminuendo la necessità di annotazioni estensive.

  • Performance Competitiva: Nonostante lo sforzo ridotto per l'etichettatura, Walker mostra risultati promettenti, raggiungendo livelli di prestazione comparabili ai tracker supervisionati all'avanguardia.

  • Flessibilità: Walker può essere adattato per lavorare con vari dataset e scenari di tracking, rendendolo versatile nelle sue applicazioni.

Lavori Correlati

Approcci al Tracking di Più Oggetti

La maggior parte dei metodi MOT esistenti si basa sul rilevamento degli oggetti in ogni fotogramma e poi sul collegarli attraverso i fotogrammi. I metodi tradizionali spesso usano euristiche basate sul movimento per abbinare gli oggetti nel tempo, ma possono avere difficoltà in condizioni difficili come occlusioni o movimenti rapidi.

I recenti progressi combinano il rilevamento con l'apprendimento dell'apparenza, dove il modello non solo rileva ma impara anche a riconoscere gli oggetti in base al loro aspetto. Tuttavia, questi metodi richiedono tipicamente annotazioni dettagliate, limitando il loro uso pratico.

Apprendimento Auto-Supervisionato nella Re-Identificazione

Nel campo della re-identificazione (Re-ID), i metodi auto-supervisionati presumono solitamente la presenza di rilevamenti di buona qualità. Si basano spesso sull'auto-supervisione a livello immagine, che non sfrutta i dati temporali nei video. Questo può creare sfide nell'imparare caratteristiche di apparizione robuste che siano resistenti ai cambiamenti di visuale o scala.

Contributi di Walker

  1. Tracking Auto-Supervisionato: Walker introduce un approccio innovativo al tracking auto-supervisionato che richiede solo annotazioni sparse, riducendo significativamente il carico di annotazione.

  2. Apprendimento Multi-Positivo: Ottimizzando per più obiettivi positivi durante il processo di apprendimento, Walker è in grado di creare rappresentazioni più accurate degli oggetti, consentendo un miglior tracking.

  3. Mutua Esclusività: Walker impone una proprietà di mutua esclusività nelle sue regole di connettività, assicurando che ogni oggetto sia identificato in modo univoco nel processo di tracking.

Addestramento del Modello Walker

Preparare i Dati

Addestrare Walker comporta selezionare fotogrammi chiave dal video che contengono annotazioni di bounding box. Nel contesto sparso, un fotogramma è etichettato per ogni 10 fotogrammi. Gli altri fotogrammi possono comunque essere utilizzati per l'apprendimento, anche se non sono etichettati.

Il Processo di Addestramento

Durante l'addestramento, Walker utilizza i fotogrammi etichettati per imparare a rappresentare gli oggetti creando il TOAG. Il modello si adatta ripetutamente per assicurarsi che le rappresentazioni degli oggetti che apprende siano efficaci per distinguere tra diversi oggetti.

Tracking con Walker

Quando si tratta di tracking, Walker elabora i fotogrammi video in ingresso per associare gli oggetti rilevati con tracklet esistenti. Il primo passo comporta l'abbinamento delle rilevazioni ad alta confidenza con i tracklet esistenti basandosi sulle rappresentazioni apprese. Un passo secondario implica l'associazione di rilevazioni a bassa confidenza con i tracklet.

Strategia di Associazione

Walker combina informazioni di movimento e apparente per migliorare l'associazione degli oggetti. Questo significa che non guarda solo quanto sono simili gli oggetti, ma considera anche dove il modello si aspetta che siano in base alle loro posizioni precedenti.

Valutazione di Walker

Per valutare l'efficacia di Walker, sono stati condotti esperimenti usando dataset noti nel campo del MOT, come MOT17 e BDD100K. I risultati dimostrano che Walker performa bene con annotazioni ridotte rispetto ai metodi tradizionali.

Benchmarking contro Altri Metodi

Walker è stato confrontato con vari metodi all'avanguardia in termini di prestazioni su questi dataset. I risultati indicano che Walker può raggiungere un livello di prestazione competitivo mentre usa significativamente meno dati annotati.

Conclusione

L'introduzione di Walker rappresenta un importante avanzamento nel campo del tracking di più oggetti. Implementando un approccio auto-supervisionato che minimizza i requisiti di annotazione, Walker semplifica non solo il processo di addestramento ma mantiene anche elevati standard di prestazione. Questo ha significative implicazioni per la ricerca futura e l'applicazione in aree che richiedono soluzioni di tracking efficienti.

Il design di Walker gli consente di adattarsi a scenari diversi con dati etichettati limitati, aprendo la strada a un uso più ampio in vari compiti di visione artificiale. Lo sviluppo continuo di metodi auto-supervisionati come Walker è cruciale per migliorare le capacità dei sistemi di tracking nelle applicazioni del mondo reale.

Fonte originale

Titolo: Walker: Self-supervised Multiple Object Tracking by Walking on Temporal Appearance Graphs

Estratto: The supervision of state-of-the-art multiple object tracking (MOT) methods requires enormous annotation efforts to provide bounding boxes for all frames of all videos, and instance IDs to associate them through time. To this end, we introduce Walker, the first self-supervised tracker that learns from videos with sparse bounding box annotations, and no tracking labels. First, we design a quasi-dense temporal object appearance graph, and propose a novel multi-positive contrastive objective to optimize random walks on the graph and learn instance similarities. Then, we introduce an algorithm to enforce mutually-exclusive connective properties across instances in the graph, optimizing the learned topology for MOT. At inference time, we propose to associate detected instances to tracklets based on the max-likelihood transition state under motion-constrained bi-directional walks. Walker is the first self-supervised tracker to achieve competitive performance on MOT17, DanceTrack, and BDD100K. Remarkably, our proposal outperforms the previous self-supervised trackers even when drastically reducing the annotation requirements by up to 400x.

Autori: Mattia Segu, Luigi Piccinelli, Siyuan Li, Luc Van Gool, Fisher Yu, Bernt Schiele

Ultimo aggiornamento: 2024-09-25 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2409.17221

Fonte PDF: https://arxiv.org/pdf/2409.17221

Licenza: https://creativecommons.org/licenses/by-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili