Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Elaborazione di immagini e video

Sviluppi nella tecnologia di tracciamento della testa dei pedoni

Nuovo dataset e modello migliorano il riconoscimento delle teste in scene affollate.

― 5 leggere min


Nuovo Dataset e ModelloNuovo Dataset e Modelloper il Tracciamento dellaTestarilevazione delle teste dei pedoni.Cchead e MIFN avanzano nella
Indice

La rilevazione e il Tracciamento dei pedoni è il processo di identificazione e monitoraggio delle persone nei video. Questa tecnologia è importante in vari ambiti, come le auto a guida autonoma, le telecamere di sicurezza e la gestione di luoghi affollati. Tuttavia, tenere traccia delle persone in scene affollate non è facile. Ci sono molte sfide che i ricercatori affrontano, come le persone che si bloccano a vicenda, i diversi modi in cui le persone si muovono e le posizioni corporee variegate.

Sebbene la tecnologia recente chiamata deep learning abbia migliorato la capacità di rilevare le persone, ci sono ancora poche risorse focalizzate sul tracciamento delle teste delle persone, che è cruciale in contesti affollati. Gli attuali dataset-collezioni di video e immagini utilizzate per addestrare i sistemi di rilevamento-non forniscono abbastanza esempi di situazioni complesse come le interazioni tra persone o quando gli oggetti bloccano la vista.

Per affrontare questi problemi, i ricercatori hanno creato un nuovo dataset chiamato Cchead, che sta per Chinese Large-scale Cross-scene Pedestrian Head Tracking dataset. Questo dataset consiste in oltre 50.000 fotogrammi con più di 2,3 milioni di annotazioni di teste in vari contesti affollati. L'obiettivo di Cchead è aiutare a migliorare la tecnologia di tracciamento offrendo una vasta gamma di scenari del mondo reale.

L'importanza del dataset Cchead

Cchead include video di dieci scene diverse, catturando persone in ambienti diversi come strade, aule e parchi. Analizza come le persone si muovono a velocità e direzioni variabili, e come si comportano per evitare collisioni. Con questo dataset, i ricercatori possono addestrare sistemi per capire e tenere meglio traccia degli individui in folle affollate.

Oltre ai video e alle annotazioni, Cchead fornisce anche prospettive uniche, comprese vedute dall'alto e in pendenza. Questa varietà consente di testare e addestrare in diverse situazioni, rendendo il dataset più versatile.

Sfide nella rilevazione e tracciamento delle teste

Rilevare e tracciare le teste è difficile per vari motivi. Gli oggetti sullo sfondo possono confondere i sistemi di rilevamento perché potrebbero sembrare simili alle teste in termini di colore, dimensioni e forma. Inoltre, le teste sono spesso piccole e possono trovarsi in varie pose, rendendo difficile identificarle con precisione. In situazioni affollate, le teste possono diventare parzialmente nascoste o sovrapposte, complicando ulteriormente il compito.

Un'altra sfida deriva dal fatto che le teste possono cambiare dimensione, orientamento e luminosità mentre si muovono. Questa variabilità richiede sistemi adattabili e robusti.

Rete di Fusione di Informazioni Multi-Sorgente (MIFN)

Per migliorare la rilevazione e il tracciamento delle teste, i ricercatori hanno sviluppato un nuovo modello chiamato Rete di Fusione di Informazioni Multi-Sorgente (MIFN). Questo approccio combina informazioni da diverse fonti per migliorare l'accuratezza del rilevamento. Il modello utilizza fotogrammi video insieme a dati di movimento, informazioni di profondità e mappe di densità per identificare in modo efficiente le teste in scene affollate.

MIFN è il primo modello del suo genere che utilizza queste fonti multiple insieme in un processo di addestramento. Integrando queste informazioni, MIFN può generare output di rilevamento più affidabili. L'obiettivo è ridurre il rumore di fondo mentre si aumenta la visibilità delle teste.

Come funziona MIFN

Il modello MIFN opera in due fasi principali. Il primo passo consiste nel generare informazioni multi-sorgente dall'input video originale. Questo include la stima del movimento tra i fotogrammi, il confronto tra la differenza dei fotogrammi sequenziali, la valutazione delle distanze tramite la mappatura della profondità e l'identificazione della densità delle teste in un fotogramma.

Una volta che queste informazioni multi-sorgente sono disponibili, il secondo passo consiste nel combinare queste caratteristiche per formare una comprensione complessiva della scena. Il modello utilizza tecniche avanzate per garantire che le caratteristiche delle teste siano prominenti mentre i dettagli di sfondo sono minimizzati.

Il contributo del dataset Cchead

Il dataset Cchead gioca un ruolo cruciale nell'addestramento e nella valutazione del modello MIFN. Offre ampie riprese reali che possono aiutare i ricercatori a perfezionare i loro sistemi. Le annotazioni dettagliate del dataset consentono al modello di apprendere efficacemente varie forme e comportamenti delle teste.

Confrontando le prestazioni di MIFN con i metodi esistenti, si dimostra che supera i modelli precedenti su questo dataset. MIFN raggiunge una precisione migliore semplicemente utilizzando le fonti di informazione multiple senza la necessità di sensori aggiuntivi.

Valutazione delle prestazioni di MIFN

Per valutare quanto bene funzioni MIFN, è stato testato sia sul dataset Cchead che su un altro dataset pubblico chiamato Restaurant dataset. I ricercatori osservano quanto accuratamente il modello rileva e traccia le teste. I risultati mostrano che MIFN rileva costantemente le teste meglio dei metodi esistenti, anche in ambienti complessi e affollati.

Ad esempio, MIFN ha mostrato prestazioni superiori rispetto a metodi tradizionali come Faster R-CNN, CenterNet e YOLOX. Questi confronti confermano l'efficacia della combinazione di varie fonti di informazione.

Conclusioni e direzioni future

In sintesi, il dataset Cchead e il modello MIFN rappresentano avanzamenti significativi nel tracciamento delle teste dei pedoni. Fornendo dati video ricchi e diversificati e sfruttando informazioni multi-sorgente, i ricercatori possono fare progressi nel migliorare l'accuratezza del rilevamento in scene affollate.

Le potenziali applicazioni per questa tecnologia sono vaste, dal miglioramento dei sistemi di sorveglianza all'ottimizzazione delle misure di sicurezza in ambienti affollati. Lavori futuri potrebbero includere l'estensione del dataset con scenari ancora più vari e l'integrazione di dati audio per creare una comprensione più olistica del comportamento dei pedoni.

Rendendo il dataset Cchead disponibile al pubblico, i ricercatori sperano di stimolare più innovazioni nella visione artificiale, rendendo più facile il tracciamento delle teste in contesti affollati e migliorando infine l'esperienza utente in aree come i veicoli autonomi e i sistemi di sorveglianza intelligenti.

Fonte originale

Titolo: Toward Pedestrian Head Tracking: A Benchmark Dataset and an Information Fusion Network

Estratto: Pedestrian detection and tracking in crowded video sequences have a wide range of applications, including autonomous driving, robot navigation and pedestrian flow surveillance. However, detecting and tracking pedestrians in high-density crowds face many challenges, including intra-class occlusions, complex motions, and diverse poses. Although deep learning models have achieved remarkable progress in head detection, head tracking datasets and methods are extremely lacking. Existing head datasets have limited coverage of complex pedestrian flows and scenes (e.g., pedestrian interactions, occlusions, and object interference). It is of great importance to develop new head tracking datasets and methods. To address these challenges, we present a Chinese Large-scale Cross-scene Pedestrian Head Tracking dataset (Cchead) and a Multi-Source Information Fusion Network (MIFN). Our dataset has features that are of considerable interest, including 10 diverse scenes of 50,528 frames with over 2,366,249 heads and 2,358 tracks annotated. Our dataset contains diverse human moving speeds, directions, and complex crowd pedestrian flows with collision avoidance behaviors. We provide a comprehensive analysis and comparison with existing state-of-the-art (SOTA) algorithms. Moreover, our MIFN is the first end-to-end CNN-based head detection and tracking network that jointly trains RGB frames, pixel-level motion information (optical flow and frame difference maps), depth maps, and density maps in videos. Compared with SOTA pedestrian detection and tracking methods, MIFN achieves superior performance on our Cchead dataset. We believe our datasets and baseline will become valuable resources towards developing pedestrian tracking in dense crowds.

Autori: Kailai Sun, Xinwei Wang, Shaobo Liu, Qianchuan Zhao, Gao Huang, Chang Liu

Ultimo aggiornamento: 2024-08-11 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2408.05877

Fonte PDF: https://arxiv.org/pdf/2408.05877

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili