Progressi nella stima della posa di più persone con BoIR
Il metodo BoIR migliora il tracciamento di più persone nelle immagini, aumentando l'accuratezza in scenari affollati.
― 5 leggere min
Negli ultimi anni, rilevare e tracciare più persone nelle immagini è diventato sempre più importante. Questa capacità, conosciuta come stima della posa di più persone (MPPE), aiuta in vari campi come la guida autonoma, la sorveglianza e la realtà virtuale. Tuttavia, il compito rimane difficile, specialmente in scene affollate dove le persone possono sovrapporsi o bloccarsi a vicenda.
Attualmente, ci sono diversi approcci all'MPPE. Alcuni metodi si concentrano prima sul rilevamento delle persone e poi sull'identificazione delle loro pose, mentre altri lavorano trovando punti chiave e raggruppandoli in persone singole. I metodi che rilevano prima le persone mostrano prestazioni migliori in scene complesse, ma hanno comunque difficoltà quando ci sono molte persone vicine.
Le Sfide
Una delle difficoltà chiave nella stima della posa di più persone è distinguere le caratteristiche di diversi individui quando sono vicini. Le tecniche esistenti non riescono a separare efficacemente le pose degli individui in caso di sovrapposizione pesante. Questo porta a errori e previsioni incerte. Ciò è dovuto a due motivi principali:
- La maggior parte dei metodi non utilizza abbastanza compiti di supporto durante l'addestramento, rendendo più difficile per loro apprendere le diverse caratteristiche necessarie per una rilevazione accurata.
- Spesso si concentrano solo sulle aree con punti chiave noti, perdendo il contesto più ampio dell'immagine che è importante per previsioni accurate.
Un Nuovo Approccio: BoIR
Per affrontare queste sfide, è stato proposto un nuovo metodo chiamato Rappresentazione Istanze Supervisionata da Box (BoIR). Questo metodo migliora il modo in cui le caratteristiche degli individui vengono apprese utilizzando riquadri attorno alle persone nelle immagini. I riquadri aiutano a fornire un'area chiara dalla quale il metodo può apprendere le caratteristiche di ciascun individuo senza essere influenzato da altri nelle vicinanze.
BoIR funziona efficacemente combinando diversi compiti in un unico framework di apprendimento. Include compiti come il rilevamento dei punti chiave, la stima delle posizioni dei riquadri e il contrasto delle caratteristiche delle istanze per garantire che rimangano distinte. Questo apprendimento multi-task consente di apprendere rappresentazioni più ricche e sfumate di ciascun individuo.
Il Processo di Apprendimento
BoIR adotta un nuovo modo di vedere il processo di apprendimento. Invece di utilizzare solo le informazioni dalla posizione esatta dei punti chiave, utilizza l'intera area dei riquadri. In questo modo, ottiene più intuizioni su come ciascuna istanza dovrebbe essere rappresentata. Questo viene realizzato mediante una nuova funzione di perdita di embedding che aiuta a creare una separazione più chiara tra gli individui.
Durante l'addestramento, BoIR identifica prima i centri dei riquadri per ogni persona. Poi, campiona le caratteristiche rilevanti dall'immagine relative a questi centri. Con questo approccio, può migliorare le sue previsioni senza dover analizzare ogni singolo punto in un'immagine.
Perdita Maschera del Riquadro
Una delle innovazioni chiave di BoIR è la Perdita Maschera del Riquadro. Questo metodo consente al sistema di apprendimento di concentrarsi sulle istanze all'interno dei riquadri, gestendo anche quelle che non sono etichettate nei dati di addestramento. Il metodo di perdita aiuta il modello a differenziare le caratteristiche all'interno del riquadro da quelle esterne, permettendogli di ignorare le distrazioni di sfondo e il rumore potenziale.
Il metodo di perdita aiuta in vari modi:
- Incoraggia il modello a migliorare le caratteristiche degli individui all'interno dei loro riquadri.
- Spinge il modello a distinguere le caratteristiche individuali dallo sfondo, che è fondamentale quando le persone si sovrappongono.
- Assicura che, anche se c'è solo una singola persona in un riquadro, il modello riesca a generare perdite di spinta pertinenti, aiutando nell'apprendimento.
Risultati e Prestazioni
BoIR ha mostrato miglioramenti significativi rispetto ai metodi esistenti, specialmente in ambienti affollati. È stato testato su vari dataset benchmark, dove ha superato altre tecniche in termini di precisione media. Sul dataset COCO, BoIR ha ottenuto punteggi superiori, segnando un aumento notevole rispetto ai metodi esistenti che già eccellevano.
Il design di BoIR consente di mantenere alte prestazioni senza aggiungere oneri computazionali extra durante l'inferenza. Questa efficienza significa che può essere utilizzato in applicazioni in tempo reale senza compromettere l'accuratezza.
Applicazioni della Stima della Posa di Più Persone
Il successo di BoIR nell'MPPE ha implicazioni per varie applicazioni. Nei veicoli autonomi, la capacità di tracciare con precisione più pedoni può migliorare notevolmente le caratteristiche di sicurezza. Nella realtà aumentata e virtuale, comprendere le pose umane può aiutare a creare esperienze più interattive. Inoltre, per i sistemi di sorveglianza, un tracciamento efficace può migliorare la sicurezza fornendo un monitoraggio accurato degli spazi affollati.
Direzioni Future
Sebbene BoIR abbia fatto progressi nella stima della posa di più persone, ci sono ancora sfide da affrontare. Uno dei problemi chiave è la dipendenza da grandi quantità di dati di addestramento etichettati. Nei dataset piccoli, le prestazioni possono diminuire, evidenziando la necessità di più strategie che sfruttino efficacemente pochi punti dati. Gli sviluppi futuri potrebbero concentrarsi su come raccogliere ulteriori compiti o migliorare l'uso di tecniche di apprendimento non supervisionato o semi-supervisionato.
Inoltre, c'è potenziale per espandere il framework BoIR per incorporare altre modalità, come l'inserimento delle azioni eseguite dagli individui. Esplorare la combinazione di informazioni visive e testuali può anche migliorare le prestazioni nella stima della posa di più persone.
Conclusione
BoIR rappresenta un significativo passo avanti nel compito di stima della posa di più persone, concentrandosi sulla rappresentazione delle istanze attraverso la supervisione dei riquadri. Affronta molte delle sfide che si presentano in ambienti affollati dove i metodi tradizionali sono insufficienti. La sua capacità di apprendere caratteristiche distinte per ogni persona porta a prestazioni migliori su vari dataset. I progressi in questo campo hanno promettenti implicazioni per le applicazioni future, rendendolo un'area entusiasmante per la ricerca e lo sviluppo continuo.
Titolo: BoIR: Box-Supervised Instance Representation for Multi-Person Pose Estimation
Estratto: Single-stage multi-person human pose estimation (MPPE) methods have shown great performance improvements, but existing methods fail to disentangle features by individual instances under crowded scenes. In this paper, we propose a bounding box-level instance representation learning called BoIR, which simultaneously solves instance detection, instance disentanglement, and instance-keypoint association problems. Our new instance embedding loss provides a learning signal on the entire area of the image with bounding box annotations, achieving globally consistent and disentangled instance representation. Our method exploits multi-task learning of bottom-up keypoint estimation, bounding box regression, and contrastive instance embedding learning, without additional computational cost during inference. BoIR is effective for crowded scenes, outperforming state-of-the-art on COCO val (0.8 AP), COCO test-dev (0.5 AP), CrowdPose (4.9 AP), and OCHuman (3.5 AP). Code will be available at https://github.com/uyoung-jeong/BoIR
Autori: Uyoung Jeong, Seungryul Baek, Hyung Jin Chang, Kwang In Kim
Ultimo aggiornamento: 2023-11-02 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.14072
Fonte PDF: https://arxiv.org/pdf/2309.14072
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.