Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Avanzamenti nella stima della posa 3D con LInKs

LInKs migliora la stima della posa 3D a partire da dati 2D, anche con occlusioni.

― 6 leggere min


Link: ScopertaLink: Scopertastraordinaria nella stimadella posa 3Danche quando mancano parti.Trasformare il recupero della posa 3D,
Indice

La stima della posa umana è un campo chiave nella visione computerizzata. Si tratta di capire la posizione del corpo di una persona in immagini o video. Questo compito ha molti utilizzi, compresi settori come l'interazione uomo-computer e la salute. Purtroppo, determinare la posa 3D di una persona da un'unica immagine è difficile. Questo perché molte pose 2D diverse possono indicare la stessa posa 3D, rendendo il problema complicato da risolvere.

La maggior parte dei metodi che cercano di risolvere questo problema spesso hanno bisogno di più immagini da angolazioni diverse o sensori di profondità speciali, il che può limitarne l'uso nella vita reale. Di recente, nuove tecniche che apprendono senza bisogno di molti dati etichettati hanno mostrato promesse. Questi metodi possono funzionare anche con un'unica immagine. Tuttavia, spesso fanno fatica con dati incompleti, specialmente quando parti del corpo sono bloccate dalla vista o mal identificate.

La Necessità di Metodi Migliori

Le tecniche esistenti che cercano di sollevare l'intero Scheletro corporeo 2D in 3D spesso trascurano le occlusioni, che sono parti mancanti a causa di ostruzione. Quando anche solo una parte del corpo non è visibile, tali metodi possono fallire. Inoltre, sollevare l'intero scheletro 2D può creare problemi. Ad esempio, potrebbe causare influenze indesiderate da parti del corpo non correlate sulla posa finale 3D, portando a imprecisioni.

Quindi, c'è bisogno di metodi migliori che possano gestire efficacemente le occlusioni e collegare accuratamente i Punti chiave del corpo. Il nostro nuovo approccio, chiamato LInKs, mira ad affrontare queste preoccupazioni.

Panoramica di LInKs

LInKs è un metodo innovativo che consente di recuperare pose 3D da punti chiave 2D, anche quando alcune parti sono occluse. Il processo è diviso in due fasi: prima solleviamo le parti visibili dello scheletro 2D in 3D. Poi, utilizziamo le informazioni 3D disponibili per stimare e completare le parti mancanti. Questa strategia "solleva-poi-riempi" mostra risultati molto migliori rispetto ai metodi precedenti che lavoravano solo in 2D.

Un aspetto significativo di LInKs è che esamina se diverse parti dello scheletro 2D possono essere sollevate separatamente. Questo metodo riduce gli errori causati da connessioni a lunga distanza tra i punti chiave. I nostri test mostrano che sollevare separatamente migliora l'accuratezza, specialmente quando ci sono occlusioni.

Come Funziona

Il Processo Solleva-Poi-Riempi

Prima, otteniamo uno scheletro 2D da un'immagine. Se alcune parti sono occluse, separiamo lo scheletro in sezioni, come punti chiave del torso e degli arti. Ognuna di queste sezioni viene inviata ai rispettivi network per prevedere le coordinate 3D. Dopo aver ottenuto una posa 3D parziale, utilizziamo un altro network per prevedere le coordinate mancanti, completando la posa 3D.

Questo metodo garantisce che le articolazioni 3D si muovano in modi realistici, dato che le articolazioni umane hanno specifici range di movimento. Affrontando le occlusioni in 3D invece che in 2D, preveniamo pose irrealistiche che violano l'anatomia umana.

Superare le Sfide

Una delle principali sfide nella stima della posa umana è che una posa 3D può corrispondere a molte rappresentazioni 2D diverse. Questa complessità rende difficile per i modelli apprendere efficacemente. Nel nostro metodo, semplifichiamo questo sollevando solo parti della posa. Questo riduce la confusione, poiché ogni network di sollevamento si specializza in una particolare sezione, rendendo più facile apprendere le connessioni tra 2D e 3D.

Inoltre, miglioriamo la capacità del modello di prevedere le parti mancanti utilizzando quello che chiamiamo un network di occlusione. Questo network impara a riempire i vuoti in base alle informazioni disponibili.

Apprendere dai Dati

Per far funzionare meglio il nostro metodo, utilizziamo flussi normalizzanti, che aiutano a gestire e apprendere dai dati in modo più efficace. Invece di fare affidamento su un dataset limitato, creiamo nuovi campioni apprendendo la distribuzione dei dati esistenti. Questo aiuta ad arricchire il processo di addestramento, portando a previsioni più robuste.

Tuttavia, abbiamo scoperto che il campionamento casuale a volte produceva pose strane o irrealistiche. Per affrontare questo, abbiamo sviluppato un nuovo approccio di campionamento che garantisce che le pose generate siano più realistiche e coerenti.

Lavorare con le Occlusioni

Il nostro metodo funziona anche bene in situazioni in cui le parti del corpo sono occluse. Allenando il network di occlusione su vari scenari di occlusione, possiamo prevedere efficacemente i punti chiave mancanti quando non sono chiaramente visibili.

Durante la nostra valutazione, abbiamo confrontato la nostra tecnica con metodi tradizionali. I risultati hanno mostrato che sollevare la posa in 3D forniva risultati molto più accurati rispetto al tentativo di riempire i vuoti all'interno del 2D.

Test e Risultati

Abbiamo testato LInKs su dataset popolari. I risultati mostrano chiaramente che il nostro modello di sollevamento supera i metodi esistenti in scenari senza occlusione. Oltre a una migliore accuratezza in situazioni normali, il nostro modello gestisce anche le occlusioni in modo efficace. Durante i test sul dataset Human3.6M, ha raggiunto un miglioramento notevole in accuratezza rispetto agli approcci precedenti.

Nei casi in cui mancavano membri, il nostro modello ha dimostrato la capacità di prevedere la posa completa in modo più accurato sollevandola in 3D.

Limitazioni dell'Approccio

Anche se LInKs mostra grandi promesse, ha ancora delle limitazioni. Ad esempio, se un punto chiave manca, potrebbe perdere informazioni utili da altre coordinate che potrebbero aiutare a fare previsioni accurate. Le occlusioni trasversali, dove due punti da lati diversi del corpo non sono visibili, rappresentano anch'esse una sfida.

Inoltre, il nostro approccio a volte interpreta erroneamente le pose in determinate situazioni. Ad esempio, il nostro modello a volte identifica una persona come accovacciata quando in realtà è seduta. Questo evidenzia la difficoltà di stimare le posizioni delle gambe basandosi solo sui dati del torso. Nei lavori futuri, miriamo a perfezionare il nostro metodo per essere più robusto contro tali sfide.

Conclusione

LInKs offre un modo efficiente per recuperare pose 3D da dati 2D, anche quando alcune parti sono occluse. Sollevando parti chiave separatamente e riempiendo i vuoti con un network dedicato, possiamo ridurre significativamente gli errori e migliorare l'accuratezza della stima della posa. Introduciamo anche un approccio generativo per il campionamento dei dati, permettendo al modello di apprendere da una gamma più ampia di pose.

In generale, il nostro metodo rappresenta un passo avanti nel modo in cui gestiamo le occlusioni nella stima della posa umana. Speriamo di ispirare ulteriori ricerche in questo campo impegnativo e continuare a perfezionare i nostri metodi per affrontare in modo efficace una gamma più ampia di situazioni.

Fonte originale

Titolo: LInKs "Lifting Independent Keypoints" -- Partial Pose Lifting for Occlusion Handling with Improved Accuracy in 2D-3D Human Pose Estimation

Estratto: We present LInKs, a novel unsupervised learning method to recover 3D human poses from 2D kinematic skeletons obtained from a single image, even when occlusions are present. Our approach follows a unique two-step process, which involves first lifting the occluded 2D pose to the 3D domain, followed by filling in the occluded parts using the partially reconstructed 3D coordinates. This lift-then-fill approach leads to significantly more accurate results compared to models that complete the pose in 2D space alone. Additionally, we improve the stability and likelihood estimation of normalising flows through a custom sampling function replacing PCA dimensionality reduction previously used in prior work. Furthermore, we are the first to investigate if different parts of the 2D kinematic skeleton can be lifted independently which we find by itself reduces the error of current lifting approaches. We attribute this to the reduction of long-range keypoint correlations. In our detailed evaluation, we quantify the error under various realistic occlusion scenarios, showcasing the versatility and applicability of our model. Our results consistently demonstrate the superiority of handling all types of occlusions in 3D space when compared to others that complete the pose in 2D space. Our approach also exhibits consistent accuracy in scenarios without occlusion, as evidenced by a 7.9% reduction in reconstruction error compared to prior works on the Human3.6M dataset. Furthermore, our method excels in accurately retrieving complete 3D poses even in the presence of occlusions, making it highly applicable in situations where complete 2D pose information is unavailable.

Autori: Peter Hardy, Hansung Kim

Ultimo aggiornamento: 2023-09-13 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.07243

Fonte PDF: https://arxiv.org/pdf/2309.07243

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili