Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Recupero Unificato della Mesh Umana: Un Nuovo Approccio

Nuovo framework migliora il recupero della mesh umana da più immagini.

― 8 leggere min


Svelato il Framework diSvelato il Framework diRecupero della Mesh Umanaprecisa della posa umana.Un sistema flessibile per una stima
Indice

Il recupero della mesh umana è un compito nella visione artificiale che si concentra sulla stima della forma e della posa del corpo umano a partire dalle immagini. Questa tecnologia ha tanti usi, tra cui la realtà virtuale e l'interazione uomo-computer. Ottenere un recupero accurato della mesh umana da immagini singole è difficile a causa di problemi come l'ambiguità di profondità e l'occlusione. Tuttavia, usare più angolazioni di una persona può fornire informazioni più dettagliate, rendendo più facile il recupero dei dati della mesh umana.

Dichiarazione del Problema

La sfida nel recupero della mesh umana da più immagini sta nella variabilità degli angoli di ripresa e nel numero di viste disponibili. L'obiettivo è creare un sistema unificato che possa stimare con precisione la posa e la forma umana da qualsiasi numero di viste e angoli di camera. Progettare un tale sistema è complicato perché deve gestire le pose della camera e il recupero della mesh del corpo umano come compiti separati, pur lavorando in modo fluido insieme.

Framework Proposto

Per affrontare le sfide descritte, viene introdotto un nuovo framework chiamato Unified Human Mesh Recovery (U-HMR). Questo framework divide il compito di recupero in due parti principali: stimare le pose della camera e stimare i dati della mesh umana. Separando questi compiti, diventa più facile gestire la variabilità nelle viste e negli angoli della camera.

Componenti di U-HMR

  • Decoupling della Camera e del Corpo (CBD): Questo componente separa l'analisi delle pose della camera dal recupero della mesh umana, permettendo a ciascun compito di essere gestito indipendentemente. Questo riduce la complessità e aumenta l'efficienza.

  • Stima delle Pose della Camera (CPE): Per stimare le pose della camera, un modello condiviso elabora tutte le viste della camera in parallelo. Trattando le pose della camera in modo indipendente, questo approccio semplifica il compito e accelera il processo di stima.

  • Fusione di Viste Arbitraria (AVF): Questa parte si occupa di combinare informazioni da diverse viste della camera per migliorare il recupero della mesh. Un decoder transformer viene utilizzato per unire le caratteristiche provenienti da varie viste, rendendo il sistema adattabile a qualsiasi numero di viste.

Vantaggi del Framework

Il principale vantaggio di U-HMR è la sua flessibilità. Può adattarsi a qualsiasi numero di viste della camera senza necessitare di aggiustamenti o riaddestramenti. Questo è un miglioramento significativo rispetto ai metodi precedenti, che spesso richiedevano un numero specifico di viste o posizioni fisse della camera. Il framework è progettato per apprendere in modo efficace dai dati multivista, fondamentale per un recupero accurato della mesh.

Lavori Correlati

Le ricerche precedenti sul recupero della mesh umana si sono principalmente concentrate su metodi a vista singola o multi-vista. Molte tecniche a vista singola hanno avuto difficoltà con l'ambiguità di profondità e le occlusioni, portando a risultati meno affidabili. I metodi multi-vista tendevano a funzionare meglio ma spesso si basavano su configurazioni fisse della camera. Il lavoro su U-HMR mira a colmare il divario permettendo viste e posizioni arbitrari, semplificando nel contempo il compito di recupero in componenti decouple.

Tecniche di Recupero della Mesh Umana

Recupero della Mesh da Immagine Singola

Negli scenari a immagine singola, ci sono generalmente due approcci: metodi basati su ottimizzazione e metodi basati su regressione. L'approccio di ottimizzazione implica tipicamente l'adattamento di un modello predefinito ai dati dell'immagine, mentre le tecniche basate su regressione utilizzano l'apprendimento profondo per prevedere direttamente i parametri della mesh dall'immagine. Nonostante i progressi in questi metodi, problemi come l'occlusione continuano a presentare sfide.

Recupero dell'Immagine Multi-vista

Usare più viste cattura più informazioni, rendendolo un'opzione più fattibile per il recupero della mesh umana. Sono stati proposti molti metodi che utilizzano dati multi-vista, che richiedono tipicamente calibrazioni della camera per integrare efficacemente le viste. Alcuni approcci sono stati sviluppati per gestire scenari senza calibrazione della camera, ma tendono a mancare di flessibilità.

Panoramica di U-HMR

Il framework U-HMR divide il compito di recupero della mesh in due parti: stima dei parametri della camera e stima dei parametri del corpo. Concentrandosi su questi due componenti separatamente, il sistema può recuperare la mesh umana in modo più efficace da più viste.

Elaborazione dei Dati

Date immagini provenienti da diversi angoli di camera, il primo passo in U-HMR è estrarre caratteristiche 2D da ciascuna immagine. Queste caratteristiche vengono poi inviate ai due componenti: CPE e AVF. CPE utilizza un modello condiviso per prevedere i parametri della camera, mentre AVF combina caratteristiche da tutte le viste per la stima della mesh corporea.

Rappresentazione del Corpo Umano

Il modello SMPL, che è uno standard per rappresentare i corpi umani, è utilizzato all'interno di questo framework. Permette di modellare accuratamente una varietà di forme e pose umane. Il modello mappa i parametri di posa e forma nelle rappresentazioni a mesh dei corpi umani.

Funzioni di Perdita

Per addestrare efficacemente il framework U-HMR, viene applicata una combinazione di funzioni di perdita. Queste includono perdite basate sulla precisione delle proiezioni 2D, errori sui punti chiave 3D e perdite avversarie per garantire che le pose previste siano realistiche.

Setup Sperimentale

L'efficacia di U-HMR viene testata utilizzando tre grandi set di dati contenenti immagini multi-vista dei movimenti umani: Human3.6M, MPI-INF-3DHP e TotalCapture. Questi set di dati forniscono una piattaforma robusta per validare le prestazioni del framework.

Dataset Human3.6M

Questo dataset è un benchmark per la posa umana 3D e include varie azioni svolte da diversi soggetti. È stato catturato usando telecamere sincronizzate, permettendo di ottenere dati multi-vista ricchi, ideali per testare metodi di recupero della mesh.

Dataset MPI-INF-3DHP

Questo dataset consiste in attività diverse catturate da più angolazioni con tecnologia di cattura del movimento senza marker. Fornisce dati di annotazione bidimensionale e tridimensionale necessari per valutare il recupero della mesh.

Dataset TotalCapture

TotalCapture include un gran numero di fotogrammi registrati da più telecamere HD, insieme a informazioni aggiuntive da sensori di movimento. Questo dataset è ampio, rendendolo adatto per esperimenti completi.

Metriche di Valutazione

Per valutare le prestazioni del framework U-HMR, vengono impiegate diverse metriche, tra cui l'errore medio per posizione delle articolazioni (MPJPE), errori di ricostruzione e percentuali di punti chiave corretti (PCK). Queste metriche consentono una valutazione approfondita di quanto bene il sistema funzioni in diversi scenari.

Dettagli di Implementazione

L'implementazione di U-HMR utilizza architetture di rete neurale popolari per l'estrazione delle caratteristiche, come ResNet-50 e Vision Transformers (ViT). Il modello è ottimizzato utilizzando un tasso di apprendimento adattivo ed è addestrato su GPU ad alte prestazioni per un'elaborazione efficiente.

Studi di Ablazione

Viene condotta una serie di studi di ablazione per valutare i diversi componenti e design architettonici di U-HMR. Questi studi aiutano a identificare le configurazioni più efficaci per il recupero della mesh umana.

Valutazione del Decoupling e della Fusione

Viene esaminato l'impatto della separazione dei compiti di stima della posa della camera e recupero della mesh corporea. Lo studio mostra che questa scelta di design migliora flessibilità e prestazioni rispetto ai modelli che non separano questi compiti.

Numero di Viste

Viene effettuata un'ulteriore analisi per vedere quanto bene U-HMR si adatta a numeri variabili di viste della camera. Questa capacità di gestire diverse configurazioni senza la necessità di riaddestramento rafforza i punti di forza del framework.

Confronto con Metodi all'Avanguardia

U-HMR viene confrontato con diversi metodi esistenti, sia a vista singola che multi-vista, oltre a metodi che richiedono calibrazione della camera. I risultati indicano che U-HMR raggiunge prestazioni all'avanguardia senza necessità di configurazioni o setup complessi.

Sovraccarico Computazionale

Un'analisi dell'efficienza del framework mostra che mantiene un basso onere computazionale pur offrendo risultati di alta qualità. Questa efficienza lo rende adatto per applicazioni nel mondo reale.

Sensibilità all'Input

La resilienza del framework U-HMR viene testata utilizzando immagini con rilevazioni inaccurate. I risultati indicano che U-HMR è robusto, anche quando le immagini in input non sono perfettamente allineate o ritagliate.

Risultati di Visualizzazione

Uscite visive dal framework U-HMR mostrano la sua capacità di recuperare la mesh umana da angolazioni arbitrari della camera. Questo include esempi da prospettive di camera non viste, dimostrando l'adattabilità del framework.

Conclusione

Il framework Unified Human Mesh Recovery offre un approccio semplice e flessibile per recuperare dati della mesh umana da più immagini. Separando la stima delle pose della camera dal recupero della mesh, il framework gestisce efficacemente la variabilità delle viste della camera. I risultati provenienti da vari set di dati evidenziano la sua efficacia e il potenziale per applicazioni pratiche in campi come la realtà virtuale e l'interazione uomo-computer. U-HMR si distingue per la sua capacità di funzionare con numeri variabili di viste e angoli di camera arbitrari, rendendolo un contributo prezioso nel campo del recupero della mesh umana.

Fonte originale

Titolo: Human Mesh Recovery from Arbitrary Multi-view Images

Estratto: Human mesh recovery from arbitrary multi-view images involves two characteristics: the arbitrary camera poses and arbitrary number of camera views. Because of the variability, designing a unified framework to tackle this task is challenging. The challenges can be summarized as the dilemma of being able to simultaneously estimate arbitrary camera poses and recover human mesh from arbitrary multi-view images while maintaining flexibility. To solve this dilemma, we propose a divide and conquer framework for Unified Human Mesh Recovery (U-HMR) from arbitrary multi-view images. In particular, U-HMR consists of a decoupled structure and two main components: camera and body decoupling (CBD), camera pose estimation (CPE), and arbitrary view fusion (AVF). As camera poses and human body mesh are independent of each other, CBD splits the estimation of them into two sub-tasks for two individual sub-networks (ie, CPE and AVF) to handle respectively, thus the two sub-tasks are disentangled. In CPE, since each camera pose is unrelated to the others, we adopt a shared MLP to process all views in a parallel way. In AVF, in order to fuse multi-view information and make the fusion operation independent of the number of views, we introduce a transformer decoder with a SMPL parameters query token to extract cross-view features for mesh recovery. To demonstrate the efficacy and flexibility of the proposed framework and effect of each component, we conduct extensive experiments on three public datasets: Human3.6M, MPI-INF-3DHP, and TotalCapture.

Autori: Xiaoben Li, Mancheng Meng, Ziyan Wu, Terrence Chen, Fan Yang, Dinggang Shen

Ultimo aggiornamento: 2024-06-17 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2403.12434

Fonte PDF: https://arxiv.org/pdf/2403.12434

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili