Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale# Apprendimento automatico

Progresso nella ricostruzione 3D del corpo umano

Il campionamento consapevole della struttura fine migliora la ricostruzione 3D umana da singola immagine.

― 7 leggere min


Rivoluzione nellaRivoluzione nellaRicostruzione 3D delCorpoimmagine.della modellazione umana da una singolaNuovi metodi migliorano la qualità
Indice

La ricostruzione 3D dei corpi umani è un'area interessante perché ha tanti usi pratici. Questi usi includono la realtà virtuale, la stampa 3D e i videogiochi. Anche se i sistemi di alta gamma possono creare con precisione un modello 3D di una persona usando più angolazioni di camera, questi sistemi non sono disponibili per i consumatori normali. Questa lacuna ha spinto i ricercatori a creare metodi che hanno bisogno solo di un'immagine singola, come una foto normale, per ricostruire il corpo di una persona in 3D.

Un approccio che ha guadagnato popolarità in questo campo si chiama modelli impliciti allineati ai pixel. Questi modelli apprendono una funzione che rappresenta la superficie di un corpo umano. Da questa funzione appresa, si può creare una rete 3D del corpo.

La Sfida di Ricostruire i Corpi Umani

La ricostruzione dei corpi umani in 3D presenta diverse sfide. Una sfida significativa è catturare superfici sottili, come orecchie e dita. I metodi esistenti spesso hanno difficoltà con queste caratteristiche. Questo è importante perché queste parti contribuiscono al realismo del modello 3D. Quando queste caratteristiche non sono rappresentate bene, il modello 3D finale appare strano o poco realistico.

Un altro problema che si presenta è la presenza di rumore o artefatti indesiderati nelle reti ricostruite. Questi artefatti possono rendere il modello ondulato o irreale, il che toglie dalla qualità complessiva della ricostruzione. Per superare questi problemi, è necessario sviluppare nuovi schemi di addestramento per il campionamento.

Che Cos'è il Campionamento Consapevole della Struttura Fina (FSS)?

Per affrontare i problemi dei modelli esistenti, introduciamo il Campionamento Consapevole della Struttura Fina (FSS). FSS è un nuovo schema di addestramento progettato per modelli impliciti allineati ai pixel che si concentra sulla ricostruzione umana da una singola vista. Il metodo FSS affronta le sfide di catturare superfici sottili e ridurre il rumore nelle reti ricostruite adattandosi allo spessore e alla complessità delle parti del corpo.

FSS utilizza un modo unico di gestire i punti campione durante il processo di addestramento. A differenza dei metodi tradizionali che generano punti campione casualmente, FSS mira a migliorare la qualità di questi punti. Fa questo guardando quanto è sottile o complessa una superficie e adattando di conseguenza l'addestramento.

Caratteristiche Chiave del FSS

FSS include diverse caratteristiche importanti che lo rendono efficace nel migliorare la ricostruzione dei corpi umani.

1. Punti Campione Gemelli

Nel FSS, ogni punto campione ha un punto gemello corrispondente. Questo significa che per ogni punto campionato, c'è un altro punto che è equidistante dalla superficie del corpo. Utilizzando coppie di punti, FSS può determinare in modo più accurato la posizione della superficie. Questo è cruciale per catturare caratteristiche sottili come orecchie e dita.

2. Spostamento Adattivo alla Prossimità

FSS introduce anche un metodo chiamato spostamento adattivo alla prossimità. Questo significa che il modo in cui i punti campione vengono spostati dalla superficie dipende da quanto è spessa o sottile la superficie. Per le aree più spesse, lo spostamento può essere maggiore, mentre per le aree più sottili, è minore. Questo aiuta a garantire che i punti campione siano più propensi a cadere all'interno o molto vicino alla superficie effettiva, migliorando i risultati.

3. Punti Campione Ancora

Un'altra innovazione nel FSS è l'uso di punti campione ancora. Questi punti si trovano nel punto più profondo delle caratteristiche corporee sottili. Aiutano a garantire che la ricostruzione sia più accurata indicando dove dovrebbero essere i valori di etichetta più alti. Questo aiuta a guidare il modello nel fare previsioni migliori sulla superficie.

4. Punti Campione Contro

FSS include una caratteristica chiamata punti campione contro, che aiutano a prevenire artefatti fluttuanti. Questi artefatti possono verificarsi in aree in cui non dovrebbe esserci alcuna rete. I punti campione contro si trovano all'esterno della rete e aiutano a guidare il modello ad evitare di fare previsioni errate in queste aree vuote. Avere un punto contro primario e uno secondario fornisce segnali chiari su dove le previsioni dovrebbero essere più basse.

5. Campionamento Guidato da Smplx

FSS utilizza anche un metodo chiamato campionamento guidato da Smplx. Questo approccio consente al processo di addestramento di concentrarsi di più su caratteristiche importanti. Ad esempio, aumenta il numero di punti campione intorno ad aree sottili come orecchie e dita, mentre riduce la densità di punti campione in aree più facili da ricostruire. Questo aiuta il modello a imparare meglio dai punti campione che contano di più.

Utilizzo delle Normali dei Punti Campione (NSP)

Una caratteristica che non è stata completamente utilizzata nei metodi passati è quella delle normali dei punti campione. Le normali aiutano a descrivere l'orientamento delle superfici. Nel FSS, le normali di ogni punto campione vengono utilizzate per migliorare l'apprendimento. Questo significa che durante l'addestramento, il modello può trarre vantaggio dalle normali per affinare meglio la sua comprensione della struttura corporea.

Invece di usare solo le normali dei punti che si trovano sulla superficie, il FSS utilizza le normali di tutti i punti campione. Queste informazioni aggiuntive aiutano il modello a imparare di più su come le superfici interagiscono tra loro.

Introduzione alla Perdita di Spessore della Rete (MTL)

Un problema comune con i modelli impliciti allineati ai pixel è che possono produrre reti con uno spessore irrealistico. Per affrontare questo, il FSS introduce un segnale di perdita di spessore della rete (MTL). Questo segnale incoraggia il modello a imparare quanto dovrebbero essere spessi i diversi parti del corpo.

Implementare il MTL non è semplice perché le reti previste non sono disponibili durante l'addestramento. Per ovviare a questo, FSS modifica l'architettura di base per consentire stime migliori dello spessore della rete. Questo viene ottenuto utilizzando un volume di caratteristiche separato prodotto da un tipo diverso di stack nell'architettura.

Valutando lo spessore delle diverse aree nella rete prevista e confrontandole con la verità di riferimento, il modello può imparare a produrre silhouette più realistiche durante la ricostruzione.

Addestramento e Valutazione

Il FSS è stato valutato utilizzando un dataset chiamato THuman2.0, che contiene scansioni di alta qualità di individui cinesi. I modelli basati sul FSS sono stati testati insieme a modelli esistenti per vedere come si comportavano.

I risultati hanno mostrato che il FSS ha superato significativamente i metodi precedenti sia in misure qualitative che quantitative. I modelli addestrati con FSS erano migliori a catturare i dettagli fini come orecchie e dita senza creare rumore indesiderato o artefatti.

Confronto del FSS con i Metodi Esistenti

Nella fase di valutazione, sono stati addestrati due modelli: uno basato sull'architettura originale e uno utilizzando un approccio ad alta risoluzione. Il modello ad alta risoluzione ha ottenuto risultati eccezionali su tutte le metriche rispetto ai modelli esistenti.

I risultati quantitativi hanno mostrato che il modello addestrato con FSS ha superato modelli come PIFu, PIFuHD e IntegratedPIFu. Osservando i risultati qualitativi, era evidente che i modelli che utilizzavano il FSS producevano ricostruzioni 3D umane più naturali e accurate.

Importanza delle Caratteristiche Chiave

Le cinque caratteristiche chiave del FSS sono state sottoposte a un'analisi più approfondita per capire i loro contributi individuali. Ogni caratteristica si è dimostrata essenziale per migliorare le prestazioni del modello. Questo dimostra che una combinazione di tecniche è necessaria per ottenere i migliori risultati nei compiti di ricostruzione umana.

Valutazione dell'Impatto di NSP e MTL

Ulteriori indagini si sono concentrate sugli effetti dell'uso delle normali dei punti campione e della perdita di spessore della rete. I modelli che hanno incorporato queste tecniche hanno mostrato miglioramenti notevoli nella cattura dei dettagli e nel mantenimento dell'accuratezza strutturale. Questo rafforza il valore di queste estensioni al framework FSS.

Conclusione

In sintesi, il Campionamento Consapevole della Struttura Fina (FSS) è un approccio innovativo per addestrare modelli impliciti allineati ai pixel per la ricostruzione umana da una singola vista. Affrontando le sfide di catturare caratteristiche sottili e ridurre il rumore, il FSS migliora significativamente la qualità delle ricostruzioni 3D.

L'introduzione di caratteristiche come i punti campione gemelli, lo spostamento adattivo alla prossimità, i punti campione ancora, i punti campione contro e il campionamento guidato da Smplx consente ai modelli di performare meglio rispetto alle versioni precedenti. Inoltre, l'utilizzo delle normali dei punti campione e l'incorporazione della perdita di spessore della rete garantiscono ulteriormente output più accurati e realistici.

Con questi progressi, il FSS stabilisce un nuovo standard nel campo della ricostruzione 3D umana, aprendo la strada a applicazioni migliorate in vari settori, comprese la realtà virtuale e i giochi. La ricerca continua sottolinea l'importanza dell'innovazione continua nella ricerca di tecnologie di ricostruzione 3D migliori e più accessibili.

Fonte originale

Titolo: Fine Structure-Aware Sampling: A New Sampling Training Scheme for Pixel-Aligned Implicit Models in Single-View Human Reconstruction

Estratto: Pixel-aligned implicit models, such as PIFu, PIFuHD, and ICON, are used for single-view clothed human reconstruction. These models need to be trained using a sampling training scheme. Existing sampling training schemes either fail to capture thin surfaces (e.g. ears, fingers) or cause noisy artefacts in reconstructed meshes. To address these problems, we introduce Fine Structured-Aware Sampling (FSS), a new sampling training scheme to train pixel-aligned implicit models for single-view human reconstruction. FSS resolves the aforementioned problems by proactively adapting to the thickness and complexity of surfaces. In addition, unlike existing sampling training schemes, FSS shows how normals of sample points can be capitalized in the training process to improve results. Lastly, to further improve the training process, FSS proposes a mesh thickness loss signal for pixel-aligned implicit models. It becomes computationally feasible to introduce this loss once a slight reworking of the pixel-aligned implicit function framework is carried out. Our results show that our methods significantly outperform SOTA methods qualitatively and quantitatively. Our code is publicly available at https://github.com/kcyt/FSS.

Autori: Kennard Yanting Chan, Fayao Liu, Guosheng Lin, Chuan Sheng Foo, Weisi Lin

Ultimo aggiornamento: 2024-11-11 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2402.19197

Fonte PDF: https://arxiv.org/pdf/2402.19197

Licenza: https://creativecommons.org/licenses/by-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili