Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Un Nuovo Metodo per la Ricostruzione di Scene Indoor

Questa ricerca presenta un modo veloce per ricostruire scene interne a partire da singole immagini.

― 5 leggere min


Metodo Veloce per laMetodo Veloce per laRicostruzione di SceneIndoorricostruzione 3D da immagini singole.Nuovo approccio permette una rapida
Indice

La ricostruzione di scene interne da immagini di una sola telecamera è fondamentale per le tecnologie in realtà aumentata e robotica. Recenti innovazioni su come rappresentiamo le scene con reti neurali hanno migliorato le ricostruzioni delle superfici, ma l'uso di modelli complessi può rallentare i processi di addestramento e rendering.

Nuovo Approccio alla Ricostruzione delle Scene

Questo lavoro introduce un metodo che utilizza una funzione di distanza firmata (SDF) più semplice in un tipo speciale di griglia. Questa griglia combina dati sparsi a livello globale e dati densi a livello locale, il che aiuta ad accelerare il processo di ricostruzione. Questo approccio evita molte delle complessità dei modelli precedenti basati su perceptron a più strati (MLP).

Sfruttando la naturale scarsità di come le superfici appaiono nello spazio, il nuovo metodo consente query rapide e può essere ampliato per includere altri tipi di dati, come colori e etichette per diverse parti della scena.

Passi per la Ricostruzione di Scene Monoculari

Per applicare efficacemente questo approccio, è stato sviluppato un metodo per calibrare la scala per garantire una configurazione geometrica accurata utilizzando informazioni di profondità da immagini singole. Tecniche di rendering volumetrico differenziabili vengono quindi impiegate per affinare rapidamente i dettagli iniziali della ricostruzione.

In aggiunta, il metodo utilizza campi casuali continui (CRf) ad alta dimensione ed efficienti che collegano la geometria e la semantica degli oggetti della scena, portando a una maggiore coerenza complessiva.

Confronto delle Prestazioni

I test hanno rivelato che questo nuovo metodo è molto più veloce rispetto alle tecniche esistenti. Riduce i tempi di addestramento di 10 volte e i tempi di rendering di 100 volte, pur mantenendo un livello di precisione paragonabile ai migliori metodi attuali.

Con la capacità di ricostruire spazi interni in tre dimensioni in modo efficace, questo approccio è ideale per applicazioni in robotica, realtà aumentata e design architettonico. Le telecamere monoculari, essendo ampiamente disponibili, rendono questo approccio particolarmente utile per gli utenti quotidiani.

Sfide nella Ricostruzione delle Scene

Anche se sono stati fatti significativi progressi, ci sono ancora diverse sfide nella ricostruzione delle scene da immagini singole. I metodi tradizionali spesso si basano sull'abbinamento di patch da più immagini, il che può richiedere molto tempo. Alcuni metodi recenti che utilizzano reti neurali per la convoluzione 3D hanno mostrato risultati rapidi, ma faticano con la risoluzione e a generalizzare su spazi più grandi.

Recenti progressi che utilizzano campi di radianza neurale hanno raggiunto ricostruzioni di superfici accurate, ma questi metodi a volte falliscono su scene più grandi a causa di vincoli di coerenza fotografica deboli.

La Struttura dei Dati

Una grande innovazione di questo nuovo approccio è l'uso di una struttura di grid di voxel sparse a livello globale e dense a livello locale. Questo framework consente un'allocazione adattiva della memoria intorno alle superfici, rendendolo più efficiente. Questo metodo risolve anche il problema chiave del Rendering Differenziabile da griglie di voxel SDF, che era stato una lacuna nelle ricerche precedenti.

Superare le Sfide di Implementazione

Tre principali sfide sono state affrontate in questo lavoro:

  1. Creare una mappa hash spaziale priva di collisioni che consenta l'indicizzazione voxel uno a uno.
  2. Implementare l'interpolazione differenziabile tra voxel hashati spazialmente.
  3. Abilitare il ray marching e il campionamento rapidi utilizzando una mappa hash.

Inizializzazione e Raffinamento Efficienti

Il metodo utilizza previsioni di profondità da immagini monoculari come punto di partenza per l'ottimizzazione. Una tecnica di inizializzazione innovativa combina queste stime di profondità con vincoli di struttura da movimento (SfM) per creare un punto di partenza coerente per la ricostruzione della superficie.

Utilizzare colori noti e informazioni semantiche aiuta a migliorare la delimitazione dei bordi degli oggetti. Questo viene ulteriormente affinato utilizzando campi casuali condizionali continui (CRF) che mantengono la coerenza locale nelle proprietà di colori, normali e semantica.

Panoramica del Pipeline

Il processo di ricostruzione inizia con l'acquisizione di immagini monoculari. Dopo aver generato previsioni iniziali di profondità e normali, il sistema passa attraverso tre fasi principali:

  1. Ricostruzione SfM Sparsa: Questa fase coinvolge l'ottimizzazione della scala di profondità per una geometria accurata.
  2. Fusione Volume: Unire vari elementi di dati in una coesa griglia di voxel sparsa e impostare la struttura geometrica iniziale.
  3. Rendering Differenziabile: Raffinare i dettagli utilizzando tecniche di rendering avanzate e smoothing CRF.

Struttura dei Dati Sparsi-Densi

Il cuore di questo nuovo metodo è la scarsità e densità nella sua struttura di dati. Lavorando solo con i voxel vicini alle superfici, il processo di ricostruzione diventa più veloce ed efficiente.

Ottimizzazione della Scala di Profondità

Il sistema è progettato per regolare la scala di profondità e correggere eventuali distorsioni nelle immagini di profondità monoculari. Questo comporta la definizione di vincoli per garantire che la profondità attraverso tutte le immagini rimanga coerente, migliorando la precisione complessiva della ricostruzione.

Raffinamento della Geometria e dei Dettagli

Dopo la fusione volumetrica iniziale, le proprietà vengono ottimizzate tramite sfocatura gaussiana e tecniche di differenziazione avanzate. Questo consente bordi più chiari e dettagli più fini nella scena ricostruita.

CRF Continuo per il Raffinamento delle Proprietà

Le proprietà, come colori, normali ed etichette, vengono affinate utilizzando i CRF. Invece di concentrarsi solo su nodi discreti, questo metodo considera proprietà continue sulla superficie. Usa potenziali di energia per garantire transizioni fluide e coerenza ai confini degli oggetti.

Valutazione e Risultati

Il metodo è stato messo alla prova contro vari benchmark. Mostra una velocità migliorata e una qualità paragonabile ad altre tecniche all'avanguardia. I risultati forniscono una ricostruzione dettagliata che cattura efficacemente tessiture ricche e proprietà geometriche.

Conclusione

Questo nuovo approccio fornisce un avanzamento significativo per la ricostruzione delle scene da immagini singole. Sfruttando una griglia sparsa-densa efficiente e sfruttando le indicazioni di profondità monocolari, il metodo offre una ricostruzione veloce e accurata senza fare affidamento su reti multilivello complesse.

Con tempi di addestramento e rendering rapidi, questo sistema ha un grande potenziale per varie applicazioni nel mondo reale che vanno dalla robotica alla realtà virtuale. La ricerca dimostra come tecniche innovative nella strutturazione dei dati e nell’ottimizzazione della profondità possano ridefinire ciò che è possibile nel campo della ricostruzione 3D da semplici input della telecamera.

Fonte originale

Titolo: Fast Monocular Scene Reconstruction with Global-Sparse Local-Dense Grids

Estratto: Indoor scene reconstruction from monocular images has long been sought after by augmented reality and robotics developers. Recent advances in neural field representations and monocular priors have led to remarkable results in scene-level surface reconstructions. The reliance on Multilayer Perceptrons (MLP), however, significantly limits speed in training and rendering. In this work, we propose to directly use signed distance function (SDF) in sparse voxel block grids for fast and accurate scene reconstruction without MLPs. Our globally sparse and locally dense data structure exploits surfaces' spatial sparsity, enables cache-friendly queries, and allows direct extensions to multi-modal data such as color and semantic labels. To apply this representation to monocular scene reconstruction, we develop a scale calibration algorithm for fast geometric initialization from monocular depth priors. We apply differentiable volume rendering from this initialization to refine details with fast convergence. We also introduce efficient high-dimensional Continuous Random Fields (CRFs) to further exploit the semantic-geometry consistency between scene objects. Experiments show that our approach is 10x faster in training and 100x faster in rendering while achieving comparable accuracy to state-of-the-art neural implicit methods.

Autori: Wei Dong, Chris Choy, Charles Loop, Or Litany, Yuke Zhu, Anima Anandkumar

Ultimo aggiornamento: 2023-05-22 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2305.13220

Fonte PDF: https://arxiv.org/pdf/2305.13220

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili