Progressi nella Renderizzazione Inversa per Oggetti Traslucidi
Un nuovo framework migliora il rendering di oggetti transluci stimando parametri complessi.
― 7 leggere min
La rendering inversa è un compito difficile nella visione computerizzata. Si tratta di scomporre le immagini catturate in diversi fattori, come la forma dell'oggetto, come riflette la luce e la fonte di luce stessa. Questo processo apre la strada a varie applicazioni come la regolazione dell'illuminazione, la modifica dei materiali e la manipolazione degli oggetti. Questo articolo si concentra su un tipo specifico di oggetto noto come oggetti translucidi.
Gli oggetti translucidi sono quelli attraverso cui la luce può passare, ma non puoi vederli chiaramente. Esempi includono vari materiali che si trovano nella vita quotidiana come la pelle, alcuni tipi di plastiche e persino alimenti come il latte. Una caratteristica speciale di questi oggetti è la Dispersione SubSuperficiale (SSS). Questo significa che quando la luce colpisce la superficie, può penetrare nell'oggetto, rimbalzare all'interno e infine uscire in un altro punto. Questo comportamento complesso rende la rendering inversa particolarmente sfidante.
Per gestire questa complessità, assumiamo che le proprietà della SSS non cambino all'interno dell'oggetto. Questo significa che quando guardiamo un oggetto translucido, possiamo cercare di capire la sua forma, come riflette la luce, eventuali proprietà di SSS e l'illuminazione circostante tutto nello stesso momento.
Una delle principali sfide nella rendering inversa è ciò che è noto come il problema dell'ambiguità. Questo si riferisce alla difficoltà di determinare perché un oggetto appare in un certo modo in un'immagine. Ad esempio, un punto luminoso in una foto potrebbe essere causato da un riflesso di una fonte luminosa, oppure potrebbe essere dovuto al fatto che l'oggetto stesso ha un colore forte. La situazione diventa più complicata quando si considera la SSS, perché è difficile capire quanto della luminosità venga dalla superficie rispetto all'interno dell'oggetto.
I ricercatori hanno affrontato il problema dell'ambiguità in due modi principali. Il primo modo è fornire al modello più informazioni. Ad esempio, alcuni studi utilizzano più telecamere o fonti di luce diverse per raccogliere più dati sulla scena. Il secondo modo implica fare ipotesi o supposizioni. Alcuni ricercatori assumono un modello di riflessione semplice o considerano che l'oggetto veda la luce solo da una fonte.
Il nostro lavoro mira a trattare questo problema considerando sia come la superficie riflette la luce sia come funziona la SSS negli oggetti translucidi. Stiamo anche esaminando questi oggetti in varie condizioni di illuminazione. Questo approccio complesso potrebbe aggiungere più confusione, ma può portare a risultati più accurati.
Proponiamo un nuovo framework per la rendering inversa che considera sia la riflessione della superficie sia la SSS. Questo framework utilizza una rete neurale profonda per stimare i parametri necessari. Utilizziamo due tipi di tecniche di rendering: un renderer basato sulla fisica che guarda solo come la luce si riflette direttamente sulla superficie, e un renderer neurale che tiene conto dei molteplici rimbalzi di luce all'interno dell'oggetto. Utilizzando entrambe queste tecniche insieme, possiamo ricreare l'immagine basata sui fattori stimati e permettere anche aggiustamenti ai materiali.
Per migliorare l'accuratezza del renderer neurale, abbiamo sviluppato un nuovo metodo noto come perdita aumentata. Questo comporta modifiche ai parametri SSS per migliorare come il renderer neurale apprende. Sfruttiamo anche due tipi di immagini: una scattata con flash e un'altra senza flash, per raccogliere più dati per il nostro modello.
Per testare il nostro metodo, abbiamo creato un ampio dataset sintetico che contiene una grande varietà di oggetti translucidi. Questo dataset include oltre 117.000 scene diverse, permettendoci di esaminare quanto bene il nostro modello performi sotto varie condizioni.
Questo modello ha diversi importanti contributi. Prima di tutto, stima vari parametri simultaneamente dalle immagini. In secondo luogo, combina entrambi i tipi di renderer per separare la SSS da altri fattori. In terzo luogo, utilizza la perdita aumentata per fornire un feedback migliore durante l'allenamento. Infine, abbiamo assemblato un dataset completo per l'allenamento e il test del modello.
Guardando ai lavori correlati, c'è stato un notevole sforzo per stimare come la luce interagisce con le superfici e le forme degli oggetti. Con l'aumento della popolarità del deep learning, molti ricercatori si stanno ora concentrando sulla stima di questi parametri insieme. I metodi precedenti hanno affrontato casi con materiali specifici o condizioni ma spesso trascurano le complessità poste dalla SSS negli oggetti translucidi.
La SSS è significativa nella rendering di materiali come pelle, minerali e fumi, ma stimare i suoi parametri può essere piuttosto complicato. Alcuni lavori precedenti hanno cercato di affrontare la SSS utilizzando varie tecniche, ma hanno avuto difficoltà con problemi come lunghi tempi di elaborazione e difficoltà di ottimizzazione.
Il rendering differenziabile, che consente facili aggiustamenti durante l'allenamento, è stato anche ampiamente utilizzato nella ricostruzione delle immagini. Tuttavia, molti di questi metodi si concentrano solo sulla riflessione della luce diretta, trascurando gli effetti più sottili derivanti dalla luce che rimbalza all'interno dei materiali translucidi. Alcuni metodi recenti hanno cercato di affrontare questa lacuna, ma il nostro approccio mira a unire i punti di forza delle tecniche di rendering fisico e neurale.
La modifica delle scene è un'altra area in cui il deep learning ha fatto progressi. Sono state sviluppate molte tecniche per regolare l'illuminazione e i materiali, ma il nostro lavoro è il primo a concentrarsi specificamente sulla modifica dei parametri SSS utilizzando immagini di input minime.
Nel nostro modello proposto, rappresentiamo la geometria di un oggetto utilizzando mappe di profondità e mappe normali. Questa rappresentazione fornisce i dettagli necessari sulla forma. Utilizziamo anche un modello specifico per rappresentare come la superficie riflette la luce. Per la SSS, utilizziamo un modello con diversi componenti, inclusi fattori che determinano come la luce si disperde all'interno del materiale.
Il metodo utilizza un framework di deep learning per stimare questi vari parametri. Impieghiamo una struttura in cui una parte si concentra sull'estrazione delle caratteristiche dalle immagini, mentre altre parti stimano parametri specifici. L'obiettivo è creare un sistema in cui ogni compito supporti gli altri nella fornitura di un output robusto.
Il processo di rendering nel nostro framework consiste in due passaggi principali. Il primo passaggio utilizza un renderer basato sulla fisica per rappresentare come la luce interagisce con la superficie. Il secondo passaggio impiega un renderer neurale per imitare gli effetti luminosi causati dalla SSS. Combinando queste due tecniche, possiamo creare immagini più accurate rispetto all'uso di un metodo solo.
Per migliorare l'addestramento del renderer neurale, abbiamo introdotto una perdita aumentata. Questo consente al modello di apprendere da immagini con parametri SSS modificati e migliora la sua capacità di rilevare cambiamenti. Garantisce che il modello non diventi dipendente dall'immagine di input originale.
Il processo di addestramento misura quanto bene i parametri stimati corrispondono alla verità reale. Confrontiamo regolarmente i valori stimati per profondità, mappe normali, illuminazione e altri fattori contro i loro valori veri per valutare le prestazioni.
Nei nostri esperimenti, abbiamo testato le prestazioni del modello su dataset sintetici e oggetti del mondo reale. I risultati mostrano che il nostro approccio può stimare con precisione i parametri SSS e migliorare la qualità complessiva dell'output. Inoltre, abbiamo dimostrato la capacità di modificare i materiali sulla base dei parametri appresi.
Nonostante questi progressi, ci sono ancora limitazioni nell'approccio. Ad esempio, abbiamo assunto una proprietà costante nota come Indice di rifrazione, che può influenzare come la luce si comporta mentre passa attraverso materiali diversi. Per certi oggetti con proprietà uniche, le assunzioni del nostro modello potrebbero non valere.
La sfida dell'illuminazione e del rendering di diverse visualizzazioni di oggetti translucidi persiste. A differenza delle superfici che possono essere ricostruite da immagini di base, gli oggetti translucidi richiedono informazioni dettagliate sulla loro struttura completa per comprendere appieno come la luce interagisce con loro.
In conclusione, il nostro lavoro è un passo significativo verso la stima dei parametri complessi degli oggetti translucidi utilizzando dati minimi. Combinando diverse tecniche di rendering e introducendo nuovi metodi di addestramento, abbiamo migliorato la capacità di catturare e modificare con precisione le proprietà visive. I lavori futuri potrebbero affrontare le sfide in corso, portando a modelli ancora più capaci di lavorare con materiali complessi.
Titolo: Inverse Rendering of Translucent Objects using Physical and Neural Renderers
Estratto: In this work, we propose an inverse rendering model that estimates 3D shape, spatially-varying reflectance, homogeneous subsurface scattering parameters, and an environment illumination jointly from only a pair of captured images of a translucent object. In order to solve the ambiguity problem of inverse rendering, we use a physically-based renderer and a neural renderer for scene reconstruction and material editing. Because two renderers are differentiable, we can compute a reconstruction loss to assist parameter estimation. To enhance the supervision of the proposed neural renderer, we also propose an augmented loss. In addition, we use a flash and no-flash image pair as the input. To supervise the training, we constructed a large-scale synthetic dataset of translucent objects, which consists of 117K scenes. Qualitative and quantitative results on both synthetic and real-world datasets demonstrated the effectiveness of the proposed model.
Autori: Chenhao Li, Trung Thanh Ngo, Hajime Nagahara
Ultimo aggiornamento: 2023-05-15 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.08336
Fonte PDF: https://arxiv.org/pdf/2305.08336
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.