Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans le rendu inverse pour les objets translucides

Un nouveau cadre améliore le rendu des objets translucides en estimant des paramètres complexes.

― 9 min lire


Percée dans le renduPercée dans le rendud'objets translucidesmatériaux translucides complexes.Nouveau cadre améliore le rendu des
Table des matières

Le Rendu Inversé, c'est un vrai casse-tête en vision par ordinateur. Ça consiste à décomposer des images capturées en plusieurs éléments, comme la forme de l'objet, sa façon de réfléchir la lumière, et même la source de lumière. Ce processus ouvre la porte à plein d'applis comme ajuster l'éclairage, modifier les matériaux, et manipuler des objets. Cet article se concentre sur un type particulier d'objet, les objets translucides.

Les objets translucides, c'est ceux à travers lesquels la lumière peut passer, mais où on ne voit pas clairement à travers. Par exemple, ça peut être des trucs qu’on trouve dans la vie de tous les jours, comme la peau, certains plastiques, ou même des aliments comme le lait. Une caractéristique spéciale de ces objets, c'est la Diffusion sous-surface (SSS). En gros, quand la lumière touche la surface, elle peut pénétrer l'objet, rebondir à l'intérieur, et finalement ressortir à un autre endroit. Ce comportement complexe rend le rendu inversé particulièrement délicat.

Pour gérer cette complexité, on suppose que les propriétés de la SSS ne changent pas à l'intérieur de l'objet. Ça veut dire que quand on regarde un objet translucide, on peut essayer de déduire sa forme, comment il réfléchit la lumière, ses propriétés de SSS et l'éclairage environnant en même temps.

Un des gros défis dans le rendu inversé, c'est ce qu'on appelle le problème d'ambiguïté. Ça fait référence à la difficulté de déterminer pourquoi un objet a l'air d'une certaine manière sur une image. Par exemple, une tache lumineuse dans une photo pourrait venir d'un reflet d'une source de lumière, ou ça pourrait être juste la couleur forte de l'objet. La situation devient encore plus compliquée avec la SSS, parce qu'il est difficile de dire combien de luminosité vient de la surface par rapport à l'intérieur de l'objet.

Les chercheurs abordent le problème d'ambiguïté de deux manières principales. La première, c'est de donner plus d'infos au modèle. Par exemple, certaines études utilisent plusieurs caméras ou différentes sources de lumière pour recueillir plus de données sur la scène. La seconde manière, c'est de faire des suppositions. Certains chercheurs partent du principe d'un modèle de réflexion simple ou pensent que l'objet ne voit la lumière que d'une seule source.

Notre travail vise à s'attaquer à ce problème en considérant à la fois comment la surface réfléchit la lumière et comment la SSS fonctionne dans les objets translucides. On examine aussi ces objets dans différentes conditions d'éclairage. Cette approche complexe peut ajouter un peu de confusion, mais elle peut aussi mener à des résultats plus précis.

On propose un nouveau cadre pour le rendu inversé qui prend en compte à la fois la réflexion de surface et la SSS. Ce cadre utilise un réseau de neurones profonds pour estimer les paramètres nécessaires. On utilise deux types de techniques de rendu : un moteur de rendu basé sur la physique qui se concentre uniquement sur la façon dont la lumière se reflète directement sur la surface, et un moteur de Rendu Neural qui prend en compte les multiples rebonds de lumière à l'intérieur de l'objet. En combinant ces deux techniques, on peut recréer l'image en fonction des facteurs estimés et aussi permettre des ajustements de matériaux.

Pour améliorer la précision du moteur de rendu neural, on a développé une nouvelle méthode connue sous le nom de perte augmentée. Cela implique de modifier les paramètres de SSS pour améliorer l'apprentissage du moteur de rendu neural. On profite également de l'utilisation de deux types d'images : une prise avec un flash et une autre sans flash, pour rassembler plus de données pour notre modèle.

Pour tester notre méthode, on a créé un grand jeu de données synthétiques qui contient une grande variété d'objets translucides. Ce jeu de données comprend plus de 117 000 scènes différentes, nous permettant d'examiner comment notre modèle fonctionne sous différentes conditions.

Ce modèle a plusieurs contributions importantes. D'abord, il estime plusieurs paramètres en même temps à partir des images. Ensuite, il combine les deux types de moteurs de rendu pour séparer la SSS des autres facteurs. Troisièmement, il utilise la perte augmentée pour donner un meilleur retour pendant l'entraînement. Enfin, on a assemblé un ensemble complet de données pour entraîner et tester le modèle.

En regardant les travaux connexes, il y a eu beaucoup d'efforts pour estimer comment la lumière interagit avec les surfaces et les formes des objets. Avec la montée en popularité de l'apprentissage profond, beaucoup de chercheurs se concentrent maintenant sur l'estimation de ces paramètres ensemble. Les méthodes précédentes ont traité des cas avec des matériaux ou des conditions spécifiques, mais souvent sans tenir compte des complexités posées par la SSS dans les objets translucides.

La SSS est importante pour le rendu de matériaux comme la peau, les minéraux et la fumée, mais estimer ses paramètres peut être assez compliqué. Certaines études précédentes ont essayé de gérer la SSS avec différentes techniques, mais ont eu du mal avec des problèmes comme des temps de traitement longs et des difficultés d'optimisation.

Le rendu différentiable, qui permet des ajustements faciles pendant l'entraînement, a également été largement utilisé pour reconstruire des images. Cependant, beaucoup de ces méthodes se concentrent uniquement sur la réflexion directe de la lumière, en manquant les effets plus subtils causés par la lumière qui rebondit à l'intérieur des matériaux translucides. Certaines méthodes récentes ont essayé d'aborder cette lacune, mais notre approche vise à combiner les forces des techniques de rendu physique et neural.

L'édition de scènes est un autre domaine où l'apprentissage profond a fait des progrès. Beaucoup de techniques ont été développées pour ajuster l'éclairage et les matériaux, mais notre travail est le premier à se concentrer spécifiquement sur l'édition des paramètres de SSS en utilisant des images d'entrée minimales.

Dans notre modèle proposé, on représente la géométrie d'un objet en utilisant des cartes de profondeur et des cartes normales. Cette représentation fournit les détails de forme nécessaires. On utilise aussi un modèle spécifique pour représenter comment la surface réfléchit la lumière. Pour la SSS, on utilise un modèle avec plusieurs composants, y compris des facteurs qui dictent comment la lumière se disperse dans le matériau.

La méthode utilise un cadre d'apprentissage profond pour estimer ces différents paramètres. On emploie une structure où une partie se concentre sur l'extraction de caractéristiques des images, tandis que d'autres parties estiment des paramètres spécifiques. L'objectif est de créer un système où chaque tâche soutient les autres pour fournir un résultat robuste.

Le processus de rendu dans notre cadre se compose de deux étapes majeures. La première étape utilise un moteur de rendu basé sur la physique pour représenter comment la lumière interagit avec la surface. La deuxième étape utilise un moteur de rendu neural pour imiter les effets d'éclairage causés par la SSS. En combinant ces deux techniques, on peut créer des images plus précises que si on utilisait chaque méthode séparément.

Pour améliorer l'entraînement du moteur de rendu neural, on a introduit une perte augmentée. Cela permet au modèle d’apprendre à partir d'images avec des paramètres SSS modifiés et améliore sa capacité à détecter les changements. Ça assure que le modèle ne devienne pas dépendant de l'image d'entrée originale.

Le processus d'entraînement mesure à quel point les paramètres estimés correspondent à la vérité terrain. On compare régulièrement les valeurs estimées pour la profondeur, les cartes normales, l'éclairage et d'autres facteurs avec leurs vraies valeurs pour évaluer les performances.

Dans nos expériences, on a testé les performances du modèle sur des ensembles de données synthétiques et des objets réels. Les résultats montrent que notre approche peut estimer avec précision les paramètres SSS et améliorer la qualité globale de sortie. De plus, on a démontré la capacité d'éditer des matériaux en fonction des paramètres appris.

Malgré ces avancées, il y a encore des limites à l'approche. Par exemple, on a supposé une propriété constante, connue sous le nom d'index de réfraction, qui peut affecter la façon dont la lumière se comporte en passant à travers différents matériaux. Pour certains objets avec des propriétés uniques, les suppositions de notre modèle pourraient ne pas tenir.

Le défi d'éclairer et de rendre différentes vues d'objets translucides persiste aussi. Contrairement aux surfaces qui peuvent être reconstruites à partir d'images de base, les objets translucides nécessitent des informations détaillées sur leur structure complète pour comprendre pleinement comment la lumière interagit avec eux.

En conclusion, notre travail est une étape importante vers l'estimation des paramètres complexes des objets translucides en utilisant des données minimales. En combinant différentes techniques de rendu et en introduisant de nouvelles méthodes d'entraînement, on a amélioré la capacité à capturer et à éditer avec précision les propriétés visuelles. Les travaux futurs pourraient aborder les défis en cours, menant à des modèles encore plus performants pour travailler avec des matériaux complexes.

Source originale

Titre: Inverse Rendering of Translucent Objects using Physical and Neural Renderers

Résumé: In this work, we propose an inverse rendering model that estimates 3D shape, spatially-varying reflectance, homogeneous subsurface scattering parameters, and an environment illumination jointly from only a pair of captured images of a translucent object. In order to solve the ambiguity problem of inverse rendering, we use a physically-based renderer and a neural renderer for scene reconstruction and material editing. Because two renderers are differentiable, we can compute a reconstruction loss to assist parameter estimation. To enhance the supervision of the proposed neural renderer, we also propose an augmented loss. In addition, we use a flash and no-flash image pair as the input. To supervise the training, we constructed a large-scale synthetic dataset of translucent objects, which consists of 117K scenes. Qualitative and quantitative results on both synthetic and real-world datasets demonstrated the effectiveness of the proposed model.

Auteurs: Chenhao Li, Trung Thanh Ngo, Hajime Nagahara

Dernière mise à jour: 2023-05-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.08336

Source PDF: https://arxiv.org/pdf/2305.08336

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires