Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Robotique

Faire avancer la visualisation 3D avec des robots industriels

Utiliser la technologie NeRF pour des vues 3D précises dans des environnements industriels.

― 9 min lire


Les robots changent laLes robots changent ladonne de l'imagerie 3D.robotique.industrielle grâce à la précisionLes NeRF améliorent l'imagerie
Table des matières

Les Neural Radiance Fields (NeRFs) sont une nouvelle façon de créer des vues 3D de scènes à partir d'images prises sous différents angles. Cette technologie a le potentiel de changer notre façon de faire des reconstructions de scènes 3D, ce qui est important dans des domaines comme la robotique et les applications industrielles.

Pour utiliser les NeRFs, on a besoin d'un ensemble d'images montrant la même scène de différents points de vue, ainsi que des infos sur les positions et orientations des caméras quand les images ont été prises. En général, on obtient ces infos grâce à une méthode appelée Structure from Motion (SfM), qui peut prendre beaucoup de temps et avoir du mal avec certaines qualités d'image. La qualité des vues 3D finales générées avec les NeRFs dépend de divers facteurs, comme le nombre d'images qu'on a, la façon dont ces images sont réparties, et la précision avec laquelle on connaît les positions des caméras. De plus, les propriétés de surface de la scène à imager peuvent aussi influencer les résultats. Le SfM peut avoir des difficultés avec des cas délicats, comme des surfaces réfléchissantes ou des objets qui manquent de texture.

Dans cette étude, on regarde comment les NeRFs peuvent être utilisés dans les Robots industriels. Au lieu d'utiliser le SfM pour estimer les positions des caméras, on relie une caméra directement au bras du robot. Les mouvements du robot nous donnent les positions de la caméra avec des mesures précises. De cette façon, on élimine le besoin du processus de SfM qui prend du temps. On a testé l'efficacité de notre méthode en prenant des images d'objets courants dans des environnements industriels et évalué la qualité des vues générées par rapport à des références connues.

Introduction

Les NeRFs représentent un domaine de recherche en pleine croissance qui nous permet de créer de nouvelles vues d'une scène 3D à partir d'une série d'images. Cette technologie a des perspectives fascinantes pour des applications industrielles, comme la génération d'images d'entraînement de haute qualité pour des machines qui doivent reconnaître des objets, comme celles utilisées dans la fabrication.

Quand on utilise les NeRFs, la qualité des images générées dépend beaucoup de la précision avec laquelle on connaît les positions des caméras quand on a pris les images. Dans une approche traditionnelle, on s'appuie sur le SfM pour déterminer ces positions de caméras à l'avance. Cependant, le SfM peut être sensible à divers facteurs, comme la qualité et le contenu des images. Cette sensibilité peut mener à des inexactitudes qui affectent les résultats finaux.

Dans notre recherche, on propose une méthode plus efficace pour capturer des images en utilisant un robot industriel. La caméra est fixée au bout du bras du robot, et on peut obtenir directement la position de la caméra grâce aux mouvements du robot. Cette approche signifie qu'on ne dépend pas du SfM, qui peut être lent et moins précis dans certaines conditions.

Travaux Connus

Les NeRFs fonctionnent en considérant une scène comme un champ continu de couleur et de densité, où ces propriétés changent selon la perspective du spectateur. Une façon de créer des images à partir de ce champ est par le rendu volumétrique, qui consiste à calculer la couleur pour chaque pixel en fonction des infos de densité et de couleur le long d'un rayon spécifique. Les chercheurs ont amélioré cette méthode de différentes manières, augmentant la qualité des images rendues grâce à des techniques comme l'utilisation de cônes au lieu de rayons, ce qui aide à réduire les artefacts.

Une autre méthode, appelée 3D Gaussian Splatting (3DGS), est maintenant considérée comme l'une des meilleures approches pour générer rapidement de nouvelles vues avec une haute qualité. Au lieu de se fier uniquement au réseau de neurones pour créer la scène, le 3DGS utilise une collection de Gaussiens 3D pour une représentation de données plus efficace et un rendu plus rapide.

Bien que ces méthodes soient prometteuses, elles dépendent toujours de la détermination précise des poses des caméras, souvent par le biais du SfM. Dans notre recherche, on s'attaque à ces défis en utilisant les mouvements du bras robotisé pour obtenir des positions et orientations de caméras plus fiables.

Configuration du Robot Industriel

Notre configuration expérimentale inclut une caméra RGB haute résolution attachée à un bras robotique Universal Robots UR3e. Le robot peut se déplacer avec précision à différentes positions et est conçu pour minimiser les erreurs dans ses mouvements. On utilise une méthode spécifique pour calibrer à la fois la caméra et les mouvements du robot simultanément, ce qui signifie qu'on peut assurer une haute précision dans les données qu'on collecte.

Pour nos tests, on capture des images d'objets industriels dans des conditions variées. Certains de ces objets ont des surfaces réfléchissantes ou des détails fins, ce qui peut compliquer le traitement des images. On veut voir comment nos méthodes fonctionnent face à ces défis du monde réel.

Résultats Expérimentaux

Collecte de Données

On a rassemblé des images de trois objets industriels différents, et on a organisé les poses de la caméra de manière systématique autour de chaque objet. En plaçant la caméra hors du chemin, on a pu couvrir un large éventail d'angles. Les objets qu'on a choisis ont des propriétés de surface qu'on retrouve souvent dans des environnements industriels.

Précision des Poses

Pour évaluer la précision de notre méthode, on a comparé les Poses de caméras obtenues avec notre robot contre une méthode de référence plus précise. Les poses de référence ont été acquises en utilisant un objet de calibration spécialisé, qui nous donne une meilleure base de qualité.

Les résultats ont montré que notre méthode basée sur le robot a atteint une haute précision, surtout quand les images contenaient des caractéristiques délicates. Dans la plupart des cas, les poses obtenues par notre approche étaient bien meilleures que celles calculées avec des méthodes SfM traditionnelles.

Évaluation des Approches NeRF

Après avoir capturé les images, on a testé différentes techniques NeRF pour générer de nouvelles vues des objets. On a regardé comment ces méthodes se sont comportées avec les poses de caméras dérivées à la fois de notre robot et de l'approche SfM. Les principales métriques d'évaluation étaient le PSNR et le SSIM, qui nous aident à comprendre la qualité des images générées.

D'après nos tests, on a trouvé que la méthode 3DGS surpassait constamment les autres techniques NeRF en termes de qualité visuelle et de vitesse de rendu. Dans des conditions difficiles, notre approche utilisant les poses de caméra basées sur le robot a souvent abouti à des images plus nettes par rapport aux poses SfM.

Résultats Qualitatifs

En plus de l'évaluation quantitative, on a regardé les images produites par nos méthodes. La qualité visuelle des images générées par notre méthode basée sur le robot montrait de grands détails et du réalisme. Par exemple, dans un cas, l'approche du robot a rendu clairement la forme d'un objet sans artefacts visibles, ce qui était un gros avantage par rapport aux résultats dérivés du SfM.

Bien que les deux méthodes puissent fonctionner dans des conditions favorables, nos résultats indiquent que l'approche basée sur le robot est beaucoup plus robuste face à des scénarios variés.

Quantification de l'Incertitude

Dans de nombreuses applications industrielles, connaître le niveau de confiance des résultats est crucial. On a évalué les incertitudes dans les images générées par nos modèles NeRF en utilisant une méthode d'ensemble. Cette approche nous a permis d'évaluer combien de variabilité existait parmi les différentes sorties de notre modèle.

D'après notre analyse, on a trouvé que la méthode d'ensemble fournissait une estimation raisonnable de l'incertitude pour les vues qui étaient bien représentées dans le jeu de données d'entraînement. Cependant, pour les parties de la scène pas couvertes pendant l'entraînement, les résultats générés manquaient parfois de détails.

Conclusion

Notre recherche démontre le potentiel d'utiliser les NeRFs dans les applications de robots industriels. En reliant une caméra à un bras robotisé, on peut déterminer avec précision la position de la caméra, ce qui élimine le besoin de méthodes SfM qui peuvent être lentes et moins fiables. Les expériences ont montré que notre approche basée sur le robot peut produire des images de haute qualité, même dans des scénarios difficiles avec des surfaces réfléchissantes ou un manque de texture, ce qui en fait une solution efficace pour divers besoins industriels.

En avançant, on a l'intention d'élargir notre focus pour inclure non seulement la génération de nouvelles vues, mais aussi la reconstruction complète de scènes 3D dans des environnements industriels. Cela pourrait ouvrir la voie à plus d'applications, surtout dans des domaines complexes comme l'imagerie thermique, où les méthodes traditionnelles peuvent avoir du mal à cause des défis uniques posés par différents types de données.

Source originale

Titre: Novel View Synthesis with Neural Radiance Fields for Industrial Robot Applications

Résumé: Neural Radiance Fields (NeRFs) have become a rapidly growing research field with the potential to revolutionize typical photogrammetric workflows, such as those used for 3D scene reconstruction. As input, NeRFs require multi-view images with corresponding camera poses as well as the interior orientation. In the typical NeRF workflow, the camera poses and the interior orientation are estimated in advance with Structure from Motion (SfM). But the quality of the resulting novel views, which depends on different parameters such as the number and distribution of available images, as well as the accuracy of the related camera poses and interior orientation, is difficult to predict. In addition, SfM is a time-consuming pre-processing step, and its quality strongly depends on the image content. Furthermore, the undefined scaling factor of SfM hinders subsequent steps in which metric information is required. In this paper, we evaluate the potential of NeRFs for industrial robot applications. We propose an alternative to SfM pre-processing: we capture the input images with a calibrated camera that is attached to the end effector of an industrial robot and determine accurate camera poses with metric scale based on the robot kinematics. We then investigate the quality of the novel views by comparing them to ground truth, and by computing an internal quality measure based on ensemble methods. For evaluation purposes, we acquire multiple datasets that pose challenges for reconstruction typical of industrial applications, like reflective objects, poor texture, and fine structures. We show that the robot-based pose determination reaches similar accuracy as SfM in non-demanding cases, while having clear advantages in more challenging scenarios. Finally, we present first results of applying the ensemble method to estimate the quality of the synthetic novel view in the absence of a ground truth.

Auteurs: Markus Hillemann, Robert Langendörfer, Max Heiken, Max Mehltretter, Andreas Schenk, Martin Weinmann, Stefan Hinz, Christian Heipke, Markus Ulrich

Dernière mise à jour: 2024-05-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.04345

Source PDF: https://arxiv.org/pdf/2405.04345

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires