Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avances en imagen 3D con campos de radiancia neural y HoloLens

Esta investigación resalta la eficiencia de los NeRFs usando datos de HoloLens para modelos 3D.

― 6 minilectura


NeRFs y HoloLens enNeRFs y HoloLens enimagen 3Ddatos de HoloLens.NeRFs mejoran el modelado 3D usando
Tabla de contenidos

Los Campos de Radiancia Neural, o NeRF, son un método que se usa para crear imágenes 3D a partir de fotos 2D y las posiciones de las cámaras que tomaron esas fotos. Esta técnica es clave en campos como la Fotogrametría, que es la ciencia de hacer mediciones a partir de fotografías, especialmente para crear modelos 3D.

Cómo Funcionan los Campos de Radiancia Neural

Los NeRF funcionan tomando un conjunto de posiciones de cámaras y las imágenes capturadas desde esos ángulos. Usa estos datos para entrenar una red neuronal, que es un tipo de programa de computadora diseñado para aprender patrones. El objetivo es estimar cuán denso y de qué color debería ser cada punto en el espacio 3D. La densidad aquí se refiere a cuán probable es encontrar un objeto en un punto específico en el espacio. Este método es útil porque el NeRF entrenado puede darnos formas y colores 3D reconociendo dónde están los objetos según su densidad.

Métodos Tradicionales vs. NeRF

Tradicionalmente, crear modelos 3D a partir de fotos implica un proceso llamado Estructura a Partir del Movimiento (SfM). Este método calcula las posiciones de las cámaras usando imágenes que se superponen y encuentra puntos coincidentes en esas imágenes. Aunque los métodos tradicionales pueden dar buenos resultados, los NeRF ofrecen un enfoque diferente que permite reconstrucciones más detalladas y ricas.

El Papel de HoloLens en la Recolección de Datos

El Microsoft HoloLens es un dispositivo que captura tanto imágenes como posiciones de cámaras, siendo una herramienta útil para los NeRF. Puede extraer los datos necesarios directamente de sus sensores, permitiendo reconstrucciones 3D de alta calidad sin necesitar un procesamiento previo extenso. Esta es una gran ventaja porque simplifica el flujo de trabajo para crear modelos 3D.

Enfoque de la Investigación

En esta investigación, nos enfocamos en si los datos de la cámara del HoloLens pueden llevar a un entrenamiento exitoso de NeRF y a una buena reconstrucción 3D. El estudio compara las poses de cámara internas del HoloLens con las posiciones de cámara externas generadas usando SfM. Además, evaluamos el impacto de refinar las poses durante el entrenamiento para mejorar los resultados.

Poses de Cámara y Reconstrucción 3D

El primer paso en nuestro enfoque implica transformar las Posiciones de la cámara capturadas por el HoloLens para que se ajusten al formato requerido por los NeRF. Esto significa convertir los movimientos de la cámara, que incluyen rotación, traducción y escalado, en una representación matemática estándar. Haciendo esto, podemos asegurarnos de que el NeRF entienda correctamente la posición de la cámara en un espacio 3D.

Después de preparar los datos, podemos comenzar a entrenar el NeRF. Observamos que las posiciones internas de la cámara, cuando se ajustan o refinan ligeramente, pueden llevar a resultados exitosos, permitiendo que la red neuronal cree modelos 3D precisos. Descubrimos que simples rotaciones pueden ayudar a lograr una buena convergencia, lo que significa que el NeRF aprende correctamente de los datos.

Comparando Datos de Cámara Internos y Externos

El estudio también analiza tanto las posiciones internas de la cámara del HoloLens como las externas de SfM para ver cómo se comparan. Resulta que ambos métodos conducen a un entrenamiento exitoso para los NeRF, pero la calidad de las reconstrucciones 3D resultantes varió. El entrenamiento mostró que las posiciones internas de la cámara inicialmente proporcionaron resultados de menor calidad, pero con refinamiento, podrían alcanzar niveles similares a las poses externas.

Ventajas de NeRF sobre Métodos Tradicionales

Un hallazgo importante es que las reconstrucciones de los NeRF superan a las de los métodos fotogramétricos tradicionales. Los NeRF pueden generar modelos 3D más completos y detallados, particularmente en áreas con menos textura o color. Por ejemplo, partes de objetos que podrían no estar bien definidas en imágenes 2D pueden ser bien representadas en el Modelo 3D producido por los NeRF.

Visualización y Resultados

Realizamos varios experimentos para ver cómo diferentes tipos de datos de cámara afectan la calidad de las reconstrucciones 3D finales. El estudio involucró observar la Relación Señal-Ruido Pico (PSNR), que es una medida de cuán claras y detalladas son las imágenes. Valores más altos de PSNR indican mejor calidad, y nuestros hallazgos mostraron que los datos internos del HoloLens podían alcanzar un PSNR de alrededor de 25 dB inicialmente, que mejoró a 27 dB con refinamiento.

Además, las posiciones de cámara externas de SfM consistentemente lograron alrededor de 27 dB sin refinamientos. Los resultados también mostraron menos artefactos en las reconstrucciones 3D de los NeRF en comparación con los métodos tradicionales, lo que indica una salida más suave y precisa.

El Conjunto de Datos Usado

Para nuestro análisis, utilizamos un conjunto de datos del Microsoft HoloLens que contenía imágenes de una planta en un entorno interior. El HoloLens capturó 64 imágenes desde diferentes ángulos, proporcionando un rico conjunto de datos para entrenar el NeRF. Este conjunto de datos nos permitió resaltar las ventajas de usar la interfaz del HoloLens sobre los métodos tradicionales.

Conclusión

Los resultados de esta investigación demuestran la efectividad de usar las poses de cámara internas del HoloLens para crear reconstrucciones 3D de alta resolución. La capacidad de refinar estimaciones de poses durante la fase de entrenamiento mejora enormemente la calidad de la salida.

En general, encontramos que los NeRF son una herramienta poderosa para generar modelos 3D detallados y precisos a partir de datos de imagen, especialmente cuando se combinan con dispositivos avanzados como el HoloLens. El método no solo simplifica el flujo de trabajo sino que también produce resultados que superan los métodos tradicionales en varios aspectos, particularmente en detalle y completitud de superficies.

En futuros trabajos, hay recomendaciones para emplear diferentes algoritmos para mejorar aún más la calidad de las reconstrucciones, especialmente en el manejo de artefactos. El potencial de usar NeRF en aplicaciones móviles y prácticas, especialmente con el HoloLens, ofrece oportunidades emocionantes para la cartografía y modelado 3D en diversos campos.

La combinación de estas tecnologías podría llevarnos a una nueva forma de pensar en cómo generamos e interactuamos con imágenes 3D, haciendo que sea más fácil y rápido que nunca capturar escenas complejas en gran detalle.

Fuente original

Título: A Comparative Neural Radiance Field (NeRF) 3D Analysis of Camera Poses from HoloLens Trajectories and Structure from Motion

Resumen: Neural Radiance Fields (NeRFs) are trained using a set of camera poses and associated images as input to estimate density and color values for each position. The position-dependent density learning is of particular interest for photogrammetry, enabling 3D reconstruction by querying and filtering the NeRF coordinate system based on the object density. While traditional methods like Structure from Motion are commonly used for camera pose calculation in pre-processing for NeRFs, the HoloLens offers an interesting interface for extracting the required input data directly. We present a workflow for high-resolution 3D reconstructions almost directly from HoloLens data using NeRFs. Thereby, different investigations are considered: Internal camera poses from the HoloLens trajectory via a server application, and external camera poses from Structure from Motion, both with an enhanced variant applied through pose refinement. Results show that the internal camera poses lead to NeRF convergence with a PSNR of 25\,dB with a simple rotation around the x-axis and enable a 3D reconstruction. Pose refinement enables comparable quality compared to external camera poses, resulting in improved training process with a PSNR of 27\,dB and a better 3D reconstruction. Overall, NeRF reconstructions outperform the conventional photogrammetric dense reconstruction using Multi-View Stereo in terms of completeness and level of detail.

Autores: Miriam Jäger, Patrick Hübner, Dennis Haitz, Boris Jutzi

Última actualización: 2023-04-20 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2304.10664

Fuente PDF: https://arxiv.org/pdf/2304.10664

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares