Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Gráficos

Avances en la Reconstrucción de Superficies 3D Usando LoD-NeuS

Un nuevo método mejora el detalle y la calidad en modelado 3D a través de LoD-NeuS.

― 10 minilectura


LoD-NeuS: El Futuro delLoD-NeuS: El Futuro delModelado 3Dsuperficies.la tecnología de reconstrucción deUn nuevo método empuja los límites en
Tabla de contenidos

Los desarrollos recientes en modelado 3D han introducido nuevas formas de crear imágenes detalladas y realistas usando un método conocido como renderizado neuronal. Este enfoque permite que las computadoras entiendan y generen imágenes desde diferentes perspectivas. Sin embargo, aún hay muchos desafíos, especialmente cuando se trata de capturar con precisión los finos detalles de las superficies de los objetos. Los métodos tradicionales a menudo no logran representar geometrías intrincadas.

Para mejorar estos desafíos, ha surgido un nuevo método llamado Superficie Implícita Neuronal (NeuS). A diferencia de las técnicas anteriores que se enfocan en la densidad suave para describir superficies, NeuS utiliza una función de distancia firmada (SDF). Este método proporciona una forma más clara de representar superficies. NeuS ha mostrado resultados prometedores, pero capturar información geométrica detallada sigue siendo complicado.

Un problema principal al reconstruir superficies es la capacidad de reproducir detalles diminutos con precisión. Modelos anteriores han utilizado una técnica llamada codificación de posición de frecuencia para abordar esto, pero a menudo se queda corta. Este modelo puede llevar a representaciones suaves pero con menos detalles, especialmente en formas complejas.

Otro enfoque, llamado HF-NeuS, introduce una red de desplazamiento diseñada específicamente para aprender estos detalles de alta frecuencia. Sin embargo, aún enfrenta dificultades debido a las limitaciones en cómo procesa la información. Como resultado, se pueden perder o malinterpretar muchos detalles al generar nuevas vistas de estos objetos.

Tradicionalmente, los métodos basados en vóxeles explícitos han lidiado con desafíos similares empleando técnicas de prefiltrado multiescala que ayudan a lograr un aspecto refinado y reducir artefactos visuales. A partir de esto, algunas técnicas recientes basadas en NeuS han comenzado a combinar métodos implícitos y explícitos para mejorar aún más los resultados. Al utilizar técnicas de representación como grillas de vóxeles, estos métodos apuntan a obtener mejores aproximaciones geométricas. Sin embargo, combinar estos dos enfoques presenta su propio conjunto de obstáculos.

Método Propuesto

Para abordar los desafíos involucrados en la reconstrucción de geometría de alta calidad usando imágenes multivista, proponemos un nuevo método llamado LoD-NeuS. Este método introduce un marco que integra sin problemas la representación de superficies implícitas con un método de codificación para diferentes niveles de detalle (LoD). El objetivo es lograr una reconstrucción fiel de características geométricas intrincadas en las imágenes.

La superficie implícita se representa a través de un volumen de características multiescala utilizando una arquitectura de tri-plano. Este volumen se optimiza usando técnicas que permiten un muestreo efectivo de detalles geométricos. Al emplear una estrategia de codificación de posición de tri-plano, el nuevo método busca mejorar la capacidad de capturar varios niveles de detalle en diferentes partes de una imagen.

Además, para mitigar aún más los efectos de aliasing que surgen de la representación de geometría de alta frecuencia, el modelo incorpora una técnica de caracterización multiconvolucionada dentro de una forma cónica. Esto permite la recuperación precisa de detalles más finos en la geometría 3D. Además, la estrategia mejora los desafíos relacionados con la reconstrucción de superficies delgadas a través de una estrategia de refinamiento de crecimiento de SDF.

En las pruebas, LoD-NeuS superó los enfoques existentes basados en NeuS cuando se trata de reconstruir superficies de alta calidad y generar nuevas vistas. Esto fue particularmente evidente en escenarios que involucraron objetos y escenas altamente detalladas.

Antecedentes

Reconstrucción 3D Multivista

La tarea de reconstruir superficies 3D a partir de múltiples fotografías es fundamental en los campos de visión por computadora y gráficos. Este proceso se puede agrupar en tres categorías principales: reconstrucción basada en puntos, reconstrucción de superficies y reconstrucción volumétrica.

Los métodos basados en puntos primero evalúan la geometría de cada píxel identificando puntos coincidentes en varias imágenes, luego incorporan esta información en procesos de superficies de malla. Los métodos de reconstrucción de superficies se centran en crear superficies directamente a partir de mapas de profundidad, mientras que los métodos volumétricos estiman el color y la ocupación dentro de una grilla de vóxeles derivada de múltiples puntos de vista.

La precisión de la reconstrucción de superficies depende en gran medida de igualar eficazmente los puntos correspondientes, lo que puede volverse complejo en áreas con texturas sutiles. Para evitar estos problemas, las técnicas volumétricas descomponen una escena en múltiples muestras, sin embargo, esto conlleva altas demandas de memoria que pueden restringir la resolución y comprometer la calidad general.

Superficie Implícita Neuronal

La llegada de representaciones neuronales implícitas ha mostrado promesas en la reconstrucción de superficies altamente detalladas. Un contendiente notable en este ámbito son los Campos de Radiancia Neuronal (NeRF), que aprenden la radiancia de una escena y facilitan la generación de vistas novedosas a través de trazado de rayos volumétrico. NeRF se ha aplicado en numerosas tareas, incluyendo síntesis de vistas novedosas y renderizado inverso.

Sin embargo, obtener superficies suaves usando funciones de densidad puede, a menudo, resultar en geometría ruidosa o imprecisa. En contraste, utilizar una función de distancia firmada proporciona un enfoque más claro, ayudando a evitar algunas de estas trampas. NeuS ha surgido para ampliar las capacidades de NeRF a través de la integración de SDF dentro de su marco.

No obstante, NeuS y sus sucesores lidian con los desafíos de capturar con precisión los detalles de alta frecuencia. El uso de codificación de posición de frecuencia, aunque útil, a menudo se queda corto al mantener diferentes niveles de detalle en varias áreas. Además, las técnicas de muestreo pueden conducir a información submuestreada que resulta en artefactos visuales.

Representación Antialiasing

Los métodos tradicionales para la representación de superficies, como las mallas poligonales o las grillas de vóxeles, pueden reconstruir superficies de manera eficiente sin producir artefactos visuales. A menudo utilizan técnicas de prefiltrado multiescala, que manejan diferentes niveles de detalle mientras mantienen la eficiencia.

En contraste, las representaciones de superficies implícitas continuas requieren técnicas sofisticadas, como supersampling, para evitar el aliasing, lo que puede ralentizar el procesamiento. Los enfoques híbridos que combinan representaciones explícitas e implícitas están surgiendo como una solución, buscando capturar lo mejor de ambas técnicas. Sin embargo, los desafíos persisten al intentar fusionar los beneficios antialiasing de los métodos explícitos con representaciones híbridas.

Codificación Tri-plano Multiescala

Los avances recientes han demostrado que utilizar características aprendibles de grillas multiescala puede mejorar tanto la calidad como la velocidad de la reconstrucción. Las arquitecturas de tri-plano proporcionan un medio flexible para gestionar geometrías complejas de manera eficiente.

Para superar las dificultades al reproducir detalles de alta frecuencia, hemos implementado una representación de tri-plano multiescala dentro de nuestro marco. Esta estructura de tri-plano consiste en tres planos de características ortogonales, que sirven como un cubo 3D central. Para cada punto 3D, lo proyectamos sobre los planos para recoger características y mezclarlas mediante interpolación bilineal.

En nuestro método, estas características provienen de niveles de diferentes resoluciones, permitiendo que la representación mantenga detalles explícitos mientras captura varios niveles de detalle de manera continua.

Renderizado Antialiasing de Superficies Implícitas

Una vez que se recogen las características del tri-plano multiescala, el siguiente paso implica estimar la SDF de las muestras a lo largo de un rayo para el renderizado volumétrico. Las técnicas tradicionales proyectan rayos a través de píxeles sin considerar su tamaño o forma, lo que puede pasar por alto información de alta frecuencia y llevar a artefactos de aliasing.

Para abordar esto, redefinimos el proceso de renderizado tratando los rayos como conos. Este enfoque permite niveles continuos de detalle y ayuda a capturar detalles finos con mayor precisión durante la reconstrucción.

En lugar de simplemente aumentar el número de rayos muestreados a través de cada píxel, lo cual aumentaría los costos computacionales, hemos desarrollado una solución más eficiente. Al considerar rayos en forma de cono, podemos integrar características dentro de estas formas cónicas, permitiéndonos recoger la información necesaria sin sobreamuestreo.

Entrenamiento y Optimización

Una vez que se establecen las características LoD, el siguiente paso es predecir los colores y la distancia firmada de las muestras. Una serie de capas dentro de una red neuronal procesa estos datos. Los parámetros aprendibles del modelo se optimizan utilizando una función de pérdida durante el proceso de entrenamiento para asegurar un aprendizaje eficiente.

Diferentes métricas evalúan el rendimiento del modelo, como la Relación Señal-Ruido de Pico (PSNR) y la distancia Chamfer. Estas métricas ayudan a medir la precisión de la malla reconstruida y la calidad de las vistas generadas.

Resultados y Comparaciones

Realizamos experimentos evaluando nuestro método contra otras técnicas avanzadas, incluyendo NeuS y HF-NeuS. A través de varios escenarios de prueba, nuestro enfoque ha demostrado un rendimiento superior en numerosas métricas. No solo ha sobresalido en la reconstrucción de detalles finos y superficies más suaves, sino que también ha demostrado mayor eficiencia en tiempos de entrenamiento e inferencia en comparación con métodos alternativos.

En evaluaciones cualitativas, nuestro modelo ha producido consistentemente resultados visualmente atractivos, especialmente para objetos intrincados donde los detalles finos juegan un papel crucial.

Conclusión

La introducción de LoD-NeuS ofrece una solución prometedora a los desafíos existentes en la reconstrucción de superficies 3D. Al integrar eficientemente la representación implícita con codificación tri-planar multiescala, nuestro método puede lograr detalles geométricos de alta calidad incluso en escenarios complejos.

A medida que los avances en renderizado neuronal continúan, la necesidad de métodos que puedan capturar y producir superficies detalladas con precisión solo crecerá. Nuestro enfoque no solo mejora las técnicas existentes, sino que también allana el camino para futuros desarrollos en este emocionante campo.

Nuestras contribuciones reflejan un paso significativo hacia adelante en la búsqueda de una reconstrucción 3D realista a partir de imágenes multivista, asegurando que los detalles finos estén representados con precisión y que se minimicen los artefactos visuales. Con una exploración y refinamiento continuos, las aplicaciones de esta tecnología podrían alcanzar un amplio espectro, mejorando el realismo en experiencias virtuales.

Fuente original

Título: Anti-Aliased Neural Implicit Surfaces with Encoding Level of Detail

Resumen: We present LoD-NeuS, an efficient neural representation for high-frequency geometry detail recovery and anti-aliased novel view rendering. Drawing inspiration from voxel-based representations with the level of detail (LoD), we introduce a multi-scale tri-plane-based scene representation that is capable of capturing the LoD of the signed distance function (SDF) and the space radiance. Our representation aggregates space features from a multi-convolved featurization within a conical frustum along a ray and optimizes the LoD feature volume through differentiable rendering. Additionally, we propose an error-guided sampling strategy to guide the growth of the SDF during the optimization. Both qualitative and quantitative evaluations demonstrate that our method achieves superior surface reconstruction and photorealistic view synthesis compared to state-of-the-art approaches.

Autores: Yiyu Zhuang, Qi Zhang, Ying Feng, Hao Zhu, Yao Yao, Xiaoyu Li, Yan-Pei Cao, Ying Shan, Xun Cao

Última actualización: 2023-09-19 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.10336

Fuente PDF: https://arxiv.org/pdf/2309.10336

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares