Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Mejorando la Densificación en Splatting Gaussiano 3D

Un nuevo enfoque mejora el Control de Densidad Adaptativa para una mejor calidad de imagen en 3DGS.

― 14 minilectura


Densificación en 3DGSDensificación en 3DGSMejorada3D.imagen y el control en el renderizadoNuevos métodos mejoran la calidad de
Tabla de contenidos

La Densificación es una parte clave del 3D Gaussian Splatting (3DGS), y a menudo lleva a problemas. En los ejemplos, vemos que a veces 3DGS tiene dificultades para agregar detalles en áreas con mucha textura, como el pasto, lo que puede crear errores grandes y borrosos. Nuestro nuevo enfoque soluciona este problema revisando a fondo cómo se realiza la densificación en 3DGS.

Este artículo se centra en los problemas del Control de Densidad Adaptativa (ADC) en 3D Gaussian Splatting, un método utilizado para crear imágenes realistas de alta calidad desde diferentes vistas. El ADC fue diseñado para gestionar puntos 3D controlando cuán abarrotados están y eliminando algunos puntos. Sin embargo, hay vacíos en la forma en que maneja la densificación. Nuestra mejora principal es una forma más clara de controlar la densidad usando errores de Píxeles como base para las decisiones de densificación. También introducimos una forma de seguir cuántos elementos se crean en cada escena y corregir un sesgo en cómo se maneja la Opacidad durante la clonación. Esto resulta en imágenes de mejor calidad en varias escenas de prueba, manteniendo la eficiencia.

La modelado de escenas realistas de alta calidad a partir de imágenes ha sido esencial en campos como la realidad aumentada, la realidad virtual, la robótica y muchos otros. Recientemente, ha habido un gran interés en cómo las redes neuronales pueden representar escenas 3D, especialmente usando técnicas como los Campos de Radiancia Neurales (NeRFs). Los NeRFs procesan escenas 3D de una manera innovadora, utilizando aprendizaje profundo y renderizado volumétrico para crear imágenes realistas desde nuevas perspectivas. Al optimizar ciertas estructuras de red para vincular posiciones espaciales y ángulos de visión a color y densidad, estos modelos pueden capturar efectivamente las complejas interacciones de luz y forma. Aunque son buenos para la calidad visual, el método NeRF original depende de procesos de muestreo lentos, lo que limita su uso en situaciones donde se necesita renderizado rápido. Si bien ha habido muchas mejoras para acelerar el entrenamiento y la representación, crear imágenes rápidamente en alta resolución sigue siendo un desafío.

Recientemente, se ha introducido el 3D Gaussian Splatting (3DGS) como otra forma de representar escenas que permite un entrenamiento rápido y un renderizado de alta calidad. El componente principal es una colección optimizada de Gaussianos 3D que pueden colocarse aleatoriamente en el espacio 3D o establecerse en ciertos puntos mediante un proceso de Estructura a partir del Movimiento. Todos los elementos 3D relevantes pueden ser renderizados en una imagen 2D a través de un método de splatting eficiente.

En 3DGS, cada elemento 3D se expresa como una distribución gaussiana 3D, junto con propiedades como opacidad y dirección de apariencia. El proceso para ajustar estos parámetros utiliza una pérdida multivista y trabaja junto con el Control de Densidad Adaptativa (ADC), que gestiona la cantidad de puntos 3D agregando o eliminando elementos según sea necesario. El ADC es esencial, ya que decide dónde agregar o reducir el detalle en la escena según los límites establecidos por el usuario. Agregar nuevos elementos depende de las posiciones de los existentes, y si su opacidad cae por debajo de un cierto nivel, se eliminan. Aunque esto es práctico, el método tiene debilidades clave. Primero, determinar un umbral para cuántos gradientes considerar a menudo es confuso y no confiable si el modelo cambia. En segundo lugar, algunos escenarios solo tienen unos pocos gaussianos grandes en áreas con mucho detalle, lo que podría no activar la densificación necesaria, resultando en un subajuste. Por último, el ADC no proporciona una forma clara de limitar el número total de gaussianos creados en una escena, lo que puede llevar a problemas de memoria durante el entrenamiento.

En este trabajo, abordamos las debilidades del ADC en el 3D Gaussian Splatting original. Nuestra mejora principal es una forma más lógica de basar el control de densidad en errores de píxeles. Explicamos cómo los errores a nivel de píxel se relacionan con la contribución de cada gaussiano, permitiéndonos ver qué áreas necesitan más detalle en diferentes vistas. Esto nos da una nueva forma de decidir cómo y cuándo agregar elementos.

También solucionamos un problema donde el manejo actual de la opacidad en el ADC lleva a una ventaja injusta para los elementos recién clonados durante la etapa de crecimiento. El método original mantiene la opacidad de un gaussiano clonado, lo que puede distorsionar los colores al renderizar, causando un aumento general en la opacidad donde no debería.

Además, introducimos un método para gestionar el número total de elementos creados en cada escena y establecer un límite en los nuevos elementos agregados durante cada ciclo de densificación. Esta característica ayuda a evitar quedarse sin memoria y nos permite ajustar mejor el enfoque según el hardware disponible.

Validamos nuestras mejoras usando conjuntos de datos de referencia estándar, mostrando consistentemente mejor calidad en comparación con diferentes métodos, incluyendo tanto 3DGS como Mip-Splatting.

Para resumir, nuestras contribuciones clave para mejorar el Control de Densidad Adaptativa en 3DGS incluyen:

  • Un enfoque estructurado que usa funciones de error a nivel de píxel para guiar la densificación, en lugar de depender de gradientes posicionales.
  • Una corrección de un sesgo en la operación de clonación de gaussianos para mejorar la gestión de la opacidad.
  • Varios experimentos que confirman la efectividad de nuestro método en múltiples escenarios del mundo real.

Trabajos Relacionados

Desde su introducción, 3DGS ha encontrado una amplia gama de aplicaciones, desde mapeo hasta crear versiones 3D de imágenes y modelar escenas dinámicas. Sin embargo, solo unos pocos estudios han trabajado en mejorar el 3DGS en sí.

Algunos proyectos, como GS++, han ofrecido mejores formas de aproximar cómo opera el splatting 3D, mejorando principalmente la precisión cerca de los bordes de las imágenes y abordando problemas visuales comunes. Otros, como Spec-Gaussian y Scaffold-gs, han buscado modelar mejor cómo cambia la apariencia según la perspectiva del espectador. Mip-Splatting ha tomado medidas para solucionar problemas que aparecen cuando los modelos se renderizan a diferentes tamaños en comparación con sus imágenes de entrenamiento. Incorporan un filtro 3D que ajusta el tamaño de los elementos 3D según la tasa de muestreo máxima.

Mientras que estos trabajos dependen del método ADC original, pueden beneficiarse potencialmente de las mejoras que proponemos, como se ve en nuestro trabajo con Mip-Splatting. Algunos esfuerzos recientes han comenzado a abordar el proceso de densificación, enfocándose en cómo reducir el tamaño total de las representaciones de 3DGS o lidiar con desafíos relacionados con las estructuras 3D iniciales.

A diferencia de estos métodos, nuestro enfoque mejora la densificación general sin enfocarse únicamente en solucionar ciertos problemas en regiones específicas.

Preliminares: Gaussian Splatting

El Gaussian Splatting actualiza ideas pasadas y propone que una escena puede ser representada como una colección de elementos gaussianos 3D, que pueden ser renderizados usando splatting volumétrico. Cada gaussiano parece un núcleo gaussiano 3D centrado en un punto, con una matriz asociada que describe cuán disperso está en el espacio. Cada gaussiano también tiene una opacidad y un vector de características, que podría ser color o coeficientes que describen su apariencia.

El renderizado implica proyectar estos primitivos gaussianos en un espacio de píxeles usando una transformación basada en cómo encajan en la vista de la cámara. Este proceso aproxima la proyección en el centro del gaussiano para que la imagen resultante parezca un núcleo gaussiano 2D.

Para crear la escena desde la perspectiva de la cámara, se utiliza un decodificador para obtener las características que queremos mostrar para cada gaussiano y píxel. El renderizado depende del orden de los elementos gaussianos según su profundidad.

Revisando la Densificación

Primero, echamos un vistazo al método de Control de Densidad Adaptativa utilizado en el Gaussian Splatting original, destacamos sus debilidades y luego proponemos un nuevo enfoque para la densificación.

Control de Densidad Adaptativa y Sus Limitaciones

El 3DGS original y sus adaptaciones posteriores dependen del sistema ADC para decidir cuándo hacer crecer o reducir los elementos gaussianos. Las decisiones dependen de los datos de gradiente recopilados durante el proceso de ADC.

Para cada gaussiano, se rastrea la magnitud de su gradiente posicional y se promedia a través de todas las vistas durante un período establecido. Si este valor supera un umbral, el gaussiano puede ser dividido o clonado para crecer. Si la opacidad cae por debajo de un cierto punto, puede ser podado.

El proceso de toma de decisiones tiene fallos:

  • Determinar un umbral basado en gradientes puede ser confuso y sensible a varios cambios en el modelo.
  • Hay casos de subajuste donde grandes gaussianos pueden no activar la densificación necesaria.
  • No hay control sobre el número total de gaussianos que se crean, lo que puede llevar a problemas de memoria.

Además, la lógica que guía el crecimiento de los primitivos puede favorecer injustamente a los elementos recién clonados.

Densificación Basada en Errores

En áreas con muchos detalles finos cubiertos por solo unos pocos gaussianos grandes, mover ligeramente sus posiciones 3D puede no cambiar el error notablemente, causando que los gradientes se mantengan bajos. Esto es problemático porque queremos incentivar la adición de más elementos gaussianos en áreas con errores más altos.

Para abordar esto, sugerimos dirigir la densificación utilizando una función de error secundaria que mide errores a nivel de píxel al renderizar una vista de la cámara usando la verdad conocida. Para hacer esto, primero distribuimos los errores por píxel a cada gaussiano según su papel en la producción del color renderizado.

A continuación, rastreamos el valor de error más alto para cada gaussiano en varias vistas, lo que nos ayuda a decidir qué elementos deberían crecer. Dado que este nuevo puntaje se basa en errores conocidos, es más fácil gestionar un umbral para decidir cuándo agregar nuevos elementos.

Detalles de Implementación

Para calcular los errores, asignamos un valor adicional a cada gaussiano y permitimos que se renderice usando el decodificador. Luego, agregamos una nueva pérdida al objetivo principal de entrenamiento. Inicializamos este nuevo valor en cero para cada gaussiano y no lo actualizamos durante el entrenamiento, asegurando que otros parámetros gaussianos permanezcan sin cambios.

Corrección de Opacidad Después de Clonar

En el ADC original, cuando un gaussiano se divide o se clona, su opacidad permanece igual. Esto puede crear un sesgo al clonar porque el peso de la contribución aumenta, lo que puede distorsionar el renderizado. La solución es reducir la opacidad de los gaussianos clonados para que el impacto en el color final renderizado sea consistente y permita una mejor integración de las contribuciones de varios primitivos.

Podemos descubrir el nuevo valor de opacidad necesario resolviendo una ecuación que mantenga una representación más precisa. Al implementar esta corrección, los efectos del primitivo clonado se equilibran en todos los píxeles, reduciendo el sesgo.

Control Sobre el Crecimiento de Primitivos

Un problema con el mecanismo ADC es que puede llevar a un aumento incontrolable en el número de primitivos, lo que puede causar agotamiento de memoria. Para abordar esto, establecemos un límite global en el número total de elementos gaussianos y limitamos cuántos se pueden agregar durante cada densificación.

Exploramos un método que restringe la nueva descendencia de primitivos a una fracción establecida de los existentes. Si hay más elementos elegibles para crecer de los permitidos, mantenemos solo aquellos con los puntajes de crecimiento más altos.

Esta estrategia conduce a un crecimiento más suave de los elementos, evitando picos aleatorios que pueden ocurrir con reinicios en la opacidad.

Alternativa al Reinicio de Opacidad

La técnica estándar para reducir el tamaño de los elementos implica reiniciar la opacidad de todos los primitivos a un valor bajo, haciendo que los olvidados o no utilizados estén listos para ser podados. Este cambio abrupto puede perjudicar el proceso de entrenamiento, causando inestabilidad y decisiones inexactas en la densificación.

En su lugar, sugerimos una disminución gradual de la opacidad después de cada ciclo de densificación, permitiendo que el modelo transite suavemente hacia el rango de poda. Este método evita cambios repentinos en la medida de densificación, mientras aún mantiene los beneficios previos.

Sin embargo, una desventaja de este enfoque es que puede llevar al modelo a tirar más del fondo y crear agujeros en la escena visto desde nuevos ángulos. Para mitigar esto, también regulamos las probabilidades residuales de α-composición para asegurarnos de que tiendan a cero para cada píxel.

Evaluación Experimental

Demostramos cómo nuestro control adaptativo mejorado puede beneficiar tanto al 3DGS estándar como al Mip-Splatting, llevando a mejores resultados en ambos casos.

Conjuntos de Datos y Métricas

Seguimos la misma configuración de pruebas que en el artículo original de 3DGS, enfocándonos en escenas del mundo real de conjuntos de datos populares. Mip-NeRF 360 incluye nueve escenas capturadas en un diseño circular, mientras que Tanks and Temples y Deep Blending contienen diferentes escenas desafiantes. Durante cada experimento, reservamos algunas imágenes para validación y medimos el rendimiento utilizando varias métricas.

Configuración Experimental

Evaluamos nuestras diferentes implementaciones de 3DGS, que permiten cambiar entre versiones fácilmente. Reproducimos configuraciones de entrenamiento de trabajos anteriores, incluyendo conteos de iteración, tamaños de lote, resoluciones de entrada y tasas de aprendizaje.

Al entrenar con nuestros métodos adaptados, permitimos más crecimiento gaussianos en cada paso de densificación en comparación con el 3DGS estándar. A diferencia de 3DGS, mantenemos nuestro control adaptativo activo por más iteraciones, permitiendo que refine aún más los resultados.

En todas las pruebas, establecemos un límite máximo en el número de primitivos basado en los promedios de referencia para asegurar una comparación justa.

Resultados Principales

Nuestro enfoque mejora consistentemente el rendimiento en diferentes conjuntos de datos, especialmente en métricas que miden la calidad perceptual. Por ejemplo, nuestro método sobresale en casos donde el ADC estándar no logra manejar detalles de alta frecuencia, como el pasto, lo que lleva a imágenes visualmente borrosas.

En algunos conjuntos de datos, puede haber una ligera disminución en las relaciones de señal a ruido de pico, pero perceptivamente nuestros resultados lucen más precisos. Observaciones de ciertas escenas revelan cómo nuestro método reduce eficazmente los problemas de subajuste mientras mantiene la calidad en áreas menos complejas.

Experimentos de Ablación

En pruebas adicionales, evaluamos el impacto de las mejoras individuales en nuestro método. Cada componente contribuye positivamente al rendimiento, siendo la corrección de opacidad la que muestra efectos significativos. Por otro lado, el control de crecimiento por sí solo puede perjudicar el rendimiento cuando se aísla.

A pesar de abordar con éxito muchos problemas de subajuste, todavía hay desafíos en escenas específicas, especialmente donde la iluminación y las apariencias varían significativamente.

Conclusión

Abordamos las limitaciones del Control de Densidad Adaptativa en el 3D Gaussian Splatting, enfocándonos en cómo mejorar la representación de escenas para crear imágenes realistas. Nuestra contribución principal radica en una mejor forma de gestionar la densidad utilizando errores de píxeles y corrigiendo sesgos en el manejo de opacidad durante la clonación. Nuestros hallazgos muestran consistentemente mejoras sobre métodos anteriores, particularmente en términos de calidad perceptual en diferentes conjuntos de datos.

Más de autores

Artículos similares