Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Gráficos

Nuevo Método para Sintetizar Vistas 3D a Partir de Pocas Imágenes

Este método simplifica la creación de nuevas vistas 3D con imágenes limitadas.

― 6 minilectura


Avance en la Síntesis deAvance en la Síntesis deVista 3D3D a partir de imágenes limitadas.Un nuevo enfoque para generar vistas en
Tabla de contenidos

Este artículo habla de un método innovador para crear nuevas Vistas de escenas 3D usando solo unas pocas Imágenes. Tradicionalmente, hacer nuevas vistas requiere conocer las posiciones y ángulos de las cámaras que tomaron las fotos. Sin embargo, nuestro enfoque no depende de esta información, lo que hace más fácil crear nuevas vistas a partir de imágenes escasas.

El Reto de la Síntesis de Vistas Escasas

Crear nuevas vistas a partir de imágenes puede ser complicado, especialmente cuando no hay suficientes imágenes o cuando no se conocen las posiciones de la cámara. La mayoría de las técnicas existentes asumen que las posiciones de la cámara están disponibles, lo que limita su aplicación en situaciones del mundo real. Cuando solo hay unas pocas imágenes para trabajar, se vuelve un verdadero desafío entender cómo recrear una escena de manera precisa.

Nuestro Método

Proponemos un método llamado "construir y optimizar" para sintetizar nuevas vistas sin necesidad de conocer las posiciones de la cámara. Esta técnica aprovecha la información de las imágenes para construir gradualmente un ambiente 3D. En lugar de estimar las posiciones de la cámara directamente, usamos una combinación de información de Profundidad y un proceso para comparar diferentes imágenes y refinar nuestro modelo.

Pasos en Nuestro Enfoque

  1. Configuración Inicial: Comenzamos con un conjunto de imágenes y su información de profundidad correspondiente, que nos dice qué tan lejos están diferentes partes de la escena de la cámara. La primera imagen se toma como referencia y usamos su información para empezar a construir el modelo 3D.

  2. Proyección Inversa: Tomamos la primera imagen y la proyectamos de vuelta al mundo 3D, creando una representación básica usando Gaussianos 3D. Esto nos da una idea general de la distribución de la escena.

  3. Registro de Nuevas Vistas: Para cada nueva imagen, necesitamos encontrar su posición y ángulo en relación con el modelo 3D existente. Empezamos estimando su pose de cámara y luego ajustamos todas las posiciones de cámara registradas previamente para alinearlas mejor con la nueva imagen.

  4. Optimización: Durante este paso, ajustamos nuestro modelo comparando cuán cercanas están las imágenes proyectadas a las fotografías originales. Este proceso ayuda a eliminar errores causados por las estimaciones iniciales que hicimos.

  5. Refinamiento: Después de obtener una versión gruesa de la escena 3D, refinamos los detalles usando técnicas de optimización estándar. Esto asegura que el resultado final sea de alta calidad y represente la escena de manera precisa.

Importancia de la Definición de Superficie

Un aspecto crítico de nuestro método es cómo definimos la superficie esperada en nuestro modelo. La superficie no es solo un plano plano; tiene profundidad y textura. Al usar una definición precisa de la superficie, podemos renderizar la escena de manera más realista. Esto implica usar nuevas formas de aproximar la superficie esperada basada en Gaussianos 3D, lo que permite un mejor proceso de optimización.

Evaluación del Rendimiento

Probamos nuestro método en varios conjuntos de datos conocidos por su complejidad. Los resultados fueron prometedores. Comparado con otros métodos existentes, nuestra técnica mostró una calidad significativamente mejor en la síntesis de nuevas vistas. En casos donde solo había unas pocas imágenes disponibles, nuestro método todavía produjo resultados impresionantes.

Comparación con Técnicas Existentes

La mayoría de los métodos existentes dependen en gran medida de posiciones de cámara conocidas, lo que puede llevar a imprecisiones cuando las poses no son confiables. En contraste, nuestro enfoque no requiere estimaciones precisas de las posiciones de cámara, lo que lo hace más robusto en escenarios prácticos. Demostramos cómo nuestro método superó a otros en generar imágenes más claras y detalladas a partir de entradas limitadas.

Manejo de Ambigüedades

Uno de los principales desafíos al trabajar con síntesis de vistas escasas es la ambigüedad que surge de tener muy pocas imágenes. Diferentes ángulos de cámara pueden llevar a diversas interpretaciones de la misma escena. Nuestro método aborda esto optimizando la alineación entre las poses de cámara y la escena reconstruida, lo que ayuda a reducir errores y mejorar la calidad general.

Uso de Información de Profundidad

La información de profundidad es crucial para crear nuevas vistas. En nuestro enfoque, utilizamos estimaciones de profundidad para guiar la reconstrucción de la escena. Esto nos permite construir un modelo más preciso del entorno, ya que proporciona contexto sobre cómo los objetos se relacionan entre sí espacialmente.

Ventajas de Nuestro Método

  1. Menor Dependencia de las Posiciones de Cámara: Al no depender de posiciones de cámara conocidas, nuestro método puede aplicarse en más situaciones donde no hay información detallada de la cámara disponible.

  2. Salidas de Mayor Calidad: Nuestro método ha demostrado producir mejores resultados visuales, incluso con menos imágenes de entrenamiento en comparación con otros métodos.

  3. Robustez: Los pasos de optimización que incorporamos ayudan a asegurarnos de que nuestro modelo siga siendo preciso, incluso en condiciones difíciles.

  4. Flexibilidad en la Entrada: Nuestro enfoque puede manejar eficazmente imágenes desordenadas, lo que lo hace aplicable en escenarios del mundo real donde las imágenes se capturan en secuencias aleatorias.

Direcciones Futuras

Aunque nuestro método muestra promesas, todavía hay áreas para mejorar. El trabajo futuro podría centrarse en mejorar la precisión de la estimación de profundidad, que es un componente vital para una reconstrucción de calidad. Además, extender nuestro enfoque para trabajar con imágenes desordenadas podría abrir nuevas posibilidades en la síntesis de vistas.

Conclusión

En resumen, nuestro método propuesto para sintetizar nuevas vistas a partir de imágenes escasas representa un avance significativo en el campo. Al depender de un enfoque de construir y optimizar sin necesidad de conocer las poses de la cámara, hemos logrado avances hacia la solución de los desafíos asociados con la síntesis de vistas escasas. Nuestros resultados indican un futuro brillante para las aplicaciones en varios dominios, incluyendo realidad virtual, juegos y visualización arquitectónica, donde las reconstrucciones 3D precisas son esenciales.

Fuente original

Título: A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose

Resumen: Novel view synthesis from a sparse set of input images is a challenging problem of great practical interest, especially when camera poses are absent or inaccurate. Direct optimization of camera poses and usage of estimated depths in neural radiance field algorithms usually do not produce good results because of the coupling between poses and depths, and inaccuracies in monocular depth estimation. In this paper, we leverage the recent 3D Gaussian splatting method to develop a novel construct-and-optimize method for sparse view synthesis without camera poses. Specifically, we construct a solution progressively by using monocular depth and projecting pixels back into the 3D world. During construction, we optimize the solution by detecting 2D correspondences between training views and the corresponding rendered images. We develop a unified differentiable pipeline for camera registration and adjustment of both camera poses and depths, followed by back-projection. We also introduce a novel notion of an expected surface in Gaussian splatting, which is critical to our optimization. These steps enable a coarse solution, which can then be low-pass filtered and refined using standard optimization methods. We demonstrate results on the Tanks and Temples and Static Hikes datasets with as few as three widely-spaced views, showing significantly better quality than competing methods, including those with approximate camera pose information. Moreover, our results improve with more views and outperform previous InstantNGP and Gaussian Splatting algorithms even when using half the dataset. Project page: https://raymondjiangkw.github.io/cogs.github.io/

Autores: Kaiwen Jiang, Yang Fu, Mukund Varma T, Yash Belhe, Xiaolong Wang, Hao Su, Ravi Ramamoorthi

Última actualización: 2024-06-10 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2405.03659

Fuente PDF: https://arxiv.org/pdf/2405.03659

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares