Innovaciones en técnicas de Estructura a partir del Movimiento
Nuevo método mejora la eficiencia de reconstrucción 3D a partir de imágenes.
― 6 minilectura
Tabla de contenidos
La Estructura a partir del movimiento (SfM) es un método usado en visión por computadora para entender cómo está organizada una escena en tres dimensiones usando imágenes. Esto es muy útil para muchas aplicaciones, como coches autónomos, realidad virtual y crear modelos 3D a partir de fotos.
¿Qué es SfM?
En su esencia, SfM se trata de recopilar imágenes y averiguar las posiciones de las cámaras que tomaron esas fotos y las formas de los objetos dentro de la escena. Esto se hace buscando características comunes en las imágenes, como puntos, bordes o texturas, y usando esas para reconstruir la estructura 3D del entorno.
Desafíos con SfM
Hay dos tipos principales de datos de imagen usados para SfM: imágenes desordenadas e imágenes secuenciales.
Imágenes desordenadas: Estas son imágenes recogidas de diversas fuentes sin un orden específico. Por ejemplo, fotos de internet se pueden considerar desordenadas. Estas imágenes pueden ser difíciles de procesar porque pueden no tener superposiciones o conexiones claras.
Imágenes secuenciales: Estas son imágenes tomadas en secuencia, como un video. Dado que hay un orden natural y superposición entre estas imágenes, es más fácil para SfM determinar cómo se relacionan entre sí.
El desafío con las imágenes desordenadas es que lleva más tiempo y potencia de procesamiento identificar cómo se conectan. Por otro lado, aunque las imágenes secuenciales son más fáciles de trabajar, muchas aplicaciones requieren la capacidad de combinar diferentes tipos de imágenes.
La necesidad de eficiencia
Para aplicaciones prácticas, es importante reconstruir rápida y exactamente una escena a partir de imágenes. Los métodos tradicionales de SfM suelen ser lentos, especialmente con imágenes desordenadas, y requieren mucha potencia de computadora.
Nuevos enfoques para SfM
Para abordar estos desafíos, los investigadores han desarrollado un nuevo método que se centra en mejorar la eficiencia de SfM utilizando un concepto conocido como covisibilidad. La covisibilidad se usa para describir cómo se relacionan las imágenes entre sí según las características comunes que comparten.
Este método permite una combinación coherente tanto de imágenes desordenadas como secuenciales. Al usar covisibilidad, el método identifica qué imágenes están relacionadas y acelera el proceso de Reconstrucción.
Cómo funciona el nuevo método
Relaciones de covisibilidad: El nuevo método crea una conexión entre imágenes al identificar características compartidas. Esto ayuda a predecir qué imágenes probablemente se superponen, acelerando el proceso de coincidencia.
Marco unificado: El nuevo enfoque permite un sistema único que puede manejar diferentes tipos de datos de imagen. En lugar de tratar imágenes secuenciales y desordenadas por separado, este método trabaja con ambos.
Selección de Fotogramas clave: Un proceso clave en este método es elegir fotogramas clave. Los fotogramas clave son imágenes importantes que representan diferentes partes de la escena. Al centrarse en estos fotogramas clave, el sistema puede reducir el número de imágenes que necesita procesar, lo que acelera la reconstrucción.
Ejemplos de aplicaciones
Reconstrucciones de ciudades inteligentes: Al reconstruir ciudades usando imágenes de diversas fuentes, como videos de vehículos o imágenes aéreas, este nuevo método puede gestionar de manera efectiva y eficiente los tipos mezclados de datos.
Reconstrucciones de monumentos: El método también se puede aplicar para reconstruir monumentos famosos recopilando imágenes de internet, incluyendo tanto fotos como videos, proporcionando una vista completa.
Beneficios del nuevo enfoque
Velocidad: El nuevo método es significativamente más rápido que los métodos tradicionales. Puede procesar imágenes y reconstruir escenas mucho más rápido, haciéndolo práctico para aplicaciones en tiempo real.
Precisión: A pesar de su velocidad, el método no compromete la calidad de la reconstrucción. Proporciona posiciones de cámara precisas y modelos 3D.
Versatilidad: Se puede aplicar a varios tipos de datos de imagen, ya sean secuenciales, desordenados o una mezcla de ambos.
El proceso de coincidencia
El método comienza identificando características en las imágenes. Cada imagen se divide en regiones más pequeñas, y las características dentro de estas regiones se comparan.
Coincidencia inicial: Esto implica coincidir características de las imágenes más cercanas basándose en sus puntos comunes.
Coincidencia iterativa: El sistema luego pasa por varias rondas de coincidencia, refinando gradualmente las conexiones entre imágenes según las relaciones de covisibilidad.
Verificación de errores: Un aspecto importante del proceso de reconstrucción es verificar errores. El método incluye una manera de detectar y corregir errores geométricos en las imágenes para asegurar la precisión del modelo 3D final.
Etapa de reconstrucción
Una vez que las imágenes están emparejadas, el sistema se mueve a la etapa de reconstrucción. Esto implica usar los emparejamientos para estimar los puntos 3D de la escena.
Estimación de la posición de la cámara: El método calcula dónde estaba posicionada cada cámara cuando tomó las fotos, basándose en los emparejamientos.
Creación de mapas: Los puntos 3D se utilizan para crear un mapa de la escena, dando una representación visual de la estructura.
Aplicaciones en el mundo real
Este método tiene varias aplicaciones en el mundo real:
Robótica: En robots autónomos, este método ayuda a navegar por entornos al entender la disposición espacial de los objetos.
Realidad aumentada: En aplicaciones de realidad aumentada, permite colocar objetos virtuales de una manera realista al entender con precisión el espacio físico.
Patrimonio cultural: Se puede usar para crear modelos 3D detallados de sitios históricos, ayudando en esfuerzos de preservación.
Conclusión
Los avances en técnicas de estructura a partir del movimiento, particularmente a través del uso de covisibilidad, ofrecen un nuevo nivel de eficiencia y precisión en la reconstrucción de entornos 3D a partir de imágenes. Esto es especialmente importante a medida que el uso de diversas fuentes de imágenes se vuelve más común en muchos campos. La capacidad de manejar tanto imágenes desordenadas como secuenciales de manera unificada abre nuevas posibilidades para aplicaciones en visión por computadora, robótica y realidad aumentada.
Título: EC-SfM: Efficient Covisibility-based Structure-from-Motion for Both Sequential and Unordered Images
Resumen: Structure-from-Motion is a technology used to obtain scene structure through image collection, which is a fundamental problem in computer vision. For unordered Internet images, SfM is very slow due to the lack of prior knowledge about image overlap. For sequential images, knowing the large overlap between adjacent frames, SfM can adopt a variety of acceleration strategies, which are only applicable to sequential data. To further improve the reconstruction efficiency and break the gap of strategies between these two kinds of data, this paper presents an efficient covisibility-based incremental SfM. Different from previous methods, we exploit covisibility and registration dependency to describe the image connection which is suitable to any kind of data. Based on this general image connection, we propose a unified framework to efficiently reconstruct sequential images, unordered images, and the mixture of these two. Experiments on the unordered images and mixed data verify the effectiveness of the proposed method, which is three times faster than the state of the art on feature matching, and an order of magnitude faster on reconstruction without sacrificing the accuracy. The source code is publicly available at https://github.com/openxrlab/xrsfm
Autores: Zhichao Ye, Chong Bao, Xin Zhou, Haomin Liu, Hujun Bao, Guofeng Zhang
Última actualización: 2023-08-06 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2302.10544
Fuente PDF: https://arxiv.org/pdf/2302.10544
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.