Avances en Estimación de Profundidad Monocular Usando el Conjunto de Datos SlowTV
Un nuevo enfoque mejora la estimación de profundidad con datos de entrenamiento diversos.
― 6 minilectura
Tabla de contenidos
Reconstructir la estructura del entorno es clave para muchos campos, como coches autónomos, robótica y realidad aumentada. La Estimación de Profundidad Monocular (MDE) es un método que calcula la profundidad a partir de una sola imagen, lo que es útil porque simplifica el proceso en comparación con métodos tradicionales que a menudo requieren múltiples imágenes.
Los enfoques actuales para MDE suelen depender de Conjuntos de datos bien etiquetados. Sin embargo, reunir datos de alta calidad puede ser caro y llevar mucho tiempo. Los investigadores buscan maneras de hacer MDE más eficiente utilizando Aprendizaje Auto-Supervisado, que puede aprender de datos no etiquetados.
Este trabajo discute un nuevo conjunto de datos combinado con un modelo auto-supervisado que busca mejorar el rendimiento de MDE en diferentes entornos, incluyendo escenarios interiores y exteriores complejos.
El Desafío
Muchas técnicas existentes para MDE están limitadas a datos recolectados de entornos específicos, como áreas urbanas. Este enfoque restringido significa que estos modelos suelen tener problemas para adaptarse a otros escenarios, como paisajes naturales o espacios interiores.
Factores como el costo de recolectar datos etiquetados y las demandas computacionales de métodos tradicionales, como la Estructura a Partir de Movimiento (SfM), hacen difícil entrenar modelos efectivos. El aprendizaje auto-supervisado podría ayudar usando videos de internet en vez de conjuntos de datos etiquetados, aumentando así la diversidad de los entornos de entrenamiento.
El Nuevo Conjunto de Datos: SlowTV
Para abordar estos desafíos, se ha creado un nuevo conjunto de datos llamado SlowTV. Consiste en videos largos recolectados de YouTube, mostrando diversas actividades relajantes, como senderismo, conducción y buceo. Este conjunto de datos es diferente porque ofrece una gama mucho más amplia de entornos en comparación con los conjuntos de datos enfocados en automóviles existentes.
El conjunto de datos SlowTV incluye 1.7 millones de imágenes de más de 40 videos, que se dividen en tres categorías: escenas naturales, escenas de conducción y escenas submarinas. Los videos capturan una variedad de condiciones, incluyendo diferentes tipos de clima y ubicaciones geográficas, para asegurar que los datos sean lo más diversos posible.
Metodología
El método propuesto aprovecha el nuevo conjunto de datos SlowTV para entrenar un modelo MDE auto-supervisado. En vez de necesitar datos etiquetados, el modelo aprende de la consistencia fotométrica entre los fotogramas. Esto significa que usa la información visual de los videos para entender la profundidad sin necesidad de etiquetas explícitas.
Entrada de Imagen Única
El modelo funciona estimando la profundidad a partir de una sola imagen. Genera una predicción basada en la imagen objetivo y usa otra imagen tomada justo antes como referencia. Esto se hace prediciendo el movimiento relativo entre las dos imágenes. El modelo está diseñado para ser flexible, permitiendo que se adapte a varias situaciones.
Funciones de Pérdida
Se utilizan varias funciones de pérdida para mejorar la precisión de la estimación del modelo. Estas incluyen:
- Pérdida Fotométrica: Mide qué tan bien la predicción del modelo coincide con la imagen original. El objetivo es minimizar esta diferencia.
- Pérdida de Reconstrucción Mínima: Ayuda al modelo a enfocarse en partes de la imagen que tienen menos ruido, eliminando distracciones como oclusiones de objetos en movimiento.
- Automasking: Esta técnica ayuda al modelo a ignorar ciertos píxeles que pueden no proporcionar información útil, mejorando así la precisión.
Aprendiendo Intrínsecos de la Cámara
Al usar cámaras no calibradas, estimar parámetros intrínsecos de la cámara es esencial. Esto significa que el modelo necesita entender las configuraciones de la cámara que afectan cómo se capturan las imágenes. El método propuesto incluye un mecanismo para aprender estas configuraciones automáticamente, lo que simplifica el proceso general.
Aumento del Ratio de Aspecto
Para asegurar que el modelo funcione bien con diversos tamaños de imagen, se aplica aumento del ratio de aspecto durante el entrenamiento. Esto significa que las imágenes se recortan y redimensionan al azar para crear una variedad de formas y tamaños, lo que ayuda a mejorar la capacidad del modelo para generalizar a través de diferentes conjuntos de datos y entornos.
Resultados
El modelo propuesto se evalúa en varios conjuntos de datos para evaluar su rendimiento. Estos incluyen conjuntos de datos en distribución (donde los datos de prueba provienen de las mismas fuentes que los datos de entrenamiento) y conjuntos de datos de cero disparos (donde se prueba el modelo en datos que nunca ha visto antes).
Rendimiento en Distribución
El modelo muestra un rendimiento excelente en los conjuntos de datos de entrenamiento, superando significativamente las técnicas auto-supervisadas existentes. Incluso compite bien contra algunos modelos supervisados, destacando su efectividad y versatilidad.
Generalización de Cero Disparos
La verdadera prueba para el modelo viene con la generalización de cero disparos. En este contexto, el modelo se aplica a entornos completamente nuevos en los que nunca ha sido entrenado. Los resultados indican que el nuevo modelo consistentemente supera a métodos auto-supervisados anteriores en estas condiciones desafiantes.
Conclusiones
Este trabajo presenta un avance significativo en el campo de la estimación de profundidad monocular. Al aprovechar un conjunto de datos diverso y un enfoque de aprendizaje auto-supervisado, el modelo propuesto es capaz de generalizar a través de diferentes entornos, superando muchos modelos existentes.
El trabajo futuro debería centrarse en expandir aún más el conjunto de datos, posiblemente añadiendo más escenarios interiores. Además, mejorar el rendimiento del modelo en presencia de elementos dinámicos será esencial. Las soluciones potenciales podrían incluir el uso de técnicas adicionales para estimar mejor el movimiento en las imágenes.
En resumen, la combinación del conjunto de datos SlowTV y el nuevo modelo auto-supervisado ofrece un camino prometedor para mejorar la estimación de profundidad monocular, haciéndola más aplicable a situaciones del mundo real.
Título: Kick Back & Relax: Learning to Reconstruct the World by Watching SlowTV
Resumen: Self-supervised monocular depth estimation (SS-MDE) has the potential to scale to vast quantities of data. Unfortunately, existing approaches limit themselves to the automotive domain, resulting in models incapable of generalizing to complex environments such as natural or indoor settings. To address this, we propose a large-scale SlowTV dataset curated from YouTube, containing an order of magnitude more data than existing automotive datasets. SlowTV contains 1.7M images from a rich diversity of environments, such as worldwide seasonal hiking, scenic driving and scuba diving. Using this dataset, we train an SS-MDE model that provides zero-shot generalization to a large collection of indoor/outdoor datasets. The resulting model outperforms all existing SSL approaches and closes the gap on supervised SoTA, despite using a more efficient architecture. We additionally introduce a collection of best-practices to further maximize performance and zero-shot generalization. This includes 1) aspect ratio augmentation, 2) camera intrinsic estimation, 3) support frame randomization and 4) flexible motion estimation. Code is available at https://github.com/jspenmar/slowtv_monodepth.
Autores: Jaime Spencer, Chris Russell, Simon Hadfield, Richard Bowden
Última actualización: 2023-07-20 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2307.10713
Fuente PDF: https://arxiv.org/pdf/2307.10713
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.