Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avances en la estimación de profundidad a partir de imágenes de doble píxel

Nuevo método mejora la estimación de profundidad usando sensores de píxeles duales en varios dispositivos de imagen.

― 7 minilectura


Avance en la estimaciónAvance en la estimaciónde profundidadsensores de doble píxel.profundidad utilizando datos deUn nuevo método mejora la estimación de
Tabla de contenidos

La percepción de profundidad es clave en varias áreas como el reconocimiento de objetos y la manipulación de imágenes. Tradicionalmente, los métodos para estimar la profundidad se basan en imágenes estéreo, luz estructurada o cámaras de tiempo de vuelo. Estos requieren hardware especializado que a menudo no se puede hacer más pequeño fácilmente. En cambio, las técnicas de aprendizaje profundo pueden obtener la profundidad de imágenes únicas, pero generalmente no igualan la calidad de los sensores de profundidad.

Recientemente, los sensores de píxeles duales (DP) han ganado popularidad en las cámaras modernas, principalmente para el autofoco. Capturan dos imágenes a la vez, haciéndolas parecer pares de imágenes estéreo. Sin embargo, el reto está en que las imágenes DP no son idénticas a las imágenes estéreo estándar. Esto ha llevado a dificultades al aplicar métodos comunes de coincidencia estéreo a los datos DP.

Problemas con los Sensores DP

Los sensores DP generan dos imágenes ligeramente desplazadas por su disposición de píxeles divididos. Esto causa funciones de dispersión de puntos (PSF) diferentes para cada vista, lo que complica la Estimación de profundidad. La pequeña línea de base da como resultado valores de profundidad muy pequeños, haciendo necesario usar técnicas de estimación subpíxel. Los algoritmos estéreo estándar, como el emparejamiento semi-global (SGM), no funcionan eficazmente con imágenes DP, especialmente cuando los valores de disparidad son pequeños.

Agregación de Costos Continua (CCA)

Para enfrentar estos desafíos, se propone un nuevo método conocido como Agregación de Costos Continua (CCA). CCA opera dentro de un marco semi-global y busca extraer información de profundidad continua de imágenes DP con precisión.

Cómo Funciona CCA

El método CCA primero calcula el costo de emparejar píxeles entre las dos vistas. En lugar de agregar costos en disparidades enteras como en los métodos tradicionales, CCA ajusta parábolas a estos costos. Luego, suma los coeficientes de las parábolas a lo largo de diferentes caminos en la imagen. Este proceso no solo mejora la suavidad de la disparidad, sino que también mantiene una forma cuadrática simple de los costos totales.

La eficiencia de CCA proviene de su minimización pixel a pixel, lo que le permite calcular disparidades rápidamente. Además, CCA utiliza un enfoque de múltiples escalas que ayuda a manejar mejor las PSFs variables, especialmente en regiones borrosas.

Resultados de Experimentos

Pruebas realizadas con datos DP de cámaras réflex y smartphones muestran que CCA logra resultados superiores en la estimación de disparidad en comparación con métodos existentes.

Entendiendo la Profundidad de Imágenes Estéreo

Los primeros métodos de estimación de profundidad se centraron en la geometría de dos vistas a través de la coincidencia estéreo. Se desarrollaron una variedad de técnicas, incluidos algoritmos locales que trabajan píxel a píxel y algoritmos globales que consideran píxeles vecinos para mejorar la precisión. Los métodos globales tienden a ser más efectivos pero también requieren mucho más poder de cómputo.

Transición a Disparidades Continuas

Para lograr estimación de profundidad continua, los algoritmos estéreo tradicionales a menudo implican el ajuste parabólico alrededor de la disparidad de costo más bajo. CCA se basa en los principios de SGM.

SGM implica varios pasos: calcular el volumen de costos, agregar costos, optimizar disparidades y refinar los resultados. Han surgido muchas adaptaciones de SGM, incorporando aprendizaje profundo para cálculos de volumen de costos o optimizando para hardware específico.

Profundidad de Sensores de Imagen Única

Mientras que la mayoría de las técnicas de estimación de profundidad se centran en pares estéreo, también ha habido interés en obtener profundidad de imágenes únicas. Los primeros métodos a menudo giraban en torno a la inversión de PSF dependiente de la profundidad, pero los enfoques contemporáneos aprovechan modelos de aprendizaje profundo para derivar profundidad de imágenes RGB únicas.

Algunos trabajos recientes se centran específicamente en el uso de imágenes DP para estimación de profundidad; sin embargo, estos enfoques suelen ser lentos y dependen en gran medida de técnicas de optimización.

Agregación de Costos Continua Explicada

CCA comienza con un cálculo de costos sencillo para cada píxel a través de los niveles de disparidad. Cada píxel está asociado con una parábola que representa el costo basado en sus píxeles vecinos. El método luego agrega los coeficientes de estas parábolas, cumpliendo con restricciones de suavidad, para minimizar el costo total.

Proceso Paso a Paso

  1. Cálculo de Costos Inicial: El método primero computa costos discretos para todos los valores de disparidad entera para cada píxel.

  2. Ajuste de Parábolas: Alrededor de la disparidad entera que tiene el costo mínimo, se ajusta una parábola, que representa el costo continuo a través de pequeños cambios en la disparidad.

  3. Agregación por Caminos: CCA agrega parábolas a lo largo de caminos definidos en la imagen mientras asegura la suavidad de la disparidad a través de una restricción cuadrática.

  4. Cálculo Final de Disparidad: El costo total agregado se minimiza, produciendo un mapa de disparidad suave para cada píxel.

Beneficios de CCA

  1. Eficiencia: CCA reduce la complejidad de los cálculos, lo que la hace significativa para aplicaciones en tiempo real.

  2. Robustez: El método se adapta bien a las PSFs variables, mejorando los resultados incluso en regiones borrosas.

  3. Versatilidad: CCA no se limita solo a imágenes DP; también puede adaptarse a datos estéreo tradicionales, demostrando ser efectiva en varios tipos de imágenes.

Evaluación de Rendimiento

El método CCA propuesto fue probado contra conjuntos de datos estándar, y los resultados demuestran que supera a los algoritmos tradicionales. Ha mostrado excelente rendimiento con datos capturados de cámaras réflex y smartphones, mostrando su utilidad tanto para cámaras de gama alta como más accesibles.

Rendimiento de DSLR

Para las imágenes de cámaras DSLR, CCA mostró mayor precisión en la estimación de disparidad, ya que estas imágenes tienen menos aberraciones y son generalmente de mayor calidad. Las pruebas confirmaron que CCA es particularmente efectiva en capturar disparidades, incluso en las diferencias entre objetos distintos dentro de las imágenes.

Rendimiento de Cámara de Teléfono

Los resultados de imágenes de smartphones indicaron que, aunque existen desafíos debido al ruido y la distorsión, CCA aún se desempeñó admirablemente. Aunque las imágenes de smartphones suelen ser de menor calidad que las capturas de DSLR, el método se adaptó bien para superar problemas inherentes en las imágenes.

Conclusión

El método de Agregación de Costos Continua representa un avance significativo en la estimación de disparidad a partir de imágenes DP. Con su capacidad para calcular disparidades continuas de manera eficiente mientras maneja las complejidades introducidas por diferentes PSFs, CCA se destaca como una herramienta robusta para aplicaciones del mundo real. El trabajo futuro en CCA se centrará en refinar los cálculos de costos, explorar mejores métodos de múltiples escalas y posiblemente integrar polinomios de mayor orden para una representación de costos más precisa.

Implicaciones para la Investigación Futura

A medida que la tecnología continúa avanzando, métodos como CCA probablemente jugarán un papel crucial en la mejora de la estimación de profundidad desde varios dispositivos de imagen, mejorando aplicaciones en industrias como la robótica, la realidad aumentada y los efectos visuales. La investigación también analizará cómo generalizar estas técnicas aún más, haciéndolas aplicables a una gama más amplia de dispositivos y escenarios.

En resumen, CCA abre la puerta a técnicas de estimación de profundidad más efectivas y eficientes que pueden mantenerse al día con las demandas modernas en imagen y computación.

Fuente original

Título: Continuous Cost Aggregation for Dual-Pixel Disparity Extraction

Resumen: Recent works have shown that depth information can be obtained from Dual-Pixel (DP) sensors. A DP arrangement provides two views in a single shot, thus resembling a stereo image pair with a tiny baseline. However, the different point spread function (PSF) per view, as well as the small disparity range, makes the use of typical stereo matching algorithms problematic. To address the above shortcomings, we propose a Continuous Cost Aggregation (CCA) scheme within a semi-global matching framework that is able to provide accurate continuous disparities from DP images. The proposed algorithm fits parabolas to matching costs and aggregates parabola coefficients along image paths. The aggregation step is performed subject to a quadratic constraint that not only enforces the disparity smoothness but also maintains the quadratic form of the total costs. This gives rise to an inherently efficient disparity propagation scheme with a pixel-wise minimization in closed-form. Furthermore, the continuous form allows for a robust multi-scale aggregation that better compensates for the varying PSF. Experiments on DP data from both DSLR and phone cameras show that the proposed scheme attains state-of-the-art performance in DP disparity estimation.

Autores: Sagi Monin, Sagi Katz, Georgios Evangelidis

Última actualización: 2023-06-13 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.07921

Fuente PDF: https://arxiv.org/pdf/2306.07921

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares