Mejorando Imágenes Infrarrojas para Detección de Peatones
Aprende a mejorar imágenes infrarrojas para detectar mejor a los peatones en coches autónomos.
― 8 minilectura
Tabla de contenidos
- Importancia de las Imágenes Infrarrojas
- El Desafío con las Imágenes Infrarrojas en Crudo
- Dos Tipos de Pipelines de Corrección
- Corrección con Obturador
- Corrección Sin Obturador
- Pasos de Procesamiento de Imágenes
- Corrección de No Uniformidad (NUC)
- Algoritmos de Corrección Adicionales
- Importancia de Afinar los Algoritmos
- Efectos en el Rendimiento de Detección
- Encontrando el Equilibrio Correcto
- Experimentando con Diferentes Pipelines
- Entorno de Pruebas
- Métricas de Evaluación
- Resultados de los Experimentos
- Rendimiento del Pipeline con Obturador
- Rendimiento del Pipeline Sin Obturador
- Importancia de la Optimización del Modelo
- Entrenamiento del Modelo
- Compromiso entre Velocidad y Precisión
- Técnicas de Cuantización
- Pensamientos Finales
- Fuente original
Las cámaras infrarrojas son útiles para ver en condiciones donde las cámaras normales tienen problemas, como de noche o en niebla. Sin embargo, las imágenes de estas cámaras pueden ser ruidosas y necesitan ser arregladas antes de que se puedan usar, especialmente para tareas como detectar peatones en autos autónomos. Este artículo explora los pasos necesarios para mejorar la calidad de las imágenes infrarrojas para ayudar con la detección de peatones.
Importancia de las Imágenes Infrarrojas
Las cámaras infrarrojas ayudan en situaciones de poca luz. Detectan el calor que emiten los objetos y pueden crear imágenes que muestran dónde están las personas y las cosas, incluso cuando es difícil ver con cámaras normales. En el contexto de los autos autónomos, poder ver a los peatones claramente es vital para la seguridad. Sin embargo, las imágenes infrarrojas en crudo a menudo no son lo suficientemente claras para que los modelos detecten algo útil. Por lo tanto, es necesario un proceso de corrección.
El Desafío con las Imágenes Infrarrojas en Crudo
Las imágenes infrarrojas en crudo pueden verse muy ruidosas y poco útiles para un observador humano. Puede que no muestren las características necesarias para la detección, como el contorno de una persona. Para hacer que estas imágenes sean utilizables, deben pasar por un pipeline de corrección. Este pipeline ajusta las imágenes para reducir el ruido y resaltar características importantes para la detección de peatones.
Dos Tipos de Pipelines de Corrección
Hay dos métodos principales para corregir imágenes infrarrojas: corrección con obturador y corrección sin obturador. Cada método tiene sus propias ventajas y desafíos.
Corrección con Obturador
Este método usa un obturador de cámara para tomar imágenes de referencia a diferentes temperaturas. Esto ayuda a crear una línea base para la corrección. El obturador se cierra brevemente mientras la cámara captura imágenes de una temperatura conocida, lo que permite una mejor corrección de las imágenes ruidosas. Sin embargo, esto requiere detener el flujo de video, lo que puede ser problemático para la detección en tiempo real.
Corrección Sin Obturador
El método sin obturador evita detener el flujo de video. En su lugar, usa algoritmos diseñados especialmente que corrigen las imágenes sin necesidad de interrumpir el flujo de datos. Esto es particularmente útil en aplicaciones en tiempo real, como los autos autónomos, donde cada segundo cuenta.
Pasos de Procesamiento de Imágenes
El pipeline de corrección incluye varios pasos para mejorar la calidad de la imagen. Estos pasos son cruciales para asegurarse de que las imágenes puedan ser analizadas efectivamente por los modelos de detección.
Corrección de No Uniformidad (NUC)
El paso más crítico es la corrección de no uniformidad (NUC). Este paso busca ajustar las diferencias en cómo diferentes píxeles responden a la misma temperatura. Con el tiempo, los sensores infrarrojos pueden volverse menos precisos a medida que se calientan. NUC estima estas diferencias y ayuda a hacer correcciones.
Algoritmos de Corrección Adicionales
Además del NUC, hay varios otros algoritmos que pueden ayudar a mejorar la calidad de la imagen. Estos incluyen:
- Reemplazo de Píxeles Malos: Arregla píxeles dañados promediando los valores de píxeles cercanos.
- Destripado: Elimina las rayas verticales que pueden aparecer en las imágenes debido a errores del sensor.
- Denoising Espacial: Reduce el ruido en la imagen usando diversas técnicas de filtrado.
- Denoising Temporal: Reduce el ruido al comparar cuadros consecutivos, lo que puede ayudar a identificar y eliminar el ruido causado por el movimiento.
Cada uno de estos métodos puede desempeñar un papel en la mejora de la calidad general de las imágenes.
Importancia de Afinar los Algoritmos
Diferentes algoritmos pueden tener efectos variados sobre la calidad de la imagen y la precisión de detección. Es esencial seleccionar las combinaciones correctas de algoritmos y configuraciones según las necesidades específicas de la tarea de detección.
Efectos en el Rendimiento de Detección
Si bien algunos algoritmos pueden mejorar la calidad visual para un humano, pueden no ayudar o incluso perjudicar el rendimiento de los modelos de detección. Por ejemplo, el denoising espacial puede hacer que la imagen se vea mejor para nosotros, pero podría difuminar detalles importantes que un modelo necesita para detectar peatones.
Encontrando el Equilibrio Correcto
El objetivo es encontrar la mejor combinación de algoritmos que proporcione buena calidad de imagen sin agregar demasiado tiempo de procesamiento. Es un acto de equilibrio entre velocidad y precisión, especialmente en aplicaciones que son sensibles al tiempo como la conducción autónoma.
Experimentando con Diferentes Pipelines
Para entender qué métodos de corrección funcionan mejor, se realizaron experimentos utilizando pipelines de corrección con y sin obturador. Se probaron diferentes combinaciones de algoritmos para ver su impacto en el rendimiento de detección de peatones.
Entorno de Pruebas
Los experimentos utilizaron un conjunto de datos específico de imágenes infrarrojas combinadas con imágenes visibles tomadas en entornos urbanos. Este conjunto de datos incluía imágenes de peatones y ciclistas, proporcionando un fondo variado para la detección de objetos.
Métricas de Evaluación
El rendimiento de los modelos se midió usando una métrica estándar llamada Precisión Promedio (AP). Esta métrica ayuda a identificar cuán bien los modelos podían detectar peatones con precisión dentro de las imágenes.
Resultados de los Experimentos
Los experimentos revelaron hallazgos significativos con respecto a la efectividad de los diferentes métodos de corrección.
Rendimiento del Pipeline con Obturador
En el método de corrección con obturador, se encontró que incluir el destripado mejoró significativamente el rendimiento de detección. Sin embargo, agregar el denoising espacial perjudicó el rendimiento. Esto indicó que, mientras algunas correcciones son útiles, otras pueden interferir con la capacidad del modelo para detectar objetos con precisión.
Rendimiento del Pipeline Sin Obturador
El método sin obturador mostró que podía lograr correcciones de imagen de alta calidad sin necesidad de detener el flujo de imágenes. En esta configuración, la elección correcta de algoritmos condujo a un buen rendimiento, incluso con imágenes infrarrojas en crudo ruidosas.
Importancia de la Optimización del Modelo
Elegir el modelo correcto para la detección de peatones también es crítico. En este caso, se usó YOLOv4, un modelo popular de detección de objetos, por su velocidad y eficiencia.
Entrenamiento del Modelo
Los modelos necesitan ser entrenados en conjuntos de datos específicos para aprender a reconocer peatones. Durante el entrenamiento, se prueban diversas configuraciones y algoritmos para ver cuál produce los mejores resultados. Los modelos entrenados se evalúan luego en diferentes conjuntos de datos para asegurarse de que se generalicen bien a nuevas imágenes.
Compromiso entre Velocidad y Precisión
Uno de los principales desafíos en la optimización del pipeline de corrección es manejar el compromiso entre velocidad y precisión. Para la detección en tiempo real, los modelos deben procesar imágenes rápidamente mientras mantienen un alto nivel de precisión.
Técnicas de Cuantización
Para ayudar con la velocidad, se aplican técnicas como la cuantización, que reducen la complejidad del modelo sin afectar significativamente su rendimiento. Esto significa que el modelo puede funcionar más rápido mientras sigue siendo efectivo en la detección de peatones.
Pensamientos Finales
La investigación mostró que las imágenes infrarrojas pueden ser muy efectivas para la detección de peatones cuando se procesan correctamente. Con el pipeline de corrección adecuado, los autos autónomos pueden identificar mejor a los peatones y navegar de manera segura en diversas condiciones.
Los hallazgos enfatizan la importancia de seleccionar los algoritmos correctos y equilibrar la velocidad de procesamiento con la precisión de detección. El trabajo futuro podría explorar más la mejora de los algoritmos existentes y técnicas de aumento de datos para ayudar a aumentar el rendimiento aún más.
Al continuar refinando estos procesos, el uso de cámaras infrarrojas en aplicaciones cotidianas, especialmente en vehículos autónomos, puede volverse aún más confiable y eficiente.
Título: Optimizing the image correction pipeline for pedestrian detection in the thermal-infrared domain
Resumen: Infrared imagery can help in low-visibility situations such as fog and low-light scenarios, but it is prone to thermal noise and requires further processing and correction. This work studies the effect of different infrared processing pipelines on the performance of a pedestrian detection in an urban environment, similar to autonomous driving scenarios. Detection on infrared images is shown to outperform that on visible images, but the infrared correction pipeline is crucial since the models cannot extract information from raw infrared images. Two thermal correction pipelines are studied, the shutter and the shutterless pipes. Experiments show that some correction algorithms like spatial denoising are detrimental to performance even if they increase visual quality for a human observer. Other algorithms like destriping and, to a lesser extent, temporal denoising, increase computational time, but have some role to play in increasing detection accuracy. As it stands, the optimal trade-off for speed and accuracy is simply to use the shutterless pipe with a tonemapping algorithm only, for autonomous driving applications within varied environments.
Autores: Christophe Karam, Jessy Matias, Xavier Breniere, Jocelyn Chanussot
Última actualización: 2024-07-05 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.04484
Fuente PDF: https://arxiv.org/pdf/2407.04484
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.