Mejorando la segmentación de instancias en condiciones de poca luz
Nuevas técnicas mejoran modelos de segmentación de instancias para imágenes con poca luz.
― 8 minilectura
Tabla de contenidos
La Segmentación de instancias es una tecnología que identifica y separa cada objeto en una imagen. Es clave para ayudar a las computadoras a interpretar imágenes, apoyando campos como la robótica y los autos autónomos. La mayoría de los métodos de segmentación de instancias funcionan bien en condiciones de buena iluminación, pero tienen problemas en entornos de poca luz. Cuando la luz es escasa, las imágenes suelen tener mucho Ruido, lo que dificulta ver detalles y reconocer objetos.
Este artículo explora cómo mejorar la segmentación de instancias en situaciones de muy poca luz. Introducimos nuevas técnicas que ayudan a los modelos a trabajar mejor con imágenes oscuras. Notamos que el ruido en fotos de poca luz interfiere con las características que las redes neuronales necesitan para identificar objetos correctamente. Para solucionar esto, desarrollamos métodos para reducir el ruido y mejorar el proceso de aprendizaje de nuestros modelos.
El problema con las imágenes en poca luz
Cuando se toman imágenes en condiciones de poca luz, suelen estar llenas de ruido. Este ruido empaña los detalles, dificultando a los algoritmos captar características claras. Los modelos de segmentación de instancias regulares están diseñados para imágenes más brillantes. En escenarios de poca luz, el ruido puede ocultar información importante. Esto provoca que los modelos se salten objetos o los confundan con el fondo.
No hay muchos métodos o conjuntos de datos disponibles que se centren específicamente en la segmentación de instancias en poca luz. Algunas técnicas existentes intentan mejorar las imágenes antes de pasarlas por los modelos de segmentación, pero esto agrega pasos y tiempo extra. Esto no es ideal para aplicaciones en tiempo real donde la velocidad es esencial. Además, estos métodos de mejora pueden no recuperar suficientes detalles de las imágenes originales, llevando a predicciones incorrectas.
Nuestro enfoque
Nuestro objetivo fue crear un marco más eficaz para la segmentación de instancias en condiciones de poca luz sin necesidad de procesamiento previo adicional. Para lograr esto, ideamos un sistema simple pero potente que opera directamente sobre imágenes en poca luz.
Nuestro enfoque incluye tres componentes principales: una capa de submuestreo ponderado adaptativa, un bloque convolucional orientado a suavizado y un aprendizaje de supresión de disturbios. Cada componente ayuda a reducir el efecto del ruido y mejorar la precisión del modelo.
Capa de Submuestreo Ponderado Adaptativo
La primera innovación es la capa de submuestreo ponderado adaptativo. Esta capa ayuda a limpiar el ruido de las imágenes mientras son procesadas a través de la red. Los métodos de submuestreo regulares utilizados en muchos modelos no consideran el ruido en las imágenes. Simplemente reducen la resolución sin filtrar disturbios, lo que puede hacer que el ruido sea aún más problemático.
Nuestra nueva capa de submuestreo tiene en cuenta las características circundantes y las agrega de manera selectiva. Esto ayuda a minimizar el ruido mientras se mantienen intactos los detalles importantes. Usando un proceso similar a los filtros pasa-bajos, esta capa asegura que las características se vean menos afectadas por el ruido.
Bloque Convolucional Orientado a Suavizado
Luego, introdujimos el bloque convolucional orientado a suavizado. Este bloque mejora las capas convolucionales ordinarias al agregar un efecto de suavizado durante la extracción de características. El objetivo es reducir el ruido y mejorar la robustez del modelo al tratar con imágenes en poca luz.
La convolución orientada a suavizado usa múltiples ramas que ayudan a aprender mejores filtros para diferentes áreas de la imagen. Esto significa que cuando el modelo encuentra características ruidosas, puede filtrarlas adaptativamente mientras mantiene los detalles semánticos críticos de los objetos.
Aprendizaje de Supresión de Disturbios
Finalmente, implementamos el aprendizaje de supresión de disturbios. Esta técnica anima al modelo a aprender características que son estables y no se ven afectadas por el ruido. En lugar de aceptar simplemente la entrada ruidosa, nuestro modelo aprende a identificar las características esenciales en imágenes limpias y ruidosas.
Al minimizar la diferencia entre las características extraídas de imágenes ruidosas y limpias, el modelo puede enfocarse en lo que realmente importa para las tareas de segmentación. Esto mejora el rendimiento general del modelo en situaciones de poca luz.
Importancia de las Imágenes RAW
Notamos que usar imágenes RAW de alta profundidad de bits es beneficioso en poca luz. Las salidas típicas de cámaras, como las imágenes sRGB, pueden perder mucho detalle debido al ruido, especialmente en escenas oscuras. En contraste, las imágenes RAW retienen más información de la escena, lo que las hace más adecuadas para el procesamiento en condiciones de poca luz.
Para abordar la falta de conjuntos de datos RAW de poca luz disponibles, desarrollamos un pipeline sintético. Este pipeline genera imágenes RAW realistas de poca luz a partir de imágenes regulares que están bien iluminadas. Invirtiendo los pasos del procesamiento de imágenes típicamente aplicados para crear imágenes sRGB, podemos crear un conjunto de datos que incluye una variedad de escenarios de poca luz.
Recolección de un Conjunto de Datos del Mundo Real
Para apoyar aún más nuestra investigación, recopilamos un conjunto de datos del mundo real diseñado específicamente para la segmentación de instancias en poca luz. Este conjunto incluye más de dos mil pares de imágenes tomadas en luz baja y normal, con cada par etiquetado a nivel de píxel. Esta extensa colección nos permite evaluar nuestro método de manera efectiva y proporciona un referente para futuras investigaciones en esta área.
El conjunto de datos consiste en diferentes tipos de escenas, tanto interiores como exteriores. Cada escena se captura bajo diversas condiciones para asegurar una representación diversa de situaciones de poca luz. Las extensas anotaciones ayudan a entrenar modelos de manera que aseguran que puedan reconocer objetos incluso cuando la luz es insuficiente.
Evaluación de Nuestro Método
En nuestros experimentos, comparamos nuestros métodos propuestos contra modelos estatales del arte existentes bajo condiciones de poca luz. Realizamos evaluaciones en conjuntos de datos sintéticos y reales, concentrándonos en la precisión de la segmentación de instancias.
Los resultados mostraron mejoras significativas en el rendimiento al usar nuestros nuevos métodos. Descubrimos que al procesar directamente imágenes RAW de poca luz, en lugar de imágenes sRGB, nuestro modelo logró una precisión mayor. Además, los nuevos componentes de diseño no agregaron mucho al tiempo de procesamiento general, lo que los hace adecuados para aplicaciones en tiempo real.
Resultados de Rendimiento
Al evaluar nuestro enfoque en el nuevo conjunto de datos, encontramos que nuestro método superó las técnicas tradicionales. Los modelos que emplearon nuestra capa de submuestreo ponderado adaptativo y bloques convolucionales orientados a suavizado lograron consistentemente una mayor precisión promedio. El aprendizaje de supresión de disturbios impulsó aún más la robustez del modelo, resultando en un rendimiento más estable en diversas condiciones.
Nuestro análisis reveló que el marco propuesto efectivamente reduce el ruido en imágenes de poca luz, traduciéndose en un mejor rendimiento en tareas de segmentación de instancias. Esto muestra la importancia de abordar el ruido directamente dentro del modelo, en lugar de confiar en métodos de preprocesamiento que pueden no dar resultados satisfactorios.
Conclusión
Esta investigación destaca los desafíos que las condiciones de poca luz suponen para la segmentación de instancias. Los métodos tradicionales luchan con el ruido común en imágenes oscuras, lo que lleva a un rendimiento inferior. Sin embargo, nuestras técnicas propuestas mejoraron significativamente la precisión y eficiencia de la segmentación de instancias en entornos de poca luz.
Al centrarnos en reducir el ruido de las características a través de estrategias de submuestreo y convolución innovadoras, junto con un fuerte énfasis en aprender características estables, hemos desarrollado una solución integral. La recopilación de un nuevo conjunto de datos de Baja Luz del mundo real proporciona un recurso valioso para futuras investigaciones en este dominio.
En última instancia, nuestro trabajo abre caminos para aplicaciones de visión por computadora mejoradas, particularmente aquellas que requieren un rendimiento fiable en condiciones de iluminación desafiantes. A través de estos avances, esperamos allanar el camino para modelos más capaces que puedan operar de manera efectiva en entornos diversos.
Título: Instance Segmentation in the Dark
Resumen: Existing instance segmentation techniques are primarily tailored for high-visibility inputs, but their performance significantly deteriorates in extremely low-light environments. In this work, we take a deep look at instance segmentation in the dark and introduce several techniques that substantially boost the low-light inference accuracy. The proposed method is motivated by the observation that noise in low-light images introduces high-frequency disturbances to the feature maps of neural networks, thereby significantly degrading performance. To suppress this ``feature noise", we propose a novel learning method that relies on an adaptive weighted downsampling layer, a smooth-oriented convolutional block, and disturbance suppression learning. These components effectively reduce feature noise during downsampling and convolution operations, enabling the model to learn disturbance-invariant features. Furthermore, we discover that high-bit-depth RAW images can better preserve richer scene information in low-light conditions compared to typical camera sRGB outputs, thus supporting the use of RAW-input algorithms. Our analysis indicates that high bit-depth can be critical for low-light instance segmentation. To mitigate the scarcity of annotated RAW datasets, we leverage a low-light RAW synthetic pipeline to generate realistic low-light data. In addition, to facilitate further research in this direction, we capture a real-world low-light instance segmentation dataset comprising over two thousand paired low/normal-light images with instance-level pixel-wise annotations. Remarkably, without any image preprocessing, we achieve satisfactory performance on instance segmentation in very low light (4~\% AP higher than state-of-the-art competitors), meanwhile opening new opportunities for future research.
Autores: Linwei Chen, Ying Fu, Kaixuan Wei, Dezhi Zheng, Felix Heide
Última actualización: 2023-09-08 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2304.14298
Fuente PDF: https://arxiv.org/pdf/2304.14298
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.