Mejorando la detección de peatones con MSCoTDet
Nuevo método mejora la detección de peatones usando imágenes RGB y térmicas.
― 7 minilectura
Tabla de contenidos
- Por qué la Detección Multispectral es Importante
- Desafíos Comunes
- MSCoTDet: Un Nuevo Enfoque
- Las Dos Ramas de Detección
- El Rol de los Grandes Modelos de Lenguaje
- Proceso de Detección Paso a Paso
- Generando Descripciones Textuales
- Razonamiento Cruzado
- Fusionando la Información
- Resultados Experimentales
- Evaluación del Rendimiento
- Abordando el Sesgo de Modalidad
- Conclusión
- Fuente original
- Enlaces de referencia
Detectar personas usando diferentes tipos de imágenes es una tarea importante. Esto es especialmente cierto cuando se utilizan imágenes tomadas tanto en luz normal (RGB) como en configuraciones térmicas (calor). Combinar estos dos métodos puede ayudar a identificar peatones en cualquier momento del día o de la noche. Sin embargo, muchos sistemas de Detección tienen problemas en ciertas situaciones, especialmente cuando la calidad de las imágenes no es ideal o cuando el sistema se ha vuelto demasiado dependiente de un tipo de imagen sobre el otro.
Este artículo presenta un nuevo método llamado MSCoTDet, que utiliza grandes modelos de lenguaje para mejorar la detección de peatones al entender mejor las diferencias y similitudes entre las imágenes RGB y térmicas.
Por qué la Detección Multispectral es Importante
Detectar peatones con precisión es vital para la seguridad en diversas aplicaciones, como coches autónomos y sistemas de vigilancia. La detección multispectral es beneficiosa porque las imágenes RGB capturan color, mientras que las imágenes térmicas brindan información basada en el calor. Esta combinación permite una mejor detección de peatones durante la noche o en situaciones donde la visibilidad es pobre.
Cuando se combinan estas dos formas de imágenes, el sistema puede identificar a las personas con más precisión, lo que lleva a entornos más seguros. Sin embargo, los métodos existentes a menudo no funcionan bien cuando las condiciones son menos que ideales, lo que muestra la necesidad de mejoras en este campo.
Desafíos Comunes
Uno de los principales desafíos en la detección multispectral de peatones es el sesgo hacia un tipo de imagen. A menudo, los sistemas entrenados en conjuntos de datos donde están presentes imágenes térmicas aprenden a depender mucho de ellas. Esto se convierte en un problema cuando el sistema se encuentra con situaciones donde las señales térmicas son débiles o están ausentes. En tales casos, incluso si un peatón es claramente visible en la imagen RGB, el sistema puede no detectarlo.
Además, las diferentes propiedades de las imágenes RGB y térmicas pueden causar dificultades para fusionar la información de manera efectiva. A veces, el sistema puede fallar en combinar los datos de ambos tipos de imágenes, llevando a errores en la detección.
MSCoTDet: Un Nuevo Enfoque
Para abordar estos problemas, se desarrolló el marco MSCoTDet. Este marco incorpora grandes modelos de lenguaje para ayudar a cerrar la brecha entre la información de las imágenes RGB y térmicas. Al tratar los datos de ambos tipos de imágenes de manera paso a paso, el sistema puede realizar un razonamiento más efectivo al identificar peatones.
Las Dos Ramas de Detección
MSCoTDet está diseñado con dos partes principales:
Rama de Visión: Esta parte se encarga de procesar las imágenes RGB y térmicas por separado. Cada imagen es examinada usando detectores unimodales para identificar posibles peatones.
Rama de Lenguaje: Este componente genera descripciones textuales basadas en los peatones detectados. Al usar estas descripciones, el sistema puede realizar un análisis más exhaustivo de lo que ha detectado en ambos tipos de imágenes.
El Rol de los Grandes Modelos de Lenguaje
Los grandes modelos de lenguaje (LLMs) son herramientas poderosas que ayudan a comprender y generar información basada en texto. En el contexto de la detección de peatones, estos modelos pueden procesar los datos textuales sobre los peatones detectados y facilitar un razonamiento más profundo. A través de este proceso, el marco MSCoTDet puede combinar la información de ambos tipos de imágenes de manera más efectiva.
Proceso de Detección Paso a Paso
Generando Descripciones Textuales
El primer paso en el proceso de detección implica generar descripciones textuales para los peatones identificados en ambas imágenes, RGB y térmicas. Esto se hace a través de un método de emparejamiento, que coincide las cajas delimitadoras alrededor de posibles peatones de ambos tipos de imágenes. Al alinear estas detecciones, el sistema puede entender mejor el contexto y proporcionar descripciones precisas.
Una vez que las cajas delimitadoras están emparejadas, cada imagen pasa a través de un modelo que genera descripciones textuales. Estas descripciones resumen lo que es visible en cada caja delimitadora correspondiente, llevando a un conjunto de datos textuales que reflejan lo que el sistema ha detectado.
Razonamiento Cruzado
El siguiente paso implica aplicar un método de razonamiento llamado prompting de Cadena de Pensamiento Multispectral (MSCoT). Este prompting guía al modelo de lenguaje a través del proceso de analizar la información de ambos conjuntos de descripciones.
El LLM comienza prediciendo lo que ve en la imagen RGB según su descripción y luego hace lo mismo para la imagen térmica. En esta etapa, el modelo también predice una puntuación combinada que refleja su confianza en que la detección sea precisa.
Fusionando la Información
Después de que ambas ramas (visión y lenguaje) hayan proporcionado sus ideas, las puntuaciones finales de detección y las cajas delimitadoras se fusionan. Este proceso de fusión combina las predicciones de ambas ramas para llegar a una conclusión sobre si un peatón está presente y cuán seguro está el sistema de esa detección.
Resultados Experimentales
Para probar la efectividad del marco MSCoTDet, se realizaron extensos experimentos en varios conjuntos de datos. Estos conjuntos de datos incluyeron:
- El Conjunto de Datos FLIR: Compuesto por imágenes RGB y térmicas bien alineadas.
- El Conjunto de Datos CVC-14: Conocido por contener imágenes RGB y térmicas significativamente desalineadas.
- El Conjunto de Datos ROTX-MP: Enfocado en escenarios con peatones ocultos térmicamente.
Evaluación del Rendimiento
Los resultados experimentales mostraron que MSCoTDet superó a los métodos existentes en la detección de peatones bajo diversas condiciones. Específicamente, identificó con éxito a los peatones incluso cuando estaban térmicamente ocultos o cuando ocurrieron desalineaciones entre las imágenes.
Por ejemplo, cuando se probó en el conjunto de datos ROTX-MP, MSCoTDet demostró una capacidad para detectar peatones de manera precisa en situaciones donde otros modelos lucharon. Esto incluyó detectar personas en escenarios donde sus señales térmicas eran débiles o estaban ausentes.
Abordando el Sesgo de Modalidad
Una ventaja significativa de MSCoTDet fue su capacidad para mitigar el sesgo de modalidad. Los resultados indicaron que al usar descripciones textuales junto con los datos visuales, el sistema podía intervenir mejor cuando un tipo de imagen no proporcionaba información adecuada. Esta adaptabilidad es crítica para aplicaciones del mundo real donde las condiciones varían ampliamente.
Conclusión
El marco MSCoTDet representa un avance significativo en el campo de la detección multispectral de peatones. Al combinar las fortalezas de los métodos de detección visual con las capacidades de razonamiento de los grandes modelos de lenguaje, este enfoque aborda con éxito muchos de los desafíos enfrentados por los sistemas existentes.
A medida que la detección de peatones sigue evolucionando, incorporar modelos más sofisticados como MSCoTDet será esencial para mejorar la seguridad y el rendimiento en diversas aplicaciones. La fusión exitosa de datos visuales y textuales abre nuevas posibilidades para la investigación y desarrollo futuro, allanando el camino para sistemas de detección más robustos y adaptables en el mundo real.
Las aplicaciones potenciales de esta tecnología son vastas y podrían llevar a sistemas de tráfico más inteligentes, tecnologías de vigilancia mejoradas y vehículos autónomos más seguros, marcando un paso significativo hacia adelante en la búsqueda de soluciones confiables para la detección de peatones.
Título: MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection
Resumen: Multispectral pedestrian detection is attractive for around-the-clock applications due to the complementary information between RGB and thermal modalities. However, current models often fail to detect pedestrians in certain cases (e.g., thermal-obscured pedestrians), particularly due to the modality bias learned from statistically biased datasets. In this paper, we investigate how to mitigate modality bias in multispectral pedestrian detection using Large Language Models (LLMs). Accordingly, we design a Multispectral Chain-of-Thought (MSCoT) prompting strategy, which prompts the LLM to perform multispectral pedestrian detection. Moreover, we propose a novel Multispectral Chain-of-Thought Detection (MSCoTDet) framework that integrates MSCoT prompting into multispectral pedestrian detection. To this end, we design a Language-driven Multi-modal Fusion (LMF) strategy that enables fusing the outputs of MSCoT prompting with the detection results of vision-based multispectral pedestrian detection models. Extensive experiments validate that MSCoTDet effectively mitigates modality biases and improves multispectral pedestrian detection.
Autores: Taeheon Kim, Sangyun Chung, Damin Yeom, Youngjoon Yu, Hak Gu Kim, Yong Man Ro
Última actualización: 2024-05-29 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2403.15209
Fuente PDF: https://arxiv.org/pdf/2403.15209
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.