Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Mejorando la detección de peatones con MSCoTDet

Nuevo método mejora la detección de peatones usando imágenes RGB y térmicas.

― 7 minilectura


Detección de peatones deDetección de peatones denueva generacióndetección con imágenes RGB y térmicas.MSCoTDet mejora la precisión de
Tabla de contenidos

Detectar personas usando diferentes tipos de imágenes es una tarea importante. Esto es especialmente cierto cuando se utilizan imágenes tomadas tanto en luz normal (RGB) como en configuraciones térmicas (calor). Combinar estos dos métodos puede ayudar a identificar peatones en cualquier momento del día o de la noche. Sin embargo, muchos sistemas de Detección tienen problemas en ciertas situaciones, especialmente cuando la calidad de las imágenes no es ideal o cuando el sistema se ha vuelto demasiado dependiente de un tipo de imagen sobre el otro.

Este artículo presenta un nuevo método llamado MSCoTDet, que utiliza grandes modelos de lenguaje para mejorar la detección de peatones al entender mejor las diferencias y similitudes entre las imágenes RGB y térmicas.

Por qué la Detección Multispectral es Importante

Detectar peatones con precisión es vital para la seguridad en diversas aplicaciones, como coches autónomos y sistemas de vigilancia. La detección multispectral es beneficiosa porque las imágenes RGB capturan color, mientras que las imágenes térmicas brindan información basada en el calor. Esta combinación permite una mejor detección de peatones durante la noche o en situaciones donde la visibilidad es pobre.

Cuando se combinan estas dos formas de imágenes, el sistema puede identificar a las personas con más precisión, lo que lleva a entornos más seguros. Sin embargo, los métodos existentes a menudo no funcionan bien cuando las condiciones son menos que ideales, lo que muestra la necesidad de mejoras en este campo.

Desafíos Comunes

Uno de los principales desafíos en la detección multispectral de peatones es el sesgo hacia un tipo de imagen. A menudo, los sistemas entrenados en conjuntos de datos donde están presentes imágenes térmicas aprenden a depender mucho de ellas. Esto se convierte en un problema cuando el sistema se encuentra con situaciones donde las señales térmicas son débiles o están ausentes. En tales casos, incluso si un peatón es claramente visible en la imagen RGB, el sistema puede no detectarlo.

Además, las diferentes propiedades de las imágenes RGB y térmicas pueden causar dificultades para fusionar la información de manera efectiva. A veces, el sistema puede fallar en combinar los datos de ambos tipos de imágenes, llevando a errores en la detección.

MSCoTDet: Un Nuevo Enfoque

Para abordar estos problemas, se desarrolló el marco MSCoTDet. Este marco incorpora grandes modelos de lenguaje para ayudar a cerrar la brecha entre la información de las imágenes RGB y térmicas. Al tratar los datos de ambos tipos de imágenes de manera paso a paso, el sistema puede realizar un razonamiento más efectivo al identificar peatones.

Las Dos Ramas de Detección

MSCoTDet está diseñado con dos partes principales:

  1. Rama de Visión: Esta parte se encarga de procesar las imágenes RGB y térmicas por separado. Cada imagen es examinada usando detectores unimodales para identificar posibles peatones.

  2. Rama de Lenguaje: Este componente genera descripciones textuales basadas en los peatones detectados. Al usar estas descripciones, el sistema puede realizar un análisis más exhaustivo de lo que ha detectado en ambos tipos de imágenes.

El Rol de los Grandes Modelos de Lenguaje

Los grandes modelos de lenguaje (LLMs) son herramientas poderosas que ayudan a comprender y generar información basada en texto. En el contexto de la detección de peatones, estos modelos pueden procesar los datos textuales sobre los peatones detectados y facilitar un razonamiento más profundo. A través de este proceso, el marco MSCoTDet puede combinar la información de ambos tipos de imágenes de manera más efectiva.

Proceso de Detección Paso a Paso

Generando Descripciones Textuales

El primer paso en el proceso de detección implica generar descripciones textuales para los peatones identificados en ambas imágenes, RGB y térmicas. Esto se hace a través de un método de emparejamiento, que coincide las cajas delimitadoras alrededor de posibles peatones de ambos tipos de imágenes. Al alinear estas detecciones, el sistema puede entender mejor el contexto y proporcionar descripciones precisas.

Una vez que las cajas delimitadoras están emparejadas, cada imagen pasa a través de un modelo que genera descripciones textuales. Estas descripciones resumen lo que es visible en cada caja delimitadora correspondiente, llevando a un conjunto de datos textuales que reflejan lo que el sistema ha detectado.

Razonamiento Cruzado

El siguiente paso implica aplicar un método de razonamiento llamado prompting de Cadena de Pensamiento Multispectral (MSCoT). Este prompting guía al modelo de lenguaje a través del proceso de analizar la información de ambos conjuntos de descripciones.

El LLM comienza prediciendo lo que ve en la imagen RGB según su descripción y luego hace lo mismo para la imagen térmica. En esta etapa, el modelo también predice una puntuación combinada que refleja su confianza en que la detección sea precisa.

Fusionando la Información

Después de que ambas ramas (visión y lenguaje) hayan proporcionado sus ideas, las puntuaciones finales de detección y las cajas delimitadoras se fusionan. Este proceso de fusión combina las predicciones de ambas ramas para llegar a una conclusión sobre si un peatón está presente y cuán seguro está el sistema de esa detección.

Resultados Experimentales

Para probar la efectividad del marco MSCoTDet, se realizaron extensos experimentos en varios conjuntos de datos. Estos conjuntos de datos incluyeron:

  • El Conjunto de Datos FLIR: Compuesto por imágenes RGB y térmicas bien alineadas.
  • El Conjunto de Datos CVC-14: Conocido por contener imágenes RGB y térmicas significativamente desalineadas.
  • El Conjunto de Datos ROTX-MP: Enfocado en escenarios con peatones ocultos térmicamente.

Evaluación del Rendimiento

Los resultados experimentales mostraron que MSCoTDet superó a los métodos existentes en la detección de peatones bajo diversas condiciones. Específicamente, identificó con éxito a los peatones incluso cuando estaban térmicamente ocultos o cuando ocurrieron desalineaciones entre las imágenes.

Por ejemplo, cuando se probó en el conjunto de datos ROTX-MP, MSCoTDet demostró una capacidad para detectar peatones de manera precisa en situaciones donde otros modelos lucharon. Esto incluyó detectar personas en escenarios donde sus señales térmicas eran débiles o estaban ausentes.

Abordando el Sesgo de Modalidad

Una ventaja significativa de MSCoTDet fue su capacidad para mitigar el sesgo de modalidad. Los resultados indicaron que al usar descripciones textuales junto con los datos visuales, el sistema podía intervenir mejor cuando un tipo de imagen no proporcionaba información adecuada. Esta adaptabilidad es crítica para aplicaciones del mundo real donde las condiciones varían ampliamente.

Conclusión

El marco MSCoTDet representa un avance significativo en el campo de la detección multispectral de peatones. Al combinar las fortalezas de los métodos de detección visual con las capacidades de razonamiento de los grandes modelos de lenguaje, este enfoque aborda con éxito muchos de los desafíos enfrentados por los sistemas existentes.

A medida que la detección de peatones sigue evolucionando, incorporar modelos más sofisticados como MSCoTDet será esencial para mejorar la seguridad y el rendimiento en diversas aplicaciones. La fusión exitosa de datos visuales y textuales abre nuevas posibilidades para la investigación y desarrollo futuro, allanando el camino para sistemas de detección más robustos y adaptables en el mundo real.

Las aplicaciones potenciales de esta tecnología son vastas y podrían llevar a sistemas de tráfico más inteligentes, tecnologías de vigilancia mejoradas y vehículos autónomos más seguros, marcando un paso significativo hacia adelante en la búsqueda de soluciones confiables para la detección de peatones.

Fuente original

Título: MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection

Resumen: Multispectral pedestrian detection is attractive for around-the-clock applications due to the complementary information between RGB and thermal modalities. However, current models often fail to detect pedestrians in certain cases (e.g., thermal-obscured pedestrians), particularly due to the modality bias learned from statistically biased datasets. In this paper, we investigate how to mitigate modality bias in multispectral pedestrian detection using Large Language Models (LLMs). Accordingly, we design a Multispectral Chain-of-Thought (MSCoT) prompting strategy, which prompts the LLM to perform multispectral pedestrian detection. Moreover, we propose a novel Multispectral Chain-of-Thought Detection (MSCoTDet) framework that integrates MSCoT prompting into multispectral pedestrian detection. To this end, we design a Language-driven Multi-modal Fusion (LMF) strategy that enables fusing the outputs of MSCoT prompting with the detection results of vision-based multispectral pedestrian detection models. Extensive experiments validate that MSCoTDet effectively mitigates modality biases and improves multispectral pedestrian detection.

Autores: Taeheon Kim, Sangyun Chung, Damin Yeom, Youngjoon Yu, Hak Gu Kim, Yong Man Ro

Última actualización: 2024-05-29 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2403.15209

Fuente PDF: https://arxiv.org/pdf/2403.15209

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares