Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avanzando en el seguimiento de objetos con imágenes RGB y térmicas

Un nuevo método mejora el seguimiento de objetos usando imágenes RGB y térmicas.

― 6 minilectura


Método de seguimiento deMétodo de seguimiento deobjetos RGB-TIRimágenes combinadas.seguimiento utilizando tipos deUn nuevo método destaca en el
Tabla de contenidos

Rastrear objetos en videos puede ser complicado. Hay muchos problemas como objetos bloqueados, cambios de luz y imágenes borrosas que pueden hacer más difícil seguir algo mientras se mueve. Las mejoras recientes en aprendizaje profundo están ayudando con estos desafíos. Sin embargo, la mayoría de los sistemas actuales solo usan imágenes de color normales (RGB) y no aprovechan imágenes que muestran calor (infrarrojo térmico, TIR). Usar ambos tipos de imágenes puede ayudar a proporcionar más detalles sobre un objeto, especialmente en situaciones difíciles.

Este artículo habla de un nuevo método que combina imágenes RGB y TIR para rastrear objetos de manera más efectiva. El método propuesto incluye dos partes principales: un Extractor de características para recolectar información visual importante y un rastreador para seguir al objeto.

El Proceso de Rastreo

El primer paso implica reunir información de ambos tipos de imágenes. El extractor de características capta características profundas de las imágenes RGB y TIR. Luego, el rastreador usa estas características para seguir al objeto utilizando una estructura única que se enfoca en características específicas del objeto.

Para mejorar el proceso de rastreo, el estudio desarrolla dos ideas principales: ramas especiales para combinar características de los dos tipos de imágenes y un método para combinar estas características de manera efectiva. El objetivo es mejorar cómo funcionan juntas estas características mientras se usan menos recursos y menos datos de entrenamiento.

El Reto del Rastreo RGBT

Rastrear objetos que usan tanto imágenes RGB como térmicas es complejo debido a las diferencias en cómo se ven estas imágenes. Los métodos tradicionales que intentan combinarlas en una sola pueden no funcionar bien en condiciones difíciles. El nuevo enfoque se centra en mejorar cómo se combinan estas imágenes, usando un diseño más simple que integra partes especializadas para diferentes atributos de las imágenes.

El método implica usar mecanismos de atención para determinar qué partes de las imágenes son más importantes para rastrear el objeto. Esto ayuda al modelo a enfocarse en áreas clave mientras ignora partes menos importantes, haciéndolo mejor para seguir al objeto.

La Estructura del Método Propuesto

El método de rastreo propuesto funciona en dos fases. Primero, cada parte se entrena por separado, con los ajustes iniciales provenientes de un modelo ya entrenado en un gran conjunto de datos de imágenes. Después, todas las partes se entrenan juntas para refinar cómo combinan la información de ambas imágenes RGB y térmicas.

Durante el rastreo, el sistema usa el primer fotograma del video para encontrar el objeto, recopila un conjunto de posibles ubicaciones a su alrededor y usa eso para predecir dónde estará el objeto en el siguiente fotograma. El modelo actualiza continuamente sus predicciones basándose en lo que ve en tiempo real.

Configuración Experimental

El nuevo método se probó usando una serie de conjuntos de datos de rastreo ampliamente reconocidos. Uno de los conjuntos de datos principales, RGBT234, contiene pares de imágenes RGB y térmicas de alta calidad. El propósito de estas pruebas fue ver qué tan bien funciona el nuevo método en comparación con otros sistemas de rastreo.

Otro conjunto de datos, LasHeR, tiene muchos ejemplos con pares de video RGB y térmico alineados. Este conjunto de datos es crucial tanto para entrenar como para probar métodos de rastreo porque proporciona desafíos de la vida real que pueden afectar el rastreo.

Métricas de Evaluación

Para evaluar la efectividad de los métodos de rastreo, se utilizaron dos medidas clave: Tasa de Precisión (PR) y Tasa de Éxito (SR). La PR mide cuán cerca está la posición predicha del objeto de su posición real, mientras que la SR observa con qué frecuencia el rastreo se mantiene en el objetivo a lo largo del video.

Resultados en el Conjunto de Datos RGBT234

El método logró resultados impresionantes en el conjunto de datos RGBT234. La puntuación de precisión fue muy alta, lo que demuestra que el rastreador pudo seguir al objeto con precisión en muchas situaciones. La tasa de éxito también indicó que el método tuvo éxito en rastrear el objetivo la mayor parte del tiempo en las secuencias.

Un examen más detallado del rendimiento según diferentes desafíos destacó las fortalezas del nuevo método en el manejo de desorden en el fondo, oclusión y desenfoque por movimiento. El método mostró resultados sólidos en cada aspecto, superando a varios rastreadores existentes.

En escenarios donde había mucha interferencia en el fondo, el nuevo método logró mantener altas tasas de precisión y éxito. Incluso cuando los objetivos estaban parcialmente bloqueados por otros objetos, el rastreador continuó funcionando bien.

Resultados en el Conjunto de Datos LasHeR

El método también se probó en el conjunto de datos LasHeR. Aunque el rendimiento aquí fue un poco más bajo que en RGBT234, todavía logró las mejores puntuaciones en comparación con otros métodos. Esto indica que el método propuesto es robusto y puede manejar una variedad de desafíos.

El menor rendimiento en el conjunto de datos LasHeR puede atribuirse a las dificultades específicas presentes en esos videos. A pesar de esto, el rastreador mostró su capacidad para seguir rastreando objetivos en diferentes escenarios con éxito.

Conclusión

En resumen, el nuevo método para rastrear objetos que combina imágenes RGB y térmicas ha mostrado gran promesa. El método fue exitoso en pruebas, demostrando su capacidad para mantener un rastreo preciso a través de varios desafíos.

Incluso con la ligera disminución en el rendimiento en conjuntos de datos más desafiantes como LasHeR, los resultados aún indicaron que el método es un fuerte contendiente entre los sistemas de rastreo actuales. En general, este trabajo contribuye con valiosas ideas para mejorar la tecnología de rastreo y puede allanar el camino para mejores sistemas en campos como vehículos autónomos, seguridad y robótica.

Los hallazgos aquí ayudarán a avanzar en las técnicas de rastreo RGBT y sugerirán nuevas vías para la investigación y el desarrollo futuro.

Fuente original

Título: EANet: Enhanced Attribute-based RGBT Tracker Network

Resumen: Tracking objects can be a difficult task in computer vision, especially when faced with challenges such as occlusion, changes in lighting, and motion blur. Recent advances in deep learning have shown promise in challenging these conditions. However, most deep learning-based object trackers only use visible band (RGB) images. Thermal infrared electromagnetic waves (TIR) can provide additional information about an object, including its temperature, when faced with challenging conditions. We propose a deep learning-based image tracking approach that fuses RGB and thermal images (RGBT). The proposed model consists of two main components: a feature extractor and a tracker. The feature extractor encodes deep features from both the RGB and the TIR images. The tracker then uses these features to track the object using an enhanced attribute-based architecture. We propose a fusion of attribute-specific feature selection with an aggregation module. The proposed methods are evaluated on the RGBT234 \cite{LiCLiang2018} and LasHeR \cite{LiLasher2021} datasets, which are the most widely used RGBT object-tracking datasets in the literature. The results show that the proposed system outperforms state-of-the-art RGBT object trackers on these datasets, with a relatively smaller number of parameters.

Autores: Abbas Türkoğlu, Erdem Akagündüz

Última actualización: 2023-07-04 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2307.01893

Fuente PDF: https://arxiv.org/pdf/2307.01893

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares