Enfoque en la apariencia en el seguimiento de múltiples objetos
Un nuevo método para rastreo y segmentación usando solo modelos de apariencia.
― 9 minilectura
Tabla de contenidos
El Seguimiento de múltiples objetos (MOT) y la Segmentación (MOTS) son tareas importantes en visión por computadora. Ayudan a identificar y seguir varios objetos en videos. Esto es útil en áreas como la vigilancia, coches autónomos y la comprensión de escenas en videos. Tradicionalmente, se ha utilizado un método conocido como seguimiento por detección para estas tareas. Sin embargo, este enfoque depende mucho de dos componentes: detectar objetos y asociarlos a través de los fotogramas del video según su movimiento y apariencia.
Con los avances en aprendizaje profundo, ha habido mejoras en cómo se detectan y reconocen los objetos. Sin embargo, muchos métodos existentes siguen dependiendo de los datos de movimiento junto con los datos de apariencia para mantener un alto nivel de rendimiento. La pregunta clave es si es posible alcanzar un rendimiento óptimo utilizando solo modelos de detección y apariencia fuertes sin necesidad de información de movimiento.
Nuestro Enfoque
Este trabajo propone un método que se centra en usar solo modelos de detección y apariencia de alto rendimiento para el seguimiento y segmentación de múltiples objetos. Usamos un Modelo de detección específico emparejado con un modelo de apariencia auto-supervisado. Nuestro enfoque omite la información de movimiento y se centra únicamente en la apariencia del objeto para el seguimiento. Esta estrategia simple pero efectiva ha mostrado resultados prometedores en competiciones recientes.
Nuestro método enfatiza la simplicidad. Al no depender de datos de movimiento, buscamos reducir la complejidad del proceso de seguimiento. Basamos nuestro método en dos componentes principales: un modelo de detección diseñado para identificar objetos y un modelo de Aprendizaje Auto-Supervisado que mejora la calidad de la representación de la apariencia.
Logramos resultados significativos en entornos competitivos. En un taller reciente, nuestro método obtuvo el primer lugar en la categoría MOTS y el segundo lugar en la categoría MOT. Esto demuestra que centrarse en la apariencia puede llevar a un rendimiento competitivo en tareas de seguimiento y segmentación de objetos.
Antecedentes
El seguimiento de múltiples objetos (MOT) ha sido un área de investigación activa durante muchos años. La mayoría de los métodos contemporáneos utilizan el seguimiento por detección, que combina la detección de objetos con estrategias de asociación basadas en movimiento y apariencia. Con el tiempo, el desarrollo de técnicas de aprendizaje profundo ha contribuido a avances rápidos en el rendimiento de detección.
Actualmente, muchos métodos de seguimiento dependen de sistemas de detección bien conocidos, como YOLOX. Sin embargo, queríamos probar si una red de detección más avanzada podría ofrecer mejores resultados. Por lo tanto, seleccionamos una red centrada en el rendimiento para validar nuestra hipótesis sobre la importancia del detector.
Además del modelo de detección, las estrategias de asociación utilizadas en el seguimiento son cruciales. Los métodos populares incluyen aquellos basados en movimiento, apariencia o una combinación de ambos. Nuestro enfoque simplifica esto eliminando todos los componentes relacionados con el movimiento y confiando únicamente en un modelo de apariencia de alta calidad.
MOTS es una extensión de MOT donde el objetivo no es solo seguir objetos, sino también determinar sus formas usando máscaras. Muchos métodos MOTS derivan de rastreadores MOT existentes, que proporcionaron una base para nuestro trabajo. Nos basamos en métodos tradicionales añadiendo un encabezado de máscara a nuestro marco de seguimiento.
El aprendizaje auto-supervisado ha avanzado en los últimos años, específicamente en la creación de representaciones útiles sin necesidad de datos etiquetados. Un método destacado es el aprendizaje contrastivo, que ayuda a aprender representaciones comparables a las obtenidas a través del aprendizaje supervisado en varios conjuntos de datos.
Descripción General del Marco
Diseñamos nuestro marco en torno al modelo de seguimiento por detección. Para la tarea de MOT, el marco detecta cajas delimitadoras para objetos en cada fotograma de video. En MOTS, incluimos una cabeza de segmentación para generar máscaras binarias correspondientes a cada caja detectada. También integramos un modelo que extrae características únicas de estas cajas delimitadoras.
Después de que se extraen las características, nuestro marco procesa la asociación de datos para emparejar identidades de objetos a través del flujo de video. Esta asociación es crucial para mantener las identidades correctas de los objetos, especialmente cuando pueden superponerse u ocultarse entre sí en los fotogramas.
Detección y Segmentación
Nuestro marco utiliza una arquitectura específica que combina dos modelos en paralelo. Esta configuración permite una integración efectiva de diferentes niveles de características, lo que mejora el rendimiento general del proceso de detección. Usamos una cabeza de detección que no solo predice cajas delimitadoras, sino que también genera máscaras binarias para los objetos rastreados.
Para mejorar el proceso de entrenamiento, empleamos una estrategia de entrenamiento de múltiples pasos. Inicialmente, entrenamos el modelo para detectar cajas con un gran conjunto de datos etiquetados. Después de esto, afinamos el modelo con un conjunto de datos etiquetado para tanto detección como segmentación.
Además, abordamos problemas de desequilibrio de clases en los datos aplicando una estrategia de supresión no máxima (NMS) de múltiples clases. Este enfoque ayuda a filtrar las cajas superpuestas y retener solo las detecciones más confiables.
ReID
MóduloPara el reconocimiento, nuestro marco incluye un componente ReID que se centra en re-identificar objetos a través de los fotogramas. Este componente extrae características que representan las cajas detectadas. Aplicamos pesos a estas características según su puntuación de detección. Mantener el seguimiento de las características a través de los fotogramas nos permite mantener la identidad incluso durante las oclusiones.
Adoptamos un método específico que clasifica las cajas de detección según sus puntuaciones de confianza. Las cajas con alta puntuación se emparejan primero con las trayectorias existentes, mientras que las detecciones de menor puntuación siguen. La asociación final de datos se completa utilizando un método bien conocido que implica el algoritmo húngaro, asegurando que se realicen los mejores emparejamientos a través de los fotogramas.
Conjunto de Datos y Evaluación
Para nuestros experimentos, utilizamos un gran conjunto de datos que contiene videos de escenas de conducción. Este conjunto de datos proporciona datos etiquetados para las tareas MOT y MOTS. Incluye varios videos para entrenar los modelos de manera efectiva mientras permite pruebas robustas.
Empleamos varias métricas para evaluar el rendimiento de nuestro método. Estas incluyen precisión de seguimiento medio, precisión de seguimiento de múltiples objetos y precisión de seguimiento de orden superior. Estas métricas ayudan a evaluar la efectividad de nuestro modelo en la detección y seguimiento de objetos a través de secuencias de video.
Detalles de Implementación
En nuestra implementación, nos centramos en optimizar el entrenamiento del modelo de detección utilizando una arquitectura específica. Aplicamos varias técnicas de aumento de datos durante el entrenamiento para mejorar la capacidad del modelo de generalizar. Esto incluyó escalar imágenes y aplicar giros aleatorios.
El optimizador utilizado durante el entrenamiento fue AdamW, que permitió un aprendizaje efectivo con parámetros bien ajustados. Entrenamos nuestro modelo en múltiples GPUs para acelerar el proceso y manejar el gran conjunto de datos de manera eficiente.
Para la cabeza de segmentación, iniciamos el modelo basado en un detector MOT existente. Esto nos permitió construir sobre trabajos previos en lugar de comenzar desde cero. Se realizó un ajuste fino utilizando un conjunto de datos de segmentación separado que proporcionó información detallada sobre los objetos.
El modelo ReID también pasó por un proceso de ajuste, donde aprendió a extraer características de imágenes de objetos recortadas según las etiquetas de las cajas delimitadoras. Este modelo de aprendizaje profundo se configuró para reconocer objetos de manera efectiva a través de diferentes fotogramas.
Configuración de Entrenamiento
Para el entrenamiento, utilizamos hardware dedicado para aprovechar una alta potencia de computación. Esto permitió iteraciones rápidas y pruebas de diferentes configuraciones sin mayores retrasos. Nos enfocamos en lograr un modelo de alta calidad que funcione bien en datos no vistos seleccionando cuidadosamente los parámetros de entrenamiento y monitoreando las métricas de rendimiento a lo largo del proceso.
Resultados Principales
Después de una extensa evaluación en los datos de prueba, nuestro método demostró un rendimiento impresionante en ambas categorías, MOT y MOTS. Los resultados mostraron que nuestro método es uno de los mejores en desafíos recientes, demostrando que un enfoque más simple puede producir resultados competitivos.
En particular, logramos puntuaciones notables en varias métricas, indicando que nuestro enfoque en la apariencia en lugar del movimiento dio como resultado un seguimiento y segmentación exitosos. El rendimiento superó a muchos métodos estándar existentes, confirmando la eficacia de nuestra estrategia propuesta.
Conclusión
En resumen, nuestro trabajo destaca un enfoque sencillo pero efectivo para el seguimiento y segmentación de múltiples objetos. Al depender únicamente de modelos de apariencia y omitir los datos relacionados con el movimiento, hemos demostrado que es posible lograr un rendimiento competitivo en tareas del mundo real.
Los resultados de nuestra implementación reflejan un paso significativo hacia la simplificación del proceso de seguimiento de múltiples objetos. A medida que continuamos construyendo sobre esta base, esperamos inspirar más investigaciones que exploren el potencial de métodos impulsados por la apariencia en el campo de la visión por computadora.
El código y el marco resultante de esta investigación estarán disponibles para la comunidad, promoviendo la colaboración e innovación en el avance de las técnicas de seguimiento y segmentación.
Título: ReIDTrack: Multi-Object Track and Segmentation Without Motion
Resumen: In recent years, dominant Multi-object tracking (MOT) and segmentation (MOTS) methods mainly follow the tracking-by-detection paradigm. Transformer-based end-to-end (E2E) solutions bring some ideas to MOT and MOTS, but they cannot achieve a new state-of-the-art (SOTA) performance in major MOT and MOTS benchmarks. Detection and association are two main modules of the tracking-by-detection paradigm. Association techniques mainly depend on the combination of motion and appearance information. As deep learning has been recently developed, the performance of the detection and appearance model is rapidly improved. These trends made us consider whether we can achieve SOTA based on only high-performance detection and appearance model. Our paper mainly focuses on exploring this direction based on CBNetV2 with Swin-B as a detection model and MoCo-v2 as a self-supervised appearance model. Motion information and IoU mapping were removed during the association. Our method wins 1st place on the MOTS track and wins 2nd on the MOT track in the CVPR2023 WAD workshop. We hope our simple and effective method can give some insights to the MOT and MOTS research community. Source code will be released under this git repository
Autores: Kaer Huang, Bingchuan Sun, Feng Chen, Tao Zhang, Jun Xie, Jian Li, Christopher Walter Twombly, Zhepeng Wang
Última actualización: 2023-08-03 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2308.01622
Fuente PDF: https://arxiv.org/pdf/2308.01622
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.