Avances en la tecnología de seguimiento de cabezas de peatones
Nuevo conjunto de datos y modelo mejoran la detección de cabezas en escenas llenas de gente.
― 6 minilectura
Tabla de contenidos
- La Importancia del Conjunto de Datos Cchead
- Desafíos en la Detección y Seguimiento de Cabezas
- Red de Fusión de Información de Múltiples Fuentes (MIFN)
- Cómo Funciona MIFN
- La Contribución del Conjunto de Datos Cchead
- Evaluación del Rendimiento de MIFN
- Conclusiones y Direcciones Futuras
- Fuente original
- Enlaces de referencia
La detección y Seguimiento de peatones es el proceso de identificar y monitorear personas en videos. Esta tecnología es importante para varias áreas, como autos autónomos, cámaras de seguridad y la gestión de lugares concurridos. Sin embargo, rastrear a las personas en escenas ocupadas no es fácil. Hay muchos desafíos que enfrentan los investigadores, como personas bloqueándose entre sí, diferentes formas de moverse y posiciones corporales variadas.
Aunque la tecnología reciente llamada aprendizaje profundo ha mejorado la capacidad de detectar personas, aún hay pocos recursos centrados en rastrear las cabezas de las personas, lo cual es crucial en entornos abarrotados. Los Conjuntos de datos actuales-colecciones de videos e imágenes usados para entrenar sistemas de detección-no proporcionan suficientes ejemplos de situaciones complejas, como interacciones entre personas o cuando objetos bloquean la vista.
Para abordar estos problemas, los investigadores han creado un nuevo conjunto de datos llamado Cchead, que significa Conjunto de Datos de Seguimiento de Cabezas de Peatones en Escenas Cruzadas a Gran Escala de China. Este conjunto de datos consta de más de 50,000 fotogramas con más de 2.3 millones de anotaciones de cabezas en diversos entornos concurridos. El objetivo de Cchead es ayudar a mejorar la tecnología de seguimiento ofreciendo una amplia gama de escenarios del mundo real.
La Importancia del Conjunto de Datos Cchead
Cchead incluye videos de diez escenas diferentes, capturando personas en distintos entornos como calles, aulas y parques. Observa cómo las personas se mueven a diferentes velocidades y direcciones, y cómo se comportan al evitar colisiones. Con este conjunto de datos, los investigadores pueden entrenar sistemas para entender y seguir mejor a las personas en multitudes.
Además de los videos y anotaciones, Cchead también ofrece perspectivas únicas, como vistas desde arriba y en pendiente. Esta variedad permite probar y entrenar en diferentes situaciones, haciendo que el conjunto de datos sea más versátil.
Desafíos en la Detección y Seguimiento de Cabezas
Detectar y seguir cabezas es complicado por varias razones. Los objetos de fondo pueden confundir los sistemas de detección porque pueden parecerse a las cabezas en cuanto a color, tamaño y forma. Además, las cabezas son a menudo pequeñas y pueden estar en varias poses, lo que dificulta identificarlas con precisión. En situaciones concurridas, las cabezas pueden quedar parcialmente ocultas o superponerse, lo que complica aún más la tarea.
Otro desafío surge porque las cabezas pueden cambiar de tamaño, orientación y brillo a medida que se mueven. Esta variabilidad requiere que los sistemas sean adaptables y robustos.
Red de Fusión de Información de Múltiples Fuentes (MIFN)
Para mejorar la detección y seguimiento de cabezas, los investigadores han desarrollado un nuevo modelo llamado Red de Fusión de Información de Múltiples Fuentes (MIFN). Este enfoque combina información de varias fuentes para aumentar la precisión de detección. El modelo utiliza fotogramas de video junto con datos de movimiento, información de profundidad y mapas de densidad para identificar de manera eficiente las cabezas en escenas concurridas.
MIFN es el primer modelo de su tipo que usa estas múltiples fuentes juntas en un proceso de entrenamiento. Al integrar esta información, MIFN puede generar resultados de detección más confiables. El objetivo es reducir el ruido de fondo mientras se mejora la visibilidad de las cabezas.
Cómo Funciona MIFN
El modelo MIFN opera en dos pasos principales. El primer paso implica generar información de múltiples fuentes a partir de la entrada de video original. Esto incluye estimar el movimiento entre fotogramas, comparar la diferencia entre fotogramas secuenciales, evaluar distancias a través de mapeo de profundidad y identificar la densidad de cabezas en un fotograma.
Una vez que esta información de múltiples fuentes está disponible, el segundo paso implica combinar estas características para formar una comprensión integral de la escena. El modelo utiliza técnicas avanzadas para asegurar que las características de la cabeza sean prominentes mientras se minimizan los detalles de fondo.
La Contribución del Conjunto de Datos Cchead
El conjunto de datos Cchead juega un papel crucial en el entrenamiento y evaluación del modelo MIFN. Ofrece una extensa filmación del mundo real que puede ayudar a los investigadores a ajustar sus sistemas. Las anotaciones detalladas del conjunto de datos permiten que el modelo aprenda de manera efectiva diversas formas y comportamientos de las cabezas.
Comparar el rendimiento de MIFN contra métodos existentes muestra que supera a los modelos anteriores en este conjunto de datos. MIFN logra una mejor precisión simplemente utilizando las múltiples fuentes de información sin necesidad de sensores adicionales.
Evaluación del Rendimiento de MIFN
Para evaluar qué tan bien funciona MIFN, se ha probado tanto en el conjunto de datos Cchead como en otro conjunto de datos público llamado conjunto de datos de restaurantes. Los investigadores observan cuán precisamente el modelo detecta y rastrea cabezas. Los resultados muestran que MIFN detecta consistentemente cabezas mejor que los métodos existentes, incluso en entornos complejos y concurridos.
Por ejemplo, MIFN mostró un rendimiento superior en comparación con métodos tradicionales como Faster R-CNN, CenterNet y YOLOX. Estas comparaciones confirman la efectividad de combinar varias fuentes de información.
Conclusiones y Direcciones Futuras
En resumen, el conjunto de datos Cchead y el modelo MIFN representan avances significativos en el seguimiento de cabezas de peatones. Al proporcionar datos de video ricos y diversos y aprovechar la información de múltiples fuentes, los investigadores pueden avanzar en la mejora de la precisión de detección en escenas concurridas.
Las aplicaciones potenciales para esta tecnología son vastas, desde mejorar sistemas de vigilancia hasta mejorar medidas de seguridad en entornos ocupados. El trabajo futuro podría incluir extender el conjunto de datos con escenarios aún más variados e integrar datos de audio para crear una comprensión más holística del comportamiento de los peatones.
Al hacer que el conjunto de datos Cchead esté disponible públicamente, los investigadores esperan fomentar más innovaciones en visión por computadora, facilitando el seguimiento de cabezas en entornos concurridos y, en última instancia, mejorando la experiencia del usuario en áreas como vehículos autónomos y sistemas de vigilancia inteligentes.
Título: Toward Pedestrian Head Tracking: A Benchmark Dataset and an Information Fusion Network
Resumen: Pedestrian detection and tracking in crowded video sequences have a wide range of applications, including autonomous driving, robot navigation and pedestrian flow surveillance. However, detecting and tracking pedestrians in high-density crowds face many challenges, including intra-class occlusions, complex motions, and diverse poses. Although deep learning models have achieved remarkable progress in head detection, head tracking datasets and methods are extremely lacking. Existing head datasets have limited coverage of complex pedestrian flows and scenes (e.g., pedestrian interactions, occlusions, and object interference). It is of great importance to develop new head tracking datasets and methods. To address these challenges, we present a Chinese Large-scale Cross-scene Pedestrian Head Tracking dataset (Cchead) and a Multi-Source Information Fusion Network (MIFN). Our dataset has features that are of considerable interest, including 10 diverse scenes of 50,528 frames with over 2,366,249 heads and 2,358 tracks annotated. Our dataset contains diverse human moving speeds, directions, and complex crowd pedestrian flows with collision avoidance behaviors. We provide a comprehensive analysis and comparison with existing state-of-the-art (SOTA) algorithms. Moreover, our MIFN is the first end-to-end CNN-based head detection and tracking network that jointly trains RGB frames, pixel-level motion information (optical flow and frame difference maps), depth maps, and density maps in videos. Compared with SOTA pedestrian detection and tracking methods, MIFN achieves superior performance on our Cchead dataset. We believe our datasets and baseline will become valuable resources towards developing pedestrian tracking in dense crowds.
Autores: Kailai Sun, Xinwei Wang, Shaobo Liu, Qianchuan Zhao, Gao Huang, Chang Liu
Última actualización: 2024-08-11 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2408.05877
Fuente PDF: https://arxiv.org/pdf/2408.05877
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/darkpgmr/DarkLabel
- https://github.com/opencv/cvat
- https://drive.google.com/drive/folders/1BLmzCRx3MbOzVUITw0-RCpRqTHJ2JXYQ?usp=sharing
- https://drive.google.com/drive/folders/1m-ZA9rPey-DJpuSrs67tnj-GRqoFisWS?usp=sharing
- https://paperswithcode.com/sota/object-detection-on-crowdhuman-full-body
- https://www.nature.com/nature-research/editorial-policies
- https://www.springer.com/gp/authors-editors/journal-author/journal-author-helpdesk/publishing-ethics/14214
- https://www.biomedcentral.com/getpublished/editorial-policies
- https://www.springer.com/gp/editorial-policies
- https://www.nature.com/srep/journal-policies/editorial-policies