Integrando datos de video y IMU para el reconocimiento de acciones
Un nuevo método combina datos de video y IMU para mejorar las técnicas de reconocimiento de acciones.
― 6 minilectura
Tabla de contenidos
El Reconocimiento de Acciones se refiere a la capacidad de identificar y entender las acciones humanas basándose en datos visuales o de movimiento. Con el auge de la tecnología portátil, los investigadores están buscando mejores maneras de reconocer acciones usando varias fuentes de datos. Este artículo habla sobre un método que combina video de cámaras portátiles con datos de Unidades de Medición Inercial (IMUs) que se colocan en el cuerpo.
¿Qué son las IMUs?
Las IMUs son pequeños sensores que rastrean el movimiento midiendo la aceleración, rotación y orientación. Cuando se colocan en diferentes partes del cuerpo, pueden proporcionar información precisa sobre el movimiento. A diferencia de las cámaras de video, que pueden verse afectadas por la iluminación y obstrucciones, las IMUs pueden registrar de manera confiable cómo se mueve una persona. Esto las hace valiosas para entender acciones en la vida real.
Datos de video y IMU
CombinandoEl desafío de reconocer acciones solo a partir del video ha llevado al uso de IMUs junto con datos de video. Cada tipo de dato tiene sus fortalezas: los videos brindan un contexto visual, mientras que las IMUs capturan información de movimiento precisa. Al fusionar estos dos tipos de datos, podemos obtener una comprensión más completa de las acciones humanas.
Sin embargo, hay desafíos. Un problema importante es la cantidad limitada de datos etiquetados disponibles para entrenar modelos que puedan reconocer acciones usando tanto video como datos de IMU. La mayoría de los conjuntos de datos que se utilizan actualmente involucran IMUs montadas en cámaras, que no proporcionan información adicional más allá de lo que el video puede mostrar. Algunos pocos conjuntos de datos tienen video sincronizado y IMUs adjuntas por separado, pero son raros y normalmente contienen datos limitados.
Otro desafío radica en la complejidad de manejar múltiples IMUs en varias partes del cuerpo. Cada IMU solo puede capturar datos de movimiento para una parte del cuerpo, lo que dificulta formar una imagen completa de las acciones de una persona.
Método Propuesto
Para abordar estos desafíos, se ha desarrollado un nuevo método que integra datos de video y de IMU para el reconocimiento de acciones. Este enfoque usa una técnica de Preentrenamiento que no requiere datos etiquetados, permitiéndonos aprovechar las grandes cantidades de video e IMU disponibles que no están etiquetados.
La idea es sencilla: reconocemos que hay una correlación entre los datos de video y los datos de IMU. Por ejemplo, los movimientos de los brazos en un video se correlacionan bien con los datos de IMU de los brazos. De manera similar, el movimiento general de la persona capturado por la cámara se relaciona con los datos de IMU de las extremidades inferiores. Al aprovechar esta relación, podemos crear un modelo capaz de reconocer acciones sin necesidad de conjuntos de datos etiquetados extensos.
Entendiendo las relaciones entre las IMUs
Para mejorar el modelado de diferentes IMUs situadas en el cuerpo, el método crea una estructura de grafo. Cada nodo en el grafo representa los datos de movimiento de una IMU diferente. Al capturar efectivamente la relación entre estas IMUs, mejoramos la capacidad del modelo para reconocer acciones. Este enfoque basado en grafos permite que el modelo entienda cómo diferentes partes del cuerpo trabajan juntas al realizar diversas acciones.
Proceso de preentrenamiento
Durante la fase de preentrenamiento, se procesan tanto los datos de video como los datos de IMU. Se enmascaran partes de cada conjunto de datos, lo que significa que solo se utilizan ciertas porciones para el entrenamiento. El modelo intenta reconstruir las entradas originales a partir de estas porciones enmascaradas, aprendiendo a predecir la información faltante. Este enfoque auto-supervisado permite que el modelo aprenda representaciones sólidas a partir de los datos sin necesidad de ejemplos etiquetados.
El preentrenamiento involucra dos ramas principales: una para reconstruir los parches de video y otra para reconstruir las características de la IMU. Al aprender a llenar las partes enmascaradas, el modelo desarrolla una comprensión más profunda de cómo complementan los datos de video y de IMU.
Ajuste fino para el reconocimiento de acciones
Después del preentrenamiento, el modelo pasa por una fase de ajuste fino. Durante esta fase, se eliminan los decodificadores utilizados para reconstruir datos para centrarse en la clasificación de acciones. El modelo ahora se entrena en una tarea específica de reconocimiento de acciones, utilizando tanto datos de video como de IMU juntos.
El método se ha probado en varios conjuntos de datos, que representan diferentes tipos de actividades. Los resultados muestran que este enfoque supera a los modelos convencionales que dependen solo de un tipo de dato. Las mejoras indican que el modelo combina de manera efectiva las fortalezas de los datos de video y de IMU.
Abordando desafíos del mundo real
En aplicaciones del mundo real, los usuarios pueden enfrentar desafíos como la falta de sensores IMU o la calidad del video deteriorada debido a mala iluminación. El modelo ha demostrado ser robusto en escenarios donde algunos IMUs no están disponibles o la calidad del video es baja. Al aprovechar efectivamente los datos de los sensores restantes, el modelo sigue funcionando bien, demostrando su adaptabilidad en diversas situaciones.
Conclusión
El método propuesto para el reconocimiento de acciones destaca el potencial de combinar video egocéntrico con datos de IMU. Esta integración proporciona una comprensión más rica de las acciones humanas y aborda algunas de las limitaciones que enfrentan los modelos tradicionales que solo usan video. La capacidad de trabajar con datos no etiquetados y manejar efectivamente escenarios desafiantes abre nuevas puertas para el reconocimiento de acciones en varios campos.
La investigación futura puede explorar formas de mejorar la eficiencia computacional y desarrollar estructuras de grafo más avanzadas. A medida que más dispositivos IMU estén disponibles, un grafo más detallado podría ayudar a capturar relaciones aún más complejas entre los movimientos del cuerpo.
El desarrollo continuo de estas tecnologías beneficiará áreas como el análisis deportivo, el monitoreo de la salud y los juegos interactivos, donde entender las acciones humanas es crucial. Este nuevo enfoque representa un paso significativo hacia adelante en el campo del reconocimiento de acciones y la tecnología portátil.
Título: Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition
Resumen: Compared with visual signals, Inertial Measurement Units (IMUs) placed on human limbs can capture accurate motion signals while being robust to lighting variation and occlusion. While these characteristics are intuitively valuable to help egocentric action recognition, the potential of IMUs remains under-explored. In this work, we present a novel method for action recognition that integrates motion data from body-worn IMUs with egocentric video. Due to the scarcity of labeled multimodal data, we design an MAE-based self-supervised pretraining method, obtaining strong multi-modal representations via modeling the natural correlation between visual and motion signals. To model the complex relation of multiple IMU devices placed across the body, we exploit the collaborative dynamics in multiple IMU devices and propose to embed the relative motion features of human joints into a graph structure. Experiments show our method can achieve state-of-the-art performance on multiple public datasets. The effectiveness of our MAE-based pretraining and graph-based IMU modeling are further validated by experiments in more challenging scenarios, including partially missing IMU devices and video quality corruption, promoting more flexible usages in the real world.
Autores: Mingfang Zhang, Yifei Huang, Ruicong Liu, Yoichi Sato
Última actualización: 2024-07-09 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.06628
Fuente PDF: https://arxiv.org/pdf/2407.06628
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.