Integrando Dados de Vídeo e IMU para Reconhecimento de Ações
Um novo método combina dados de vídeo e IMU pra melhorar as técnicas de reconhecimento de ações.
― 6 min ler
Índice
Reconhecimento de ações refere-se à capacidade de identificar e entender ações humanas com base em dados visuais ou de movimento. Com o aumento da tecnologia vestível, pesquisadores estão buscando formas melhores de reconhecer ações usando várias fontes de dados. Este artigo discute um método que combina vídeo de câmeras vestíveis com dados de Unidades de Medição Inercial (IMUs) anexadas ao corpo.
O que são IMUs?
IMUs são sensores pequenos que rastreiam o movimento medindo aceleração, rotação e orientação. Quando anexados a diferentes partes do corpo, eles podem fornecer informações precisas sobre o movimento. Diferente de câmeras de vídeo, que podem ser afetadas pela iluminação e obstruções, as IMUs conseguem gravar de forma confiável como uma pessoa se move. Isso as torna valiosas para entender ações na vida real.
IMU
Combinando Vídeo e Dados deO desafio de reconhecer ações apenas a partir de vídeo levou ao uso de IMUs junto com Dados de Vídeo. Cada tipo de dado tem suas vantagens: vídeos fornecem um contexto visual, enquanto as IMUs capturam informações precisas sobre o movimento. Ao mesclar esses dois tipos de dados, podemos obter uma compreensão mais completa das ações humanas.
No entanto, existem desafios. Um problema importante é a quantidade limitada de dados rotulados disponíveis para treinar modelos que reconhecem ações usando tanto vídeo quanto dados de IMU. A maioria dos conjuntos de dados atualmente em uso envolve IMUs montadas em câmeras, que não fornecem informações adicionais além do que o vídeo pode mostrar. Alguns conjuntos de dados têm vídeo sincronizado e IMUs anexadas separadamente, mas são raros e normalmente contêm dados limitados.
Outro desafio está na complexidade de lidar com várias IMUs em diferentes partes do corpo. Cada IMU pode capturar dados de movimento apenas para uma parte do corpo, tornando difícil formar uma imagem completa das ações de uma pessoa.
Método Proposto
Para resolver esses desafios, foi desenvolvido um novo método que integra vídeo e dados de IMU para reconhecimento de ações. Essa abordagem usa uma técnica de Pré-treinamento que não requer dados rotulados, permitindo aproveitar as grandes quantidades de dados de vídeo e IMU não rotulados disponíveis.
A ideia é simples: reconhecemos que existe uma correlação entre os dados de vídeo e os dados de IMU. Por exemplo, os movimentos dos braços em um vídeo correlacionam bem com os dados de IMU dos braços. Da mesma forma, o movimento geral da pessoa capturado pela câmera se relaciona com os dados de IMU dos membros inferiores. Ao aproveitar essa relação, podemos criar um modelo capaz de reconhecer ações sem precisar de conjuntos de dados rotulados extensos.
Entendendo Relações Entre IMUs
Para melhorar a modelagem de diferentes IMUs situadas pelo corpo, o método cria uma estrutura gráfica. Cada nó no gráfico representa os dados de movimento de uma IMU diferente. Capturando efetivamente a relação entre essas IMUs, aumentamos a capacidade do modelo de reconhecer ações. Essa abordagem baseada em gráficos permite que o modelo entenda como diferentes partes do corpo trabalham juntas ao realizar várias ações.
Processo de Pré-treinamento
Durante a fase de pré-treinamento, tanto os dados de vídeo quanto os dados de IMU são processados. Partes de cada conjunto de dados são mascaradas, o que significa que apenas certas porções são usadas para treinamento. O modelo tenta reconstruir as entradas originais a partir dessas partes mascaradas, aprendendo a prever informações faltantes. Essa abordagem auto-supervisionada permite que o modelo aprenda representações fortes a partir dos dados sem precisar de exemplos rotulados.
O pré-treinamento envolve duas ramificações principais: uma para reconstruir pedaços de vídeo e outra para reconstruir características de IMU. Ao aprender a preencher as partes mascaradas, o modelo desenvolve uma compreensão mais profunda de como os dados de vídeo e IMU se completam.
Ajuste fino para Reconhecimento de Ações
Após o pré-treinamento, o modelo passa por uma fase de ajuste fino. Durante essa fase, os decodificadores usados para reconstruir dados são removidos para focar na classificação de ações. O modelo agora é treinado em uma tarefa específica de reconhecimento de ações, usando tanto dados de vídeo quanto de IMU juntos.
O método foi testado em vários conjuntos de dados, que representam diferentes tipos de atividades. Os resultados mostram que essa abordagem supera modelos convencionais que dependem apenas de um tipo de dado. As melhorias indicam que o modelo combina efetivamente as forças dos dados de vídeo e IMU.
Enfrentando Desafios do Mundo Real
Em aplicações do mundo real, os usuários podem enfrentar desafios, como falta de sensores de IMU ou qualidade de vídeo degradada devido a pouca iluminação. O modelo mostrou robustez em cenários onde algumas IMUs não estão disponíveis ou a qualidade do vídeo é baixa. Ao aproveitar efetivamente os dados dos sensores restantes, o modelo ainda se dá bem, demonstrando sua adaptabilidade em várias situações.
Conclusão
O método proposto para reconhecimento de ações destaca o potencial de combinar vídeo egocêntrico com dados de IMU. Essa integração proporciona uma compreensão mais rica das ações humanas e aborda algumas das limitações enfrentadas por modelos tradicionais só de vídeo. A capacidade de trabalhar com dados não rotulados e lidar efetivamente com cenários desafiadores abre novas portas para o reconhecimento de ações em várias áreas.
Pesquisas futuras podem explorar formas de melhorar a eficiência computacional e desenvolver estruturas gráficas mais avançadas. À medida que mais dispositivos de IMU se tornarem disponíveis, um gráfico mais detalhado pode ajudar a capturar relações ainda mais complexas entre os movimentos corporais.
O desenvolvimento contínuo dessas tecnologias beneficiará áreas como análise esportiva, monitoramento de saúde e jogos interativos, onde entender ações humanas é crucial. Essa nova abordagem representa um grande avanço no campo do reconhecimento de ações e tecnologia vestível.
Título: Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition
Resumo: Compared with visual signals, Inertial Measurement Units (IMUs) placed on human limbs can capture accurate motion signals while being robust to lighting variation and occlusion. While these characteristics are intuitively valuable to help egocentric action recognition, the potential of IMUs remains under-explored. In this work, we present a novel method for action recognition that integrates motion data from body-worn IMUs with egocentric video. Due to the scarcity of labeled multimodal data, we design an MAE-based self-supervised pretraining method, obtaining strong multi-modal representations via modeling the natural correlation between visual and motion signals. To model the complex relation of multiple IMU devices placed across the body, we exploit the collaborative dynamics in multiple IMU devices and propose to embed the relative motion features of human joints into a graph structure. Experiments show our method can achieve state-of-the-art performance on multiple public datasets. The effectiveness of our MAE-based pretraining and graph-based IMU modeling are further validated by experiments in more challenging scenarios, including partially missing IMU devices and video quality corruption, promoting more flexible usages in the real world.
Autores: Mingfang Zhang, Yifei Huang, Ruicong Liu, Yoichi Sato
Última atualização: 2024-07-09 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.06628
Fonte PDF: https://arxiv.org/pdf/2407.06628
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.