Avanços em Reconhecimento de Ação Humana Usando IMUs
Um método que combina dados visuais e de IMU pra melhorar o reconhecimento de ações.
― 7 min ler
Índice
- Combinando Dados Visuais e de Movimento
- O Desafio com os Sistemas Atuais
- Vantagens das IMUs
- A Necessidade de Integração
- Nossa Abordagem
- Resultados e Descobertas
- Entendendo a Arquitetura do Modelo
- Processo de Treinamento e Teste
- Experimentos em Diferentes Conjuntos de Dados
- Superando Limitações
- Comparação de Desempenho com Outros Modelos
- Experimentos Adicionais
- Conclusão
- Fonte original
- Ligações de referência
No nosso mundo, a gente coleta informações através de diferentes sentidos. A maioria dos sistemas de IA usa principalmente dados visuais e de texto pra entender as ações humanas. Mas tem uma nova forma de melhorar essa compreensão usando dispositivos chamados Unidades de Medição Inercial (IMUs). Esses dispositivos conseguem rastrear movimentos, mas geralmente são difíceis de trabalhar, porque os dados que eles coletam não são fáceis de interpretar e às vezes são escassos.
Combinando Dados Visuais e de Movimento
A gente foca num método que junta conhecimento de dados visuais e dados das IMUs. A ideia principal é criar um espaço comum que ajude a reconhecer ações feitas por humanos, mesmo quando um tipo de dado não tem rótulos. Esse método se chama Fusion and Cross-modal Transfer (FACT). Usando esse método, a gente quer treinar um modelo que possa aprender com dados visuais e depois aplicar esse aprendizado pra interpretar dados de IMUs sem precisar de exemplos rotulados durante o treinamento.
O Desafio com os Sistemas Atuais
Enquanto os humanos conseguem aprender novos movimentos só assistindo alguém fazer, ensinar modelos de aprendizado de máquina a fazerem o mesmo com diferentes tipos de sensores não é simples. A maioria dos sistemas de deep learning trabalha com dados visuais e de texto porque é o que eles têm em abundância. Usar câmeras continuamente pra coletar dados visuais ou modelos de texto pra juntar informações nem sempre é prático, tornando esses sistemas menos eficientes em aplicações do mundo real.
Vantagens das IMUs
As IMUs coletam dados como aceleração e rotação de dispositivos físicos como smartwatches e smartphones. Elas oferecem uma maneira mais sutil de monitorar atividades humanas sem invadir o espaço pessoal. Muitos dispositivos vestíveis já têm IMUs embutidas. Porém, o potencial desses dispositivos muitas vezes não é totalmente aproveitado em machine learning por causa de desafios como dados limitados e a dificuldade de interpretar esses dados.
A Necessidade de Integração
Com diferentes tipos de sensores se tornando mais populares, surge uma pergunta urgente: como a gente pode usar novos sensores junto com os mais antigos quando não tem dados rotulados disponíveis? Uma solução é usar dados bem documentados de um sensor pra melhorar o conhecimento relacionado ao novo sensor. Esse processo é conhecido como transferência cross-modal. Porém, as técnicas existentes geralmente dependem de ter alguns dados rotulados para cada sensor durante o treinamento, o que raramente é o caso.
Nossa Abordagem
Nossa hipótese é que existe uma estrutura ou espaço oculto que liga vários tipos de sensores, permitindo um reconhecimento melhor das ações humanas. A gente explora diferentes formas de criar essa estrutura e ver se ela pode ajudar na transferência de aprendizado de um sensor pra outro, mesmo sem rótulos pro segundo sensor.
No nosso método, chamado FACT, a gente testa usando dados de vídeos RGB (coloridos) e sensores IMU de quatro conjuntos de dados diferentes. Durante o treinamento, usamos dados rotulados dos vídeos RGB e dados não rotulados das IMUs. O objetivo é ver se o modelo consegue aprender a reconhecer ações a partir dos dados de IMU quando testado depois.
Resultados e Descobertas
Nossos experimentos mostram que o método FACT tem um desempenho significativamente melhor do que os métodos existentes ao reconhecer ações a partir de dados de IMU sem rótulos prévios. Os testes também mostram que o modelo consegue entender ações só analisando os dados de IMU, demonstrando capacidades de transferência cross-modal.
Entendendo a Arquitetura do Modelo
A estrutura do FACT é projetada pra permitir que diferentes componentes trabalhem juntos durante o treinamento. Essa flexibilidade significa que podemos adaptar facilmente pra diferentes tipos de sensores e tarefas. O modelo é composto por três partes principais:
- Codificador de Características de Vídeo: Isso processa os quadros do vídeo usando uma rede padrão, extraindo características chave.
- Codificador de Características de IMU: Isso usa uma rede convolucional unidimensional pra analisar os dados de IMU.
- Decodificador de Tarefa HAR: Esse módulo pega as características extraídas e prevê a ação que está sendo realizada.
A gente também desenvolveu uma versão sensível ao tempo do FACT chamada T-FACT, que considera o tempo ao alinhar e combinar dados de diferentes sensores.
Processo de Treinamento e Teste
O treinamento do modelo consiste em duas etapas:
- Aprender com dados RGB rotulados pra estabelecer um modelo de Reconhecimento de Ação Humana (HAR).
- Alinhar as representações dos dados RGB e IMU pra melhorar a transferência cross-modal.
Quando testamos, o modelo precisa prever ações só a partir dos dados de IMU, sem ter visto esses rótulos durante o treinamento.
Experimentos em Diferentes Conjuntos de Dados
A gente realiza testes usando vários conjuntos de dados, incluindo UTD-MHAD, CZU-MHAD, MMACT e MMEA-CL. Cada um desses conjuntos de dados oferece desafios únicos e ajuda a medir a eficácia do método FACT em diversos cenários.
- UTD-MHAD: Esse conjunto tem vários tipos de dados, como RGB, esquelético, profundidade e IMU. Ajuda a validar como o FACT pode funcionar com dados do mundo real.
- CZU-MHAD: Esse conjunto é mais controlado e permite uma melhor medição do desempenho do modelo devido ao ambiente consistente.
- MMACT: Um conjunto maior que inclui várias cenas onde as ações ocorrem, dificultando as previsões.
- MMEA-CL: Focado em ações do dia a dia, esse conjunto testa a adaptabilidade do modelo a diferentes atividades.
Superando Limitações
Embora muitos estudos se concentrem em lidar com dados ausentes durante o treinamento ou teste, poucos abordam a situação onde não há dados rotulados disponíveis de um tipo de sensor. Essa lacuna torna complexo estabelecer métodos base.
Desenvolvemos métodos base, como modelos aluno-professor, que geralmente precisam de dados rotulados de ambos os sensores. Nossa abordagem é diferente, pois o FACT pode funcionar sem rótulos de um sensor, usando dados pra encontrar relações entre eles.
Comparação de Desempenho com Outros Modelos
Os modelos existentes de fusão de sensores são bons em lidar com dados incompletos, mas não lidam bem com o caso de não ter dados rotulados durante o treinamento. Mostramos que esses modelos têm dificuldades em comparação ao FACT, que pode utilizar conhecimento de dados rotulados de um sensor pra informar o outro.
A gente também olhou pra métodos de aprendizado contrastivo, especificamente como esses poderiam funcionar com nossos dados. Alguns modelos, como ImageBind, não funcionaram efetivamente com os dados de IMU, especialmente porque essa abordagem foi projetada pra tarefas diferentes.
Experimentos Adicionais
Pra garantir a eficácia do FACT, realizamos vários experimentos pra ajustar e entender melhor seu desempenho. Analisamos como o modelo se comporta em diferentes condições, verificando sua robustez e adaptabilidade em diversos ambientes.
Fizemos estudos de ablação pra identificar qual método de treinamento produz os melhores resultados, determinando a melhor forma de alinhar e treinar o modelo.
Conclusão
Através da nossa pesquisa, descobrimos um método promissor pra transferir conhecimento entre diferentes tipos de sensores, especialmente de dados visuais pra IMUs. Nossa abordagem, FACT, demonstra capacidades significativas, mesmo em cenários de treinamento sem rótulos, e mostra potencial pra aplicações práticas em tecnologia do dia a dia, como dispositivos vestíveis e inteligentes.
Ao criar uma forma de integrar eficientemente várias modalidades de sensoriamento, o FACT visa melhorar como a IA entende as ações humanas em configurações do mundo real. Com isso, estamos preparando o terreno pra trabalhos futuros nessa área, abrindo portas pra novos avanços em machine learning e suas aplicações.
Título: C3T: Cross-modal Transfer Through Time for Human Action Recognition
Resumo: In order to unlock the potential of diverse sensors, we investigate a method to transfer knowledge between modalities using the structure of a unified multimodal representation space for Human Action Recognition (HAR). We formalize and explore an understudied cross-modal transfer setting we term Unsupervised Modality Adaptation (UMA), where the modality used in testing is not used in supervised training, i.e. zero labeled instances of the test modality are available during training. We develop three methods to perform UMA: Student-Teacher (ST), Contrastive Alignment (CA), and Cross-modal Transfer Through Time (C3T). Our extensive experiments on various camera+IMU datasets compare these methods to each other in the UMA setting, and to their empirical upper bound in the supervised setting. The results indicate C3T is the most robust and highest performing by at least a margin of 8%, and nears the supervised setting performance even in the presence of temporal noise. This method introduces a novel mechanism for aligning signals across time-varying latent vectors, extracted from the receptive field of temporal convolutions. Our findings suggest that C3T has significant potential for developing generalizable models for time-series sensor data, opening new avenues for multi-modal learning in various applications.
Autores: Abhi Kamboj, Anh Duy Nguyen, Minh Do
Última atualização: 2024-11-07 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.16803
Fonte PDF: https://arxiv.org/pdf/2407.16803
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-middle/runs/w5xfs7uw
- https://wandb.ai/akamboj2/mmact-toy-RGB-IMU-HAR-student_teacher/runs/61fhy5iv/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/toy-RGB-IMU-HAR-student_teacher/runs/ild8v883/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-attn/runs/h2dbhc4y
- https://wandb.ai/akamboj2/mmact-toy-RGB-IMU-HAR-attn/runs/l0v907j4
- https://wandb.ai/akamboj2/czu_mhad-toy-RGB-IMU-HAR-cross_modal1/runs/ttbbt8ib
- https://wandb.ai/akamboj2/mmact-toy-RGB-IMU-HAR-cross_modal1/runs/52o5h6zp/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-cross_modal1/runs/8sl63dz1
- https://wandb.ai/akamboj2/czu_mhad-toy-RGB-IMU-HAR-cross_modal1/runs/lnlvooub
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-cross_modal1/runs/mc2mglwh/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/sot1d1rr/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/czu_mhad-toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/cyhr0gi7
- https://wandb.ai/akamboj2/mmact-toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/8k7stei0
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/fzqau8u9
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/grddij6f
- https://mmact19.github.io/challenge/
- https://tex.stackexchange.com/questions/413603/how-to-adjust-subfigure-caption-width
- https://tex.stackexchange.com/questions/119984/subfigures-side-by-side-with-captions
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines