Melhorando o Reconhecimento de Atividades Humanas com Dados Multimodais
Uma nova abordagem melhora o reconhecimento de atividades ao combinar vários tipos de dados.
― 8 min ler
Índice
- O Desafio do Reconhecimento de Atividade Humana
- A Importância do Reconhecimento Multimodal
- Observações Chave para Melhoria
- A Abordagem Proposta: MuJo
- Coleta e Processamento de Dados
- Aproveitando a Informação Multimodal
- Resultados e Avaliação de Desempenho
- Generalização para Dados Não Vistos
- Conclusão
- Fonte original
Reconhecer a atividade humana é uma tarefa importante na inteligência artificial que pode ser usada em várias áreas, incluindo saúde, fitness, segurança e robótica. Essa tarefa, conhecida como Reconhecimento de Atividade Humana (HAR), envolve identificar ações específicas que os humanos realizam com base em Dados recebidos de várias fontes, ou modalidades. Isso pode incluir imagens de câmeras e dados de sensores vestíveis, como smartwatches ou smartphones.
O sucesso do HAR depende da qualidade e do tipo de dados disponíveis. Vídeos de alta qualidade podem fornecer informações detalhadas para um reconhecimento preciso. No entanto, em muitos casos, essas gravações de alta qualidade não estão disponíveis devido a questões de privacidade ou falta de equipamento. Em contrapartida, os dados de sensores vestíveis, que estão mais comumente disponíveis em dispositivos do dia a dia, muitas vezes são limitados. Esses sensores fornecem dados menos informativos, tornando a tarefa mais desafiadora.
O Desafio do Reconhecimento de Atividade Humana
As Atividades humanas podem variar bastante de pessoa para pessoa e podem ser realizadas em diferentes ambientes. Essa variabilidade torna o reconhecimento de atividades difícil. O desafio se torna ainda mais pronunciado em situações da vida real, onde as condições mudam frequentemente, e diferentes ações são realizadas em vários ambientes.
Tradicionalmente, existem duas maneiras principais de reconhecer atividades: usando um único tipo de dado (reconhecimento unimodal) ou usando múltiplos tipos de dados (reconhecimento Multimodal). Métodos de reconhecimento unimodal dependem de dados de uma fonte, como fotos ou dados de sensores. Embora esses métodos possam ser eficazes, muitas vezes perdem detalhes importantes necessários para um reconhecimento preciso. Portanto, a abordagem de combinar dados de múltiplas fontes - reconhecimento multimodal - ganhou mais atenção nos últimos anos.
A Importância do Reconhecimento Multimodal
Ao combinar diferentes tipos de dados, o reconhecimento multimodal pode fornecer uma visão mais completa da atividade humana. Por exemplo, usar tanto dados de vídeo quanto de sensores pode melhorar a precisão do reconhecimento ao preencher lacunas que cada fonte sozinha pode perder.
Avanços recentes em tecnologia, especialmente em visão computacional, tornaram possível alcançar resultados impressionantes com imagens de alta qualidade. Esses avanços incluem grandes modelos que podem interpretar e descrever imagens com precisão. No entanto, a disponibilidade de imagens de boa qualidade é frequentemente limitada. Em muitos cenários do dia a dia, sensores vestíveis são mais acessíveis.
Infelizmente, os dados desses sensores muitas vezes carecem da profundidade necessária para um reconhecimento preciso. Sensores vestíveis podem fornecer sinais que não indicam claramente as atividades da pessoa, dificultando a interpretação de suas ações. Além disso, embora grandes quantidades de dados de sensores possam ser coletadas, encontrar dados de treinamento rotulados - dados que são categorizados para fins de aprendizado - continua sendo um obstáculo significativo.
Observações Chave para Melhoria
Ao lidar com os desafios do HAR, várias observações importantes podem guiar pesquisadores e desenvolvedores:
Modalidades Flexíveis no Treinamento: Embora os dados de entrada disponíveis durante o uso no mundo real possam ser restritos, há flexibilidade na escolha das modalidades de entrada durante o treinamento. Isso significa que uma gama mais ampla de fontes de dados pode ser utilizada para melhorar o processo de aprendizado.
Aprendizado de Representação: Esse processo pode ajudar a compartilhar conhecimento entre diferentes tipos de dados, alinhando suas características. Esse método é mais eficaz quando os dados de treinamento das várias modalidades estão sincronizados.
Geração de Dados Sintéticos: Avanços em tecnologia agora permitem a criação de dados artificiais para sensores com base em vídeos e outras fontes. Ferramentas podem gerar dados simulados de sensores a partir de vídeos, o que significa que mesmo sem leituras diretas de sensores, dados de treinamento significativos podem ser criados.
A Abordagem Proposta: MuJo
O método proposto, conhecido como MuJo, visa melhorar o HAR aprendendo um espaço de características unificado que incorpora vários tipos de dados, incluindo vídeo, linguagem, poses e dados de unidades de medição inercial (IMUs) encontradas em dispositivos vestíveis. Usando uma combinação de técnicas de aprendizado contrastivo e multitarefa, MuJo busca analisar diferentes estratégias para aprender uma representação compartilhada de forma eficaz.
MuJo usa um grande conjunto de dados que inclui dados paralelos de vídeos, descrições de linguagem, poses e dados de sensores para apoiar seu desenvolvimento. Esse conjunto de dados permite uma análise de como o espaço de características conjunto se comporta quando enfrentado com dados incompletos ou de baixa qualidade.
Experimentos usando o conjunto de dados MM-Fit, uma coleção relacionada ao fitness, mostram que o modelo pode alcançar resultados impressionantes. Por exemplo, ao usar todos os dados de treinamento disponíveis, o modelo registra altas pontuações para classificar várias atividades. Mesmo quando apenas uma pequena fração (2%) dos dados de treinamento é utilizada, o modelo ainda se sai bem, demonstrando sua eficácia em reconhecer atividades humanas.
Coleta e Processamento de Dados
A equipe de pesquisa coletou manualmente milhares de vídeos de fitness do YouTube, focando em clipes que ilustram atividades claramente com conteúdo instrucional. Esses vídeos foram complementados com legendas geradas automaticamente, fornecendo descrições textuais das ações nos vídeos.
Para garantir a qualidade dos dados, apenas clipes de vídeo mais curtos focados em exercícios individuais foram mantidos, enquanto vídeos mais longos contendo múltiplas atividades foram descartados. O conjunto de dados final compreende mais de 10.000 amostras de atividades de fitness instrucionais, cada uma acompanhada por descrições textuais relevantes e dados de sensores.
O processamento de dados envolve converter vídeos para uma resolução e taxa de quadros padrão, extraindo características relevantes e gerando dados simulados de sensores a partir do conteúdo do vídeo. Esse pré-processamento meticuloso permite que a equipe de pesquisa tenha um conjunto de dados robusto que ajuda a treinar o modelo de forma eficaz.
Aproveitando a Informação Multimodal
A ideia central do MuJo é aproveitar informações de múltiplas modalidades para o treinamento. Cada segmento curto de vídeo é esperado para mostrar informações semelhantes em várias fontes. Cada modalidade - vídeo, pose, dados de sensores e texto - tem seu próprio codificador, capturando características únicas que são então alinhadas em um espaço de representação compartilhada.
Usando esse método, o modelo aplica aprendizado por pares para estabelecer conexões entre as características que cada modalidade fornece. Assim, o modelo pode efetivamente utilizar informações redundantes para melhorar o desempenho do reconhecimento de atividades.
Resultados e Avaliação de Desempenho
Os pesquisadores realizaram uma série de avaliações para medir o desempenho do MuJo em diferentes conjuntos de dados, incluindo FLAG3D e MM-Fit. Durante essas avaliações, eles compararam o desempenho de classificação do MuJo com métodos de referência que não usaram pré-treinamento ou apenas dados unimodais.
Em testes usando o conjunto de dados MM-Fit, o MuJo demonstrou uma precisão excepcional, mesmo com dados de treinamento limitados. O modelo superou a linha de base na maioria das instâncias, confirmando que usar uma abordagem multimodal melhora significativamente as tarefas de HAR.
Generalização para Dados Não Vistos
Um dos aspectos mais importantes de qualquer modelo de aprendizado de máquina é sua capacidade de generalizar para novos dados não vistos. Para testar isso, os pesquisadores avaliaram o quão bem o MuJo poderia reconhecer atividades no conjunto de dados MM-Fit sem exposição anterior. O desempenho do modelo permaneceu forte, indicando sua eficácia em aplicações do mundo real.
Os resultados revelam que o MuJo não apenas aprende bem com os dados de treinamento, mas também aplica esse conhecimento de forma eficaz quando encontra dados que não viu antes. Isso é crucial para implementar sistemas de HAR em ambientes em tempo real.
Conclusão
A pesquisa destaca uma direção promissora para melhorar o reconhecimento de atividades humanas por meio do uso de dados multimodais. A abordagem introduz um método para aprendizado de representação conjunta que integra vídeo, dados de sensores, poses e descrições textuais. Com a capacidade de gerar dados sintéticos e utilizar várias fontes de entrada, o MuJo mostra potencial para alto desempenho em reconhecer atividades humanas em diversos ambientes.
À medida que a tecnologia continua a melhorar e a disponibilidade de dados aumenta, métodos como o MuJo podem levar a sistemas mais precisos e confiáveis para entender o comportamento humano em várias aplicações, desde monitoramento de fitness até segurança e além. Os resultados ressaltam a importância dos dados multimodais na promoção do campo de reconhecimento de atividade humana, levando a melhores resultados em cenários da vida real.
Título: MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition
Resumo: Human Activity Recognition (HAR) is a longstanding problem in AI with applications in a broad range of areas, including healthcare, sports and fitness, security, and more. The performance of HAR in real-world settings is strongly dependent on the type and quality of the input signal that can be acquired. Given an unobstructed, high-quality camera view of a scene, computer vision systems, in particular in conjunction with foundation models, can today fairly reliably distinguish complex activities. On the other hand, recognition using modalities such as wearable sensors (which are often more broadly available, e.g., in mobile phones and smartwatches) is a more difficult problem, as the signals often contain less information and labeled training data is more difficult to acquire. To alleviate the need for labeled data, we introduce our comprehensive Fitness Multimodal Activity Dataset (FiMAD) in this work, which can be used with the proposed pre-training method MuJo (Multimodal Joint Feature Space Learning) to enhance HAR performance across various modalities. FiMAD was created using YouTube fitness videos and contains parallel video, language, pose, and simulated IMU sensor data. MuJo utilizes this dataset to learn a joint feature space for these modalities. We show that classifiers pre-trained on FiMAD can increase the performance on real HAR datasets such as MM-Fit, MyoGym, MotionSense, and MHEALTH. For instance, on MM-Fit, we achieve an Macro F1-Score of up to 0.855 when fine-tuning on only 2% of the training data and 0.942 when utilizing the full training set for classification tasks. We have compared our approach to other self-supervised ones and showed that, unlike them, ours can consistently improve on the baseline network performance as well as provide a better data-efficiency.
Autores: Stefan Gerd Fritsch, Cennet Oguz, Vitor Fortes Rey, Lala Ray, Maximilian Kiefer-Emmanouilidis, Paul Lukowicz
Última atualização: 2024-10-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.03857
Fonte PDF: https://arxiv.org/pdf/2406.03857
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.