Apresentando o Conjunto de Dados WEAR para Reconhecimento de Atividades
Um novo conjunto de dados combina dados de wearables e visuais pra melhorar o reconhecimento de atividades.
― 8 min ler
Índice
- Propósito do Conjunto de Dados WEAR
- Coleta de Dados
- Informações dos Participantes
- Hardware Usado
- Processamento de Dados
- Estrutura do Conjunto de Dados
- Métodos de Reconhecimento de Atividades
- Desafios Atuais no Reconhecimento de Atividades
- Importância de um Conjunto de Dados Multimodal
- Resultados de Benchmarking
- Modelos de Visão e Vestíveis
- Resultados para Diferentes Atividades
- Conclusão e Trabalhos Futuros
- Fonte original
- Ligações de referência
Reconhecer atividades humanas tem várias utilidades, desde ajudar na saúde até melhorar treinos. Existem duas formas principais de coletar dados pra isso: usando câmeras ou sensores vestíveis. As câmeras conseguem ver o corpo todo, mas podem perder detalhes por conta de obstáculos, enquanto os sensores vestíveis rastreiam o movimento direto, mas podem não captar o quadro todo. A maioria dos conjuntos de dados atuais foca em um ou outro método, deixando uma lacuna para conjuntos que combinem os dois.
O conjunto de dados WEAR preenche essa lacuna. Ele inclui dados de 18 pessoas fazendo 18 atividades diferentes de treino. O que diferencia esse conjunto é que ele capta dados de câmera e de sensores ao mesmo tempo. Ele registra atividades em ambientes externos, o que adiciona complexidade já que o ambiente pode mudar como as atividades são percebidas.
O conjunto de dados tem como objetivo apresentar um desafio para os pesquisadores. As atividades foram escolhidas para serem diferentes o suficiente pra não serem facilmente confundidas, tornando mais difícil para os algoritmos preverem as atividades com base em um único tipo de dado.
Propósito do Conjunto de Dados WEAR
Os principais objetivos desse novo conjunto de dados são:
- Dados Combinados: Fornecer dados que incluam tanto informações visuais quanto vestíveis para aproveitar os pontos fortes de ambos os métodos.
- Benchmarking: Oferecer resultados de referência pra mostrar como diferentes abordagens funcionam com esse conjunto de dados.
- Modelos Inovadores: Testar um novo tipo de modelo chamado transformer, que já mostrou resultados promissores em outras áreas.
Coleta de Dados
Os dados foram coletados ao longo de cinco meses, com cada participante sendo gravado em diferentes locais. Eles realizaram uma variedade de atividades, com liberdade pra escolher quando e onde gravar, o que ajudou a capturar condições diversas. Cada sessão visava cerca de 90 segundos de atividade, mas pausas eram permitidas pra garantir que os participantes pudessem se sair bem.
A configuração de gravação incluía quatro smartwatches nos pulsos e tornozelos pra capturar movimentos e uma câmera montada na cabeça pra captar as atividades do ponto de vista do participante. Essa configuração foi projetada pra coletar o máximo de dados relevantes possível sem obstruir o movimento natural.
Informações dos Participantes
Os participantes incluíam uma mistura equilibrada de gêneros e variavam em idade, altura e peso. Antes do estudo, eles preencheram um questionário sobre seus níveis de condicionamento físico e atividades que costumam realizar. A maioria dos participantes já tinha experiência com muitas das atividades do estudo, o que significava que eles estavam um pouco familiarizados com as tarefas que foram solicitados a realizar.
Hardware Usado
Dois tipos de dados foram coletados: dados de acelerômetro dos smartwatches e dados de vídeo da câmera de ação. Os smartwatches capturaram dados de movimento em alta frequência, enquanto a câmera de vídeo gravou imagens em alta resolução. Juntos, esses instrumentos forneceram uma visão abrangente das atividades dos participantes.
Processamento de Dados
Uma vez coletados, os dados passaram por uma série de etapas de processamento. Os dados do acelerômetro foram limpos e sincronizados com os dados de vídeo pra garantir uma correspondência precisa das atividades com as leituras dos sensores correspondentes. O conjunto de dados inclui versões brutas e processadas dos dados, permitindo diferentes tipos de análise.
Estrutura do Conjunto de Dados
O conjunto de dados WEAR é organizado pra facilitar o acesso e a análise. Ele inclui tanto os dados do acelerômetro quanto os dados de vídeo, oferecendo uma estrutura clara pros pesquisadores. Os dados de cada participante são separados, tornando simples a análise do desempenho de cada um.
O conjunto de dados também inclui arquivos de anotação que ajudam a vincular as atividades brutas com seus respectivos rótulos. Isso facilita para os pesquisadores treinar seus modelos e medir sua eficácia com precisão.
Métodos de Reconhecimento de Atividades
Os métodos de reconhecimento de atividades humanas podem ser amplamente categorizados em dois tipos: aqueles baseados em sensores vestíveis e aqueles baseados em dados de vídeo. Os métodos vestíveis geralmente envolvem a análise de dados de séries temporais de sensores, enquanto os métodos de vídeo focam em identificar padrões e movimentos em dados visuais. Cada método tem suas forças e fraquezas.
Sensores vestíveis podem rastrear movimentos e gestos com precisão sem interferência do ambiente. No entanto, eles podem perder o contexto mais amplo que as câmeras podem fornecer. Por outro lado, os métodos de vídeo podem capturar toda a cena, mas podem ter dificuldades com clareza quando partes do sujeito estão obscuras.
Desafios Atuais no Reconhecimento de Atividades
Um dos grandes desafios no reconhecimento de atividades humanas é distinguir entre diferentes atividades, especialmente quando são parecidas. Muitos conjuntos de dados foram criados, mas frequentemente se focam em ambientes específicos, como laboratórios, ou não capturam a variabilidade encontrada em situações da vida real.
Os métodos atuais também enfrentam dificuldades em distinguir "classes nulas", que se referem a momentos em que nenhuma atividade específica está sendo realizada. Identificar esses momentos com precisão é crucial pra garantir a confiabilidade dos sistemas de reconhecimento de atividades.
Importância de um Conjunto de Dados Multimodal
Ter um conjunto de dados que oferece ambos os tipos de dados é vital pra empurrar os limites do que os sistemas de reconhecimento de atividades podem alcançar. O conjunto de dados WEAR oferece oportunidades pra explorar como essas duas modalidades podem trabalhar juntas, potencialmente levando a taxas de reconhecimento melhoradas e um desempenho geral melhor.
Combinar dados visuais e vestíveis pode fornecer uma visão mais holística do que os indivíduos estão fazendo. Isso é especialmente benéfico pra atividades que podem não ser facilmente classificadas usando apenas um tipo de dado.
Resultados de Benchmarking
Os resultados iniciais usando o conjunto de dados WEAR sugerem que diferentes abordagens geram níveis variados de desempenho. Enquanto os métodos vestíveis e de vídeo têm suas forças, usá-los juntos parece oferecer os ganhos mais substanciais. O conjunto de dados visa estabelecer um novo padrão pra benchmarking de quão bem diferentes sistemas podem reconhecer atividades.
As métricas de avaliação usadas nesses benchmarks incluem precisão, recall e F1-scores. As forças e fraquezas de cada técnica foram claramente apresentadas, mostrando quão eficaz cada uma foi em reconhecer diferentes tipos de atividades.
Modelos de Visão e Vestíveis
O relatório abordou vários modelos que foram usados no reconhecimento de atividades. Um modelo notável é o DeepConvLSTM, que combina camadas convolucionais e recursivas pra analisar dados. Esses modelos têm mostrado sucesso em reconhecer atividades a partir de dados vestíveis.
Em contraste, os métodos baseados em vídeo focam na extração de características de clipes de vídeo, usando técnicas como redes convolucionais 3D. O modelo ActionFormer foi destacado como uma abordagem inovadora que combina diferentes tipos de dados de forma eficaz.
Ao experimentar com diferentes modelos, o artigo visava encontrar os melhores métodos pra reconhecer atividades, tanto individualmente quanto por meio de uma abordagem combinada.
Resultados para Diferentes Atividades
Ao aplicar diferentes modelos ao conjunto de dados WEAR, os pesquisadores descobriram que certas atividades eram mais fáceis de reconhecer do que outras. Por exemplo, atividades que envolviam movimentos consistentes, como correr, tiveram taxas de reconhecimento mais altas em comparação com atividades mais complexas ou variadas.
Os resultados mostraram que combinar dados de sensores vestíveis e vídeo melhorou o desempenho geral, particularmente para atividades que poderiam causar confusão quando vistas isoladamente. Isso indica que abordagens multimodais poderiam ser benéficas pra desenvolver sistemas de reconhecimento de atividades mais precisos.
Conclusão e Trabalhos Futuros
A introdução do conjunto de dados WEAR marca um passo significativo adiante na pesquisa sobre reconhecimento de atividades humanas. Ao combinar dados vestíveis e visuais, esse conjunto abre novas possibilidades para modelos e técnicas inovadoras.
Os pesquisadores agora podem explorar como essas modalidades interagem e quais benefícios surgem de sua combinação. As descobertas indicam que uma abordagem multimodal não só melhora as taxas de reconhecimento, mas também ajuda a lidar com alguns dos desafios enfrentados na área.
Pesquisas futuras provavelmente se concentrarão em refinar essas abordagens, explorando outras combinações de dados e investigando como aproveitar melhor as forças de cada método. No geral, o conjunto de dados WEAR é uma contribuição valiosa para a área, fornecendo um recurso essencial para avançar os estudos de reconhecimento de atividades humanas.
Título: WEAR: An Outdoor Sports Dataset for Wearable and Egocentric Activity Recognition
Resumo: Research has shown the complementarity of camera- and inertial-based data for modeling human activities, yet datasets with both egocentric video and inertial-based sensor data remain scarce. In this paper, we introduce WEAR, an outdoor sports dataset for both vision- and inertial-based human activity recognition (HAR). Data from 22 participants performing a total of 18 different workout activities was collected with synchronized inertial (acceleration) and camera (egocentric video) data recorded at 11 different outside locations. WEAR provides a challenging prediction scenario in changing outdoor environments using a sensor placement, in line with recent trends in real-world applications. Benchmark results show that through our sensor placement, each modality interestingly offers complementary strengths and weaknesses in their prediction performance. Further, in light of the recent success of single-stage Temporal Action Localization (TAL) models, we demonstrate their versatility of not only being trained using visual data, but also using raw inertial data and being capable to fuse both modalities by means of simple concatenation. The dataset and code to reproduce experiments is publicly available via: mariusbock.github.io/wear/.
Autores: Marius Bock, Hilde Kuehne, Kristof Van Laerhoven, Michael Moeller
Última atualização: 2024-10-15 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.05088
Fonte PDF: https://arxiv.org/pdf/2304.05088
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.