Avanços no Reconhecimento de Atividades Humanas com Aprendizado Auto-Supervisionado
Uma nova abordagem pra reconhecer atividades do dia a dia usando aprendizado auto-supervisionado e grandes conjuntos de dados.
― 7 min ler
Índice
- Desafios Atuais no HAR
- A Necessidade de Melhores Modelos
- Aprendizado Auto-Supervisionado Explicado
- O Papel de Grandes Conjuntos de Dados
- Contribuições Principais
- Conjuntos de Dados Usados para Treinamento
- Pré-processamento de Dados
- O Papel da Aumento
- Aprendendo Por Coincidência
- Treinando o Modelo
- Avaliação do Desempenho do Modelo
- Lidando com Desequilíbrio de Classes
- Resultados e Descobertas
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
O reconhecimento de atividades humanas (HAR) é importante pra monitorar como a galera vive seu dia a dia. Usar dispositivos vestíveis como smartwatches e rastreadores de atividades pode ajudar a acompanhar essas atividades. Essa tecnologia pode dar uma luz sobre condições de saúde como artrite, depressão e demência. Mas, criar modelos precisos pra reconhecer essas atividades tem sido complicado por causa da falta de grandes Conjuntos de dados rotulados em situações reais.
Desafios Atuais no HAR
Muitos modelos de HAR que já existem foram feitos com conjuntos pequenos de dados, com apenas alguns participantes fazendo um número limitado de atividades. Esses conjuntos de dados muitas vezes não refletem as variações do mundo real, o que significa que os modelos podem não funcionar bem fora das condições controladas em que foram treinados. Além disso, conseguir rótulos precisos pra essas atividades geralmente requer esforço manual, tornando o processo caro e intrusivo.
O tamanho pequeno desses conjuntos de dados frequentemente leva a modelos que não conseguem generalizar pra novas atividades ou novos dispositivos. Isso levantou questões sobre se é possível construir sistemas de HAR efetivos baseados apenas em dados de acelerômetros.
A Necessidade de Melhores Modelos
Por causa dessas limitações, os pesquisadores precisam pensar em novas maneiras de criar modelos de HAR que sejam mais robustos e práticos. A chegada do Aprendizado Auto-Supervisionado representa uma direção promissora nessa área. Esse método permite que os modelos aprendam com grandes quantidades de dados não rotulados, facilitando a construção de sistemas de reconhecimento eficazes sem precisar de rotulagem manual extensa.
Aprendizado Auto-Supervisionado Explicado
O aprendizado auto-supervisionado funciona pré-treinando um modelo usando uma tarefa proxy, onde o modelo aprende com os dados em si, em vez de depender de exemplos rotulados. Por exemplo, um modelo pode aprender a reconhecer padrões nos dados, que depois podem ser ajustados pra lidar com tarefas específicas. Essa abordagem tem mostrado potencial em áreas como reconhecimento de imagens, onde pode igualar ou até superar o desempenho de modelos que precisam de muitos dados rotulados.
No HAR, o aprendizado auto-supervisionado pode permitir uma maior generalização entre diferentes conjuntos de dados e dispositivos, o que pode levar a um desempenho melhor no geral.
O Papel de Grandes Conjuntos de Dados
Um aspecto crucial de construir sistemas de HAR eficazes é usar grandes conjuntos de dados pra treinamento. Ao utilizar quantidades vastas de dados não rotulados coletados de participantes, os modelos podem aprender mais sobre o movimento humano sem precisar de rotulagem manual pra cada instância. Isso não só diminui os custos, mas também pode melhorar a capacidade do modelo de reconhecer atividades em diferentes configurações.
Contribuições Principais
Esse trabalho visa abordar as limitações enfrentadas pelos modelos de HAR existentes, focando em três principais contribuições:
Generalização: A capacidade do modelo de reconhecer atividades em diferentes configurações mostra potencial, já que ele se sai bem quando testado em novos conjuntos de dados que não faziam parte do seu treinamento.
Combinação de Conjuntos de Dados: A abordagem combina dados de várias fontes, permitindo que o modelo aumente sua precisão aprendendo de diferentes tipos de informações.
Desempenho de Ponta: Ele alcança um bom desempenho no reconhecimento de múltiplos tipos de atividades, mostrando o potencial do treinamento auto-supervisionado, mesmo quando os dados vêm de dispositivos diferentes.
Conjuntos de Dados Usados para Treinamento
Pra construir e avaliar o modelo de HAR, vários conjuntos de dados foram utilizados. Esses incluíam conjuntos de dados disponíveis publicamente que contêm atividades rotuladas coletadas de diferentes tipos de dispositivos vestíveis. Um conjunto de dados, por exemplo, inclui dados de participantes ao longo de 24 horas, permitindo uma representação mais realista das atividades diárias.
Pré-processamento de Dados
Antes de usar os dados pra treinamento, é essencial pré-processá-los pra garantir consistência. Esse processo envolve padronizar medições e garantir que todos os pontos de dados sejam comparáveis. Dado que diferentes dispositivos podem registrar dados em taxas de amostragem variadas, harmonizar os dados pra uma taxa comum é crucial pra um treinamento eficaz.
O Papel da Aumento
Pra melhorar a robustez do modelo, são aplicadas aumentações aos dados. Isso envolve alterar ligeiramente os sinais registrados, tornando o modelo mais resiliente a variações e ruídos. Por exemplo, adicionar pequenos deslocamentos aleatórios ou ruídos aos dados ajuda a simular condições do mundo real onde os dispositivos vestíveis podem não funcionar perfeitamente.
Aprendendo Por Coincidência
No setup auto-supervisionado, pares de janelas de dados são criados com base em dois critérios principais: proximidade temporal e aumento. Quando as janelas de dados estão próximas no tempo, elas são tratadas como similares, ajudando o modelo a aprender a reconhecer padrões dentro daqueles períodos. Por outro lado, quando aumentações são aplicadas, a janela original e sua versão modificada também são tratadas como relacionadas. Isso forma a base de como o modelo aprende a reconhecer e diferenciar várias atividades.
Treinando o Modelo
O núcleo do modelo usa uma rede neural convolucional (CNN) projetada pra processar pedaços de 10 segundos de dados de acelerômetro. O principal objetivo é extrair vetores de características que representem a atividade subjacente durante aqueles segundos. Depois que o modelo é treinado, ele pode ser usado pra classificar novos dados de atividade, oferecendo reconhecimento em tempo real das ações humanas.
Avaliação do Desempenho do Modelo
Após o treinamento, o desempenho do modelo é avaliado em vários conjuntos de dados pra garantir que ele possa generalizar bem. Técnicas de validação cruzada são empregadas pra testar quão bem ele reconhece atividades que não encontrou durante o treinamento. Isso ajuda a identificar possíveis falhas e áreas onde o modelo pode ser melhorado.
Lidando com Desequilíbrio de Classes
Nos dados do mundo real, nem todas as atividades estão igualmente representadas, levando a problemas de desequilíbrio de classes. Pra combater isso, o modelo usa estratégias de reponderação durante o treinamento pra garantir que atividades menos comuns não sejam ofuscadas por outras mais frequentes. Isso é feito pra manter o desempenho em um conjunto equilibrado de atividades durante a avaliação.
Resultados e Descobertas
Testes em diferentes conjuntos de dados mostram que o modelo é capaz de manter alta precisão em várias atividades, destacando o sucesso de combinar aprendizado auto-supervisionado com múltiplas fontes de dados. As descobertas indicam que esses modelos são eficazes em reconhecer ações em situações do mundo real, tornando-os adequados pra aplicações práticas.
Direções Futuras
Embora o modelo atual mostre potencial, há áreas pra melhorar. Por exemplo, a dependência da proximidade temporal pra definir similaridades pode limitar a capacidade do modelo de reconhecer atividades mais curtas. Trabalhos futuros poderiam envolver testes com janelas de tempo mais longas pra capturar ações mais complexas.
Além disso, uma análise mais profunda é necessária pra investigar como diferentes objetivos de treinamento impactam as capacidades de reconhecimento do modelo. Isso pode levar a sistemas de HAR mais robustos, capazes de lidar com uma gama mais ampla de atividades e cenários do mundo real.
Conclusão
Os avanços no aprendizado auto-supervisionado abrem um caminho pra melhorar os sistemas de HAR. Ao aproveitar efetivamente grandes conjuntos de dados e combinar insights de várias fontes, se torna possível criar modelos que conseguem reconhecer atividades humanas com precisão em diferentes configurações e dispositivos. A pesquisa contínua vai continuar a refiná-las, garantindo que a tecnologia de HAR permaneça relevante e útil na busca por um melhor monitoramento da saúde e insights.
Título: Human Activity Recognition Using Self-Supervised Representations of Wearable Data
Resumo: Automated and accurate human activity recognition (HAR) using body-worn sensors enables practical and cost efficient remote monitoring of Activity of DailyLiving (ADL), which are shown to provide clinical insights across multiple therapeutic areas. Development of accurate algorithms for human activity recognition(HAR) is hindered by the lack of large real-world labeled datasets. Furthermore, algorithms seldom work beyond the specific sensor on which they are prototyped, prompting debate about whether accelerometer-based HAR is even possible [Tong et al., 2020]. Here we develop a 6-class HAR model with strong performance when evaluated on real-world datasets not seen during training. Our model is based on a frozen self-supervised representation learned on a large unlabeled dataset, combined with a shallow multi-layer perceptron with temporal smoothing. The model obtains in-dataset state-of-the art performance on the Capture24 dataset ($\kappa= 0.86$). Out-of-distribution (OOD) performance is $\kappa = 0.7$, with both the representation and the perceptron models being trained on data from a different sensor. This work represents a key step towards device-agnostic HAR models, which can help contribute to increased standardization of model evaluation in the HAR field.
Autores: Maximilien Burq, Niranjan Sridhar
Última atualização: 2023-04-26 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.14912
Fonte PDF: https://arxiv.org/pdf/2304.14912
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.