SCD-Net: Avançando no Reconhecimento de Ações Baseado em Esqueleto
Um novo framework melhora o reconhecimento de ações ao separar pistas espaciais e temporais.
― 7 min ler
Índice
O reconhecimento de ações baseado em esqueleto é uma forma de identificar ações humanas usando dados dos esqueletos. Esse método evoluiu bastante nos últimos anos por duas razões principais. Primeiro, modelos de deep learning, especialmente as Redes Neurais Convolucionais em Grafo (GCN), mostraram-se eficazes nessa tarefa. Segundo, grandes conjuntos de dados como NTU-RGB+D foram criados, fornecendo uma base sólida para pesquisa.
Porém, criar modelos que funcionem bem geralmente exige muitos dados rotulados, o que pode ser difícil de coletar e anotar. Para contornar esse problema, o aprendizado auto-supervisionado se tornou popular. Essa abordagem usa as relações naturais nos dados em vez de depender de rótulos externos. Especificamente, o aprendizado contrastivo mostrou grande potencial nessa área porque pode aprender representações úteis dos dados sem precisar de rótulos manuais.
O Desafio dos Métodos Atuais
A maioria das abordagens existentes em reconhecimento de ações baseado em esqueleto processa dados de uma forma que entrelaça diferentes informações. Elas geralmente tratam os dados como uma representação única e complexa. Enquanto alguns métodos tentam focar apenas em dados espaciais ou temporais, separar isso completamente não tem dado certo. Além disso, muitas técnicas simplesmente emparelham dados do mesmo nível de representação, sem considerar as diferenças entre os vários tipos de informação. Essa falha significa que o potencial dos métodos de Aumento de Dados não é totalmente aproveitado.
Para resolver essas questões, apresentamos uma nova estrutura de aprendizado chamada Rede de Desentrelaçamento de Pistas Espaciotemporais, ou SCD-Net. Esse método se concentra em separar as pistas espaciais e temporais nos dados, o que ajuda a criar representações mais claras e melhora o desempenho do reconhecimento de ações.
Entendendo a Estrutura do SCD-Net
Como o SCD-Net Funciona
O SCD-Net combina um extrator de características com um módulo de desacoplamento. O extrator de características extrai as características básicas das sequências do esqueleto, enquanto o módulo de desacoplamento separa essas características em categorias espaciais e temporais. Fazendo isso, conseguimos gerenciar as interações entre os diferentes tipos de informação de forma mais eficaz.
Ao treinar o SCD-Net, usamos um âncora global que representa todas as informações dos domínios Espacial e Temporal. Essa âncora conecta as diferentes partes da informação e incentiva a rede a aprender de todos os dados de forma eficiente.
Outra parte importante do nosso framework é uma nova estratégia de mascaramento, que aplica restrições específicas aos dados. Essa estratégia se baseia em avanços recentes na modelagem de imagens mascaradas, ajudando o modelo a aprender melhor as relações entre as diferentes partes da sequência.
Funcionalidades Principais do SCD-Net
Codificador de Caminho Duplo: Esse codificador ajuda a produzir representações espaciais e temporais claras a partir das sequências de esqueleto. Primeiro, ele reúne os dados e depois os divide em camadas separadas que focam nas características espaciais ou temporais.
Perda Contrastiva de Domínio Cruzado: Essa função de perda guia o modelo a aprender como as diferentes representações se relacionam. Ela conecta a representação global a outras ao medir semelhanças e diferenças, ajudando o modelo a focar em aprender distinções úteis.
Aumento de Dados Estruturado: Nossa abordagem para aumento de dados envolve mascarar regiões dos dados de entrada para incentivar o modelo a aprender a partir de vários contextos. Esse método não apenas aumenta a diversidade dos dados de treinamento, mas também permite que o modelo entenda as relações presentes nas sequências do esqueleto de forma mais robusta.
Experimentos e Resultados
Para avaliar a eficácia do SCD-Net, realizamos testes usando dois conjuntos de dados populares: NTU-RGB+D (60 e 120 categorias) e PKU-MMD. Esses conjuntos de dados incluem uma ampla variedade de ações realizadas por múltiplos sujeitos, oferecendo uma boa base para testar nosso framework.
Desempenho no Reconhecimento de Ações
Para tarefas de reconhecimento de ações, adotamos uma abordagem de avaliação linear. Isso envolve fixar os parâmetros pré-treinados do modelo e apenas treinar uma nova camada dedicada à previsão de rótulos. Os resultados mostraram que o SCD-Net superou métodos existentes por uma margem significativa. Em particular, melhorou a precisão em até 5,5% no NTU-60 e 4,1% no NTU-120 em comparação com os melhores métodos anteriores. Os resultados para PKU-MMD também demonstraram um desempenho excelente.
Recuperação de Ações
Nas tarefas de recuperação de ações, testamos o SCD-Net usando o classificador KNeighbors enquanto mantivemos todos os parâmetros pré-treinados fixos. Nosso método obteve resultados impressionantes tanto no NTU-60 quanto no NTU-120, com precisões que superaram significativamente os métodos anteriores.
Aprendizado por Transferência
Nosso método também se mostrou eficaz em tarefas de aprendizado por transferência. Transferimos o conhecimento adquirido de um conjunto de dados para outro, mostrando como o SCD-Net poderia reter e aplicar informações aprendidas em diferentes domínios. Observamos melhorias de desempenho em relação a métodos anteriores de até 11,2%.
Aprendizado Semi-supervisionado
Em cenários de aprendizado semi-supervisionado, mesmo com apenas 1% dos dados rotulados disponíveis, o SCD-Net conseguiu uma precisão acima de 69%. À medida que a quantidade de dados rotulados aumentou para 10%, o desempenho melhorou significativamente, mostrando a robustez da nossa abordagem.
Componentes do SCD-Net
Codificador de Desacoplamento de Caminho Duplo
O codificador de desacoplamento de caminho duplo é crucial no SCD-Net, permitindo que ele separe as informações espaciais e temporais de forma suave. Primeiro, o modelo aplica aumento de dados para criar novas perspectivas dos dados de entrada. Depois, ele extrai características e as desacopla para gerar representações espaciais e temporais distintas. Essa separação é vital, já que informações entrelaçadas podem causar confusão durante o reconhecimento.
Perda Contrastiva de Domínio Cruzado
A perda contrastiva de domínio cruzado mede o quão bem o modelo aprende a diferenciar entre diferentes representações. Ancorando a representação global, o SCD-Net melhora a interação entre diferentes tipos de informação. Isso ajuda a garantir que o modelo consiga discernir sutis diferenças entre várias ações.
Técnicas de Aumento de Dados
Introduzimos uma forma estruturada de aumento de dados que utiliza mascaramento em ambas as dimensões espaciais e temporais. Esse método permite que o modelo aprenda a partir de diferentes contextos, mascarando grupos de articulações ou quadros relacionados em vez de pontos individuais. Assim, aumentamos a variedade dos dados de treinamento e incentivamos o modelo a capturar relações de forma mais eficaz.
Validação Experimental
Realizamos múltiplos experimentos para validar os vários componentes do SCD-Net. Remover elementos como o extrator de características ou o módulo de desacoplamento levou a quedas significativas no desempenho. Isso reforça a ideia de que ter uma arquitetura bem projetada, capaz de separar características claramente, é essencial.
Conclusão
Em resumo, o SCD-Net apresenta uma nova maneira de abordar o reconhecimento de ações baseado em esqueleto ao focar no desentrelaçamento de pistas espaciais e temporais. Ao criar representações mais claras e utilizar técnicas inovadoras de aumento de dados, nosso método não só supera os métodos existentes em várias tarefas, mas também estabelece um novo marco no campo.
Pesquisas futuras podem se concentrar em refinar ainda mais esses componentes e explorar novas maneiras de aproveitar paradigmas de aprendizado auto-supervisionado. Nosso trabalho demonstra o potencial de melhorar a precisão do reconhecimento de ações ao aprimorar a forma como as informações das sequências de esqueletos são processadas e utilizadas, abrindo caminho para avanços na compreensão das ações humanas.
Título: SCD-Net: Spatiotemporal Clues Disentanglement Network for Self-supervised Skeleton-based Action Recognition
Resumo: Contrastive learning has achieved great success in skeleton-based action recognition. However, most existing approaches encode the skeleton sequences as entangled spatiotemporal representations and confine the contrasts to the same level of representation. Instead, this paper introduces a novel contrastive learning framework, namely Spatiotemporal Clues Disentanglement Network (SCD-Net). Specifically, we integrate the decoupling module with a feature extractor to derive explicit clues from spatial and temporal domains respectively. As for the training of SCD-Net, with a constructed global anchor, we encourage the interaction between the anchor and extracted clues. Further, we propose a new masking strategy with structural constraints to strengthen the contextual associations, leveraging the latest development from masked image modelling into the proposed SCD-Net. We conduct extensive evaluations on the NTU-RGB+D (60&120) and PKU-MMD (I&II) datasets, covering various downstream tasks such as action recognition, action retrieval, transfer learning, and semi-supervised learning. The experimental results demonstrate the effectiveness of our method, which outperforms the existing state-of-the-art (SOTA) approaches significantly.
Autores: Cong Wu, Xiao-Jun Wu, Josef Kittler, Tianyang Xu, Sara Atito, Muhammad Awais, Zhenhua Feng
Última atualização: 2023-09-11 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.05834
Fonte PDF: https://arxiv.org/pdf/2309.05834
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.