Melhorando a Previsão de Movimento Humano com Tarefas Auxiliares
Um novo método melhora a previsão de movimento usando tarefas de aprendizado auxiliares.
― 6 min ler
Índice
A previsão do movimento humano é sobre adivinhar como as pessoas vão se mover no futuro com base nos movimentos passados. Isso tem usos práticos em áreas como robótica, games e carros autônomos. Um dos grandes desafios dessa área é descobrir como as diferentes partes do corpo se movem juntas ao longo do tempo. Métodos antigos tentaram resolver isso usando tipos específicos de redes projetadas para observar tanto o espaço (a posição das articulações) quanto o tempo (como o movimento muda).
O Problema
Quando a gente observa o movimento de uma pessoa, consegue ver como as partes do corpo (tipo braços e pernas) interagem de uma forma complexa. Para prever movimentos futuros de forma precisa, é importante captar como essas partes se relacionam, tanto em termos de suas posições quanto de como mudam ao longo do tempo. Desenvolver técnicas eficazes para captar essas relações é essencial para melhores previsões.
Muitos métodos existentes focam em construir estruturas de rede complexas, mas esse trabalho apresenta uma abordagem diferente usando Tarefas Auxiliares. Essas tarefas ajudam a melhorar a tarefa principal de prever o movimento, fazendo a rede aprender mais com os dados.
Abordagem de Tarefas Auxiliares
Na nossa abordagem, introduzimos tarefas auxiliares onde algumas coordenadas das articulações são propositalmente deixadas confusas, seja mascarando elas ou adicionando ruído aleatório. A missão da rede passa a ser descobrir as posições originais a partir das coordenadas que ainda estão claras. Treinando o modelo com essas tarefas extras, ele fica melhor em entender as relações entre as articulações, o que resulta em previsões de movimento mais precisas.
As tarefas auxiliares que focamos são:
Tarefa de Denoising: Um ruído aleatório é adicionado às coordenadas das articulações em diferentes momentos, e o objetivo é recuperar o movimento suave original.
Tarefa de Previsão de Características Mascaradas: Coordenadas aleatórias são escondidas, e a meta é prever essas posições faltantes com base em outros dados visíveis.
Essas tarefas forçam a rede a aprender mais sobre como as relações espaciais e temporais funcionam juntas.
Como os Métodos Atuais Funcionam
Métodos tradicionais dependiam de certas estruturas, como Redes Neurais Recorrentes (RNNs) ou Redes Neurais Convolucionais Gráficas (GCNs), para captar o tempo dos movimentos ou como as articulações se conectam espacialmente. Enquanto alguns usaram GCNs para relacionar articulações como nós em um gráfico, muitos falharam em capturar tanto o tempo quanto a posição de forma eficaz.
Alguns métodos tiveram dificuldades em modelar bem as dependências espaciais, pois focaram apenas no aspecto temporal. O nosso trabalho contribui para os métodos existentes ao introduzir tarefas de aprendizado adicionais que impulsionam a rede a capturar melhor essas relações.
Nossa Solução: Transformer Adaptado a Tarefas Auxiliares
Para implementar nossas tarefas auxiliares no processo de aprendizado, desenhamos um tipo especial de rede chamada Transformer Adaptado a Tarefas Auxiliares. Essa rede é capaz de lidar com dados incompletos enquanto captura como diferentes articulações dependem umas das outras.
Características Principais da Nossa Rede
Dependência por Coordenada: A posição de cada articulação é tratada como uma característica individual. A rede aprende a relacionar essas características usando mecanismos de atenção que modelam dependências espaciais e temporais.
Adaptável a Dados Ausentes: A rede pode reconhecer quando dados estão faltando (por causa da tarefa de mascaramento) usando tokens especiais para indicar isso.
Estrutura Compartilhada: A tarefa principal de previsão e as tarefas auxiliares compartilham a mesma estrutura de rede, tornando o modelo mais coeso e eficiente.
Estrutura de Aprendizado
A estrutura de aprendizado consiste em três tarefas trabalhando juntas:
Tarefa Principal de Previsão Futura: Esse é o objetivo principal, prever como uma pessoa vai se mover no futuro.
Tarefa Auxiliar de Denoising: Ajuda a rede a se recuperar de dados ruidosos.
Tarefa Auxiliar de Previsão de Mascaramento: Ajuda a prever posições ocultas das articulações.
Ao ter essas tarefas rodando juntas, o modelo aprende melhor as dependências espaço-temporais, ajudando a melhorar a previsão geral de movimento.
Resultados Experimentais
Realizamos experimentos para ver quão bem nosso método funciona na prática. Testamos em três conjuntos de dados diferentes: Human3.6M, CMU Mocap e 3DPW.
Previsão a Curto Prazo
Nas previsões a curto prazo (até 400 milissegundos), nosso método mostrou desempenho melhor do que técnicas existentes. Monitoramos como nossa abordagem previu posições em vários tempos futuros e descobrimos que consistentemente superou outras abordagens.
Previsão a Longo Prazo
Para previsões mais longas (acima de 400 milissegundos), nosso método manteve seu sucesso. Comparamos com vários métodos estabelecidos e encontramos que consistentemente ofereceu melhor precisão em uma variedade de ações.
Robustez à Qualidade dos Dados
Nosso método não só prevê movimentos bem, mas também se sai melhor quando dados estão faltando ou são ruidosos. Testamos como nosso modelo poderia funcionar quando partes dos dados de entrada estavam ocultas ou distorcidas. Em ambas as situações, nossa abordagem se mostrou mais eficaz em comparação com métodos tradicionais, indicando que consegue lidar com problemas do mundo real onde os dados podem não ser perfeitos.
Conclusão
Neste trabalho, introduzimos uma estrutura inovadora para prever o movimento humano que utiliza tarefas auxiliares para melhorar a compreensão das dependências espaço-temporais entre as articulações do corpo. Nossa abordagem, conhecida como AuxFormer, demonstra desempenho aprimorado ao prever movimentos futuros em comparação com os métodos existentes. Não só alcança resultados de ponta em vários conjuntos de dados, mas também mostra maior robustez quando enfrenta dados faltantes ou ruidosos.
Esse avanço pode abrir caminho para aplicações mais confiáveis em robótica e IA, onde prever com precisão o movimento humano é vital para interação e segurança.
Título: Auxiliary Tasks Benefit 3D Skeleton-based Human Motion Prediction
Resumo: Exploring spatial-temporal dependencies from observed motions is one of the core challenges of human motion prediction. Previous methods mainly focus on dedicated network structures to model the spatial and temporal dependencies. This paper considers a new direction by introducing a model learning framework with auxiliary tasks. In our auxiliary tasks, partial body joints' coordinates are corrupted by either masking or adding noise and the goal is to recover corrupted coordinates depending on the rest coordinates. To work with auxiliary tasks, we propose a novel auxiliary-adapted transformer, which can handle incomplete, corrupted motion data and achieve coordinate recovery via capturing spatial-temporal dependencies. Through auxiliary tasks, the auxiliary-adapted transformer is promoted to capture more comprehensive spatial-temporal dependencies among body joints' coordinates, leading to better feature learning. Extensive experimental results have shown that our method outperforms state-of-the-art methods by remarkable margins of 7.2%, 3.7%, and 9.4% in terms of 3D mean per joint position error (MPJPE) on the Human3.6M, CMU Mocap, and 3DPW datasets, respectively. We also demonstrate that our method is more robust under data missing cases and noisy data cases. Code is available at https://github.com/MediaBrain-SJTU/AuxFormer.
Autores: Chenxin Xu, Robby T. Tan, Yuhong Tan, Siheng Chen, Xinchao Wang, Yanfeng Wang
Última atualização: 2023-09-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.08942
Fonte PDF: https://arxiv.org/pdf/2308.08942
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.