Avanços em Aprender o Movimento Humano a partir de Vídeos
Um novo sistema melhora a captura de movimento em 3D a partir de vídeos em 2D.
― 6 min ler
Índice
Aprender como as pessoas se movem a partir de vídeos é um objetivo importante em visão computacional e gráficos. Isso pode ser usado em várias áreas, incluindo videogames e realidade virtual. Tradicionalmente, os pesquisadores tiveram dificuldades em extrair movimentos tridimensionais (3D) a partir de gravações de vídeo bidimensionais (2D). Essa tarefa é complicada porque imagens 2D podem parecer diferentes dependendo do ângulo, iluminação e outros fatores. Métodos anteriores muitas vezes tentaram enfrentar esse desafio usando regras sobre como as pessoas se movem. No entanto, definir essas regras completamente é difícil.
Num trabalho recente, um novo sistema foi criado para aprender melhor o movimento humano a partir de vídeos. Esse sistema conecta os movimentos vistos em vídeos 2D com os movimentos 3D de um esqueleto virtual. Ele separa o corpo em partes superiores e inferiores, facilitando a modelagem do movimento. Também alinha os movimentos com um esqueleto padrão para minimizar diferenças causadas por variações nos tipos de corpo. O novo sistema mostrou resultados promissores quando testado, capturando efetivamente o movimento humano 3D a partir de vídeos tirados de diferentes ângulos.
O Desafio do Aprendizado do Movimento Humano
Entender o movimento humano a partir de entradas 2D é fundamental para várias aplicações, como reconhecimento de ações e análise de comportamento. No entanto, essa tarefa é difícil devido à ambiguidade que surge ao tentar converter imagens 2D em movimentos 3D.
Para melhorar a precisão da captura de movimento, muitas abordagens anteriores usaram regras específicas sobre o movimento humano. Essas regras visam garantir que as poses 3D estimadas sejam realistas. Essas regras podem ser amplamente categorizadas em dois tipos: métodos explícitos e métodos implícitos.
Métodos explícitos focam em definir os movimentos com base na anatomia humana. Embora isso possa parecer simples, o conjunto completo de regras que governam o movimento humano ainda não é totalmente conhecido. Já os métodos implícitos, por outro lado, modelam os padrões gerais de movimento vistos em uma variedade de movimentos. No entanto, esses modelos costumam enfrentar dificuldades de treinamento.
O sistema desenvolvido no estudo atual é chamado de Gerador Vídeo-para-Movimento (VTM). Ele visa superar algumas limitações dos modelos anteriores tratando o corpo humano em partes e alinhando os movimentos com um esqueleto padrão. Essa nova forma de olhar para o movimento trouxe resultados melhores.
O Gerador Vídeo-para-Movimento (VTM)
O VTM se concentra em dividir o corpo humano em partes superiores e inferiores. Essa separação simplifica o processo de captura de movimento e reduz a complexidade associada à modelagem de todo o corpo humano. O sistema também usa um esqueleto virtual que não é afetado por diferenças de tamanho entre os indivíduos. Isso facilita a aprendizagem de padrões de movimento sem complicações decorrentes das variações de tamanho corporal.
O VTM aprende a partir de um conjunto de dados contendo vídeos 2D e os dados de movimento 3D correspondentes. Isso permite que o sistema desenvolva uma compreensão de como diferentes partes do corpo se movem juntas. Uma vez que o sistema aprendeu esses padrões, ele pode ser usado para criar movimentos 3D realistas a partir de novos vídeos 2D.
Treinando o VTM
Para treinar o VTM, são usadas duas partes separadas. A primeira parte foca em aprender os padrões de movimento a partir dos dados 3D. Essa fase é crucial porque estabelece um conjunto de regras que o sistema usará depois. Uma vez que os padrões de movimento são aprendidos, a segunda parte do treinamento envolve alinhar esses movimentos aprendidos com características extraídas dos vídeos 2D.
Usar uma estrutura de duas partes para o treinamento permite uma redução significativa na complexidade. Ao tratar a parte superior e inferior do corpo separadamente, o modelo pode se concentrar em movimentos chave sem ficar sobrecarregado pela totalidade do corpo.
Padrões de Movimento
A noção de padrões de movimento é essencial no processo de aprendizado. Esses padrões servem como um guia para reconstruir movimentos a partir de vídeos. Eles refletem as maneiras comuns como os humanos se movem e fornecem uma estrutura para avaliar quão bem o sistema está se saindo.
Durante o treinamento, o VTM usa um autoencoder de movimento de duas partes. Esse encoder é responsável por aprender os diferentes padrões de movimento para as partes superior e inferior do corpo. Essa técnica permite que o sistema capture os detalhes necessários sobre como cada parte se move sem interferência das outras.
De Características de Vídeo a Previsões de Movimento
Depois que os padrões de movimento foram estabelecidos, o VTM processa as entradas de Vídeo 2D. Uma parte específica do sistema, conhecida como encoder visual, traduz esses vídeos em características que podem ser alinhadas com os padrões de movimento aprendidos.
Essa parte do sistema utiliza modelos pré-treinados para extrair características do vídeo e combina com as características dos pontos-chave do corpo. O resultado dessa combinação é um conjunto de características visuais que pode ser alinhado com os padrões de movimento, garantindo uma reconstrução de movimento mais precisa.
Avaliando o VTM
O VTM foi testado em vários conjuntos de dados padrão, como o AIST++. Os resultados dessas avaliações mostram que o VTM supera muitos métodos tradicionais. O sistema não apenas é capaz de reconstruir movimentos 3D com base em vídeos fornecidos, mas também mostra flexibilidade para se adaptar a vídeos tirados de diferentes ângulos.
Generalização e Aplicação no Mundo Real
Uma das grandes vantagens do VTM é sua capacidade de generalizar em ângulos não vistos e condições imprevistas. Isso significa que o sistema pode lidar com vídeos tirados em ambientes não controlados, o que é comum em cenários do mundo real.
O desempenho do sistema foi validado testando-o em vídeos coletados fora das condições controladas presentes durante o treinamento. Os resultados mostraram que o VTM pode manter alta precisão na reconstrução de movimentos humanos mesmo nesses cenários mais desafiadores.
Conclusão
Em resumo, capturar o movimento humano a partir de vídeos apresenta desafios significativos, mas o Gerador Vídeo-para-Movimento (VTM) mostrou um caminho a seguir. Ao focar em partes separadas do corpo e alinhar movimentos com um esqueleto virtual, o VTM aprende efetivamente a reconstruir movimentos 3D realistas a partir de vídeos 2D.
O trabalho futuro visa melhorar esse sistema explorando métodos de aprendizado não supervisionado. Isso poderia aumentar ainda mais a capacidade de generalização do modelo, além de permitir a incorporação de conjuntos de dados de movimento de alta qualidade sem a necessidade de pares de vídeos exatos.
O desenvolvimento contínuo de tais sistemas certamente avançará os campos de visão computacional e gráficos, trazendo representações de movimento humano mais sofisticadas para aplicações em jogos, realidade virtual e além.
Título: Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment
Resumo: Learning 3D human motion from 2D inputs is a fundamental task in the realms of computer vision and computer graphics. Many previous methods grapple with this inherently ambiguous task by introducing motion priors into the learning process. However, these approaches face difficulties in defining the complete configurations of such priors or training a robust model. In this paper, we present the Video-to-Motion Generator (VTM), which leverages motion priors through cross-modal latent feature space alignment between 3D human motion and 2D inputs, namely videos and 2D keypoints. To reduce the complexity of modeling motion priors, we model the motion data separately for the upper and lower body parts. Additionally, we align the motion data with a scale-invariant virtual skeleton to mitigate the interference of human skeleton variations to the motion priors. Evaluated on AIST++, the VTM showcases state-of-the-art performance in reconstructing 3D human motion from monocular videos. Notably, our VTM exhibits the capabilities for generalization to unseen view angles and in-the-wild videos.
Autores: Shuaiying Hou, Hongyu Tao, Junheng Fang, Changqing Zou, Hujun Bao, Weiwei Xu
Última atualização: 2024-04-15 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2404.09499
Fonte PDF: https://arxiv.org/pdf/2404.09499
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.