Avanço na Mistura de Formas para Movimento Humano
Novo método mistura formas humanas pra prever movimentos com precisão.
― 6 min ler
Índice
Quando a gente vê alguém se movendo, tipo andando ou pulando, é fácil reconhecer a ação. Nosso cérebro também consegue fazer previsões do que vai rolar a seguir com base no que a gente vê. Essa habilidade ajuda a gente a se virar em lugares cheios ou reagir a mudanças repentinas ao nosso redor. Ensinar os computadores a fazerem a mesma coisa é bem mais complicado, porque o movimento humano é complexo. Essa capacidade de reconhecer e prever o movimento humano é importante em várias áreas, como como interagimos com computadores, esportes, fisioterapia e segurança.
Nos últimos anos, os pesquisadores avançaram bastante em capturar o movimento humano digitalmente. Com a tecnologia melhorando, agora dá pra gravar ações humanas e analisá-las usando métodos de visão computacional. Esses métodos incluem olhar a profundidade em vídeos, classificar ações humanas com base em esqueletos 3D e usar técnicas que acompanham o movimento nas cenas. Embora tenha rolado um progresso em entender esses movimentos a partir de vídeos, ainda é um desafio analisar sequências de Formas ao longo do tempo porque não temos datasets suficientes.
Esse trabalho foca em um problema específico: misturar formas ao longo do tempo. Por exemplo, se temos a forma de uma pessoa em dois momentos diferentes, como podemos descobrir como a forma dela pode parecer em qualquer ponto entre esses momentos ou até no futuro? Se um programa consegue fazer isso, sugere que ele entende o movimento humano. O conhecimento desse programa pode ser aplicado em outras tarefas. Enquanto alguns avanços recentes focaram em misturar esqueletos humanos, este trabalho quer misturar as formas do corpo humano. Também não supomos que as formas se encaixem perfeitamente, o que aumenta o desafio.
Pra resolver esse problema de mistura de formas, proponho um método usando deep learning sem precisar de dados rotulados. Aqui estão as principais contribuições:
- Usamos datasets de captura de movimento existentes pra criar uma grande coleção de sequências de formas humanas.
- Desenvolvemos uma nova rede neural gráfica pra lidar com o problema de combinar formas.
- Criamos outra rede neural gráfica pra misturar formas em qualquer momento escolhido.
Definindo o Problema
A gente representa uma forma 3D usando uma malha triangular. No nosso caso, temos duas formas que são estruturalmente similares, mas podem não se encaixar exatamente. A gente sabe quando a primeira forma aparece e quando a segunda aparece. Nosso objetivo é prever a forma em qualquer ponto entre esses dois momentos. Podemos categorizar ainda mais essa tarefa, dependendo se queremos criar uma forma que mostre a ação entre os dois momentos, projetar pro futuro ou voltar pro passado.
Como o foco é no movimento humano, a gente só trabalha com as formas de pessoas. Supomos que as formas são feitas de triângulos conectados e são à prova d'água.
Nossa Abordagem pra Misturar Formas
Nossa abordagem inclui três partes principais:
- Red-Blue MPNN: Esse componente estima como as duas formas estão relacionadas.
- Refinamento Condicional: Essa etapa transforma uma estimativa inicial da relação em um encaixe mais preciso.
- Fusão Temporal: Por fim, essa parte mistura as formas com base nos dados alinhados.
Red-Blue MPNN
Nessa etapa, pegamos as duas formas e as conectamos usando arestas especiais pra formar um grafo aumentado. A gente realiza um processo onde manda mensagens por esse grafo pra descobrir quais partes das formas correspondem entre si. Depois de rodar esse processo por várias rodadas, obtemos uma estimativa suave de como as formas estão combinadas.
Refinamento Condicional
A saída do primeiro passo nos dá uma matriz com valores suaves que indicam como as formas podem se encaixar. Pra usar isso na mistura, precisamos torná-la binária, ou seja, encontrar os melhores encaixes entre as formas. Focamos em certas condições, e quando essas são atendidas, refinamos os encaixes pra garantir que estão certos. Se a condição não é atendida, ainda assim, saímos com a matriz binária que obtivemos antes.
Fusão Temporal
Uma vez que temos uma boa estimativa de como as formas se alinham, podemos misturá-las. Primeiro, alinhamos as formas com base nos encaixes que encontramos. Se não encontramos um encaixe perfeito, preenchendo as lacunas, fazemos uma média das posições dos pontos correspondentes. Esse processo nos permite gerar a nova forma em qualquer ponto do tempo.
Criando o Dataset e Treinando o Modelo
Pra gerar nosso dataset, usamos um software pra criar 1000 formas humanas diferentes. Depois, usamos um dataset público de captura de movimento que contém vários movimentos humanos. Combinando esses recursos, produzimos um dataset rico de movimentos humanos em diferentes formas.
Treinamento e Mistura de Malhas
Durante o treinamento, selecionamos sequências de movimento aleatórias e amostramos quadros pra criar inputs pro nosso modelo. Nosso objetivo é treinar o modelo em três tarefas: misturar formas existentes pra mostrar o que acontece a seguir, prever formas futuras e voltar pra visualizar formas passadas. Cada uma dessas tarefas envolve usar os dados de forma que coletamos.
Pro treinamento, aplicamos funções de perda que ajudam a medir quão precisamente o modelo prevê as formas. O desempenho do modelo é avaliado com base em quão bem ele consegue combinar as formas alvo.
Resultados da Abordagem
Testamos nossa abordagem em várias sequências de movimentos humanos e obtivemos resultados bem legais. Por exemplo, quando fornecemos formas de uma pessoa se curvando e virando, as formas geradas capturaram efetivamente esses movimentos. Da mesma forma, também testamos sequências onde as pessoas moviam os braços enquanto caminhavam, e nosso modelo conseguiu prever essas mudanças complexas com precisão.
Em cenários de teste mais complexos, como uma pessoa pulando ou agachando, nosso método também gerou resultados realistas. As formas geradas transitaram suavemente entre diferentes poses ao longo do tempo. Embora os movimentos do corpo fossem muito realistas, notamos alguns problemas de alinhamento global onde as formas deslizavam em vez de manter sua posição pretendida.
Conclusão
Resumindo, propomos um novo método pra resolver o problema de mistura de formas quando trabalhamos com formas do corpo humano. Desenvolvemos uma rede neural gráfica única que processa os dados de uma forma que ajuda a estimar como as formas correspondem umas às outras. Além disso, incorporamos um processo de refinamento pra melhorar a precisão desses encaixes. Nosso método demonstra que conseguimos criar movimentos realistas em formas humanas ao longo do tempo usando datasets sintéticos.
Embora os resultados sejam promissores, reconhecemos algumas limitações, principalmente relacionadas aos movimentos globais das formas. Trabalhos futuros vão focar em refinar esses aspectos, garantindo transições ainda mais realistas no movimento humano.
Título: A Graph Neural Network Approach for Temporal Mesh Blending and Correspondence
Resumo: We have proposed a self-supervised deep learning framework for solving the mesh blending problem in scenarios where the meshes are not in correspondence. To solve this problem, we have developed Red-Blue MPNN, a novel graph neural network that processes an augmented graph to estimate the correspondence. We have designed a novel conditional refinement scheme to find the exact correspondence when certain conditions are satisfied. We further develop a graph neural network that takes the aligned meshes and the time value as input and fuses this information to process further and generate the desired result. Using motion capture datasets and human mesh designing software, we create a large-scale synthetic dataset consisting of temporal sequences of human meshes in motion. Our results demonstrate that our approach generates realistic deformation of body parts given complex inputs.
Autores: Aalok Gangopadhyay, Abhinav Narayan Harish, Prajwal Singh, Shanmuganathan Raman
Última atualização: 2023-06-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.13452
Fonte PDF: https://arxiv.org/pdf/2306.13452
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.