Avançando na Modelagem e Rastreamento 3D de Humanos
Um novo método melhora a modelagem 3D e o rastreamento de figuras humanas em imagens e vídeos.
― 7 min ler
Este artigo fala sobre um novo método para trabalhar com figuras humanas em imagens e vídeos, focando em como podemos criar modelos 3D dessas figuras e acompanhá-las ao longo do tempo. Usando técnicas avançadas de visão computacional, conseguimos analisar a postura, a forma e o movimento humano de maneira mais precisa do que antes.
Visão Geral do Método
A parte chave desse método se baseia numa tecnologia chamada transformers. Transformers são modelos que mostraram grande sucesso em várias tarefas de computação, especialmente na análise de imagens. A nossa versão pega uma única imagem e produz um Modelo 3D detalhado da pessoa que está nessa imagem.
A capacidade do modelo de lidar com diferentes poses corporais e ângulos de visão é impressionante. Ele não só cria o modelo 3D, mas também acompanha a pessoa em vídeos ao longo do tempo. Isso significa que podemos seguir os movimentos de uma pessoa, mesmo quando ela está parcialmente escondida ou quando outras pessoas estão no meio.
Criando Modelos 3D
O processo começa pegando uma única imagem de uma pessoa. Dessa imagem, prevemos a forma e a pose do corpo da pessoa em 3D. Isso é chamado de Recuperação de Malha Humana. A inovação aqui é que o método não depende de designs complicados que eram usados em abordagens anteriores. Em vez disso, ele utiliza uma arquitetura mais simples que alcança melhores resultados.
Nesse sistema, usamos um novo tipo de rede neural que consegue entender poses incomuns que os métodos anteriores costumavam ter dificuldade. Uma vez que temos o modelo 3D, podemos usá-lo como entrada para rastrear a pessoa em vídeos.
Rastreamento em Vídeo
Ao rastrear indivíduos em vídeos, especialmente quando há várias pessoas, é fundamental manter as identidades mesmo quando elas estão temporariamente escondidas. Nosso sistema enfrenta esse desafio integrando os modelos 3D gerados a partir das imagens no processo de rastreamento. Isso permite que o rastreamento continue suavemente mesmo quando partes da pessoa não estão visíveis.
O método de rastreamento funciona primeiro detectando as pessoas em quadros individuais do vídeo. As informações de cada pessoa são levantadas para 3D para extrair características-chave, como sua pose e movimento. Essa representação contínua é atualizada à medida que novos quadros chegam, permitindo que o sistema siga a pessoa com precisão ao longo do tempo.
Desempenho e Precisão
Conseguimos resultados notáveis em tarefas de rastreamento e recuperação de malha. Testes mostram que nosso sistema supera muitos métodos anteriores em benchmarks padrões. Nossa abordagem consegue lidar com situações desafiadoras, como poses incomuns ou oclusões temporárias causadas por outras pessoas.
A precisão das poses 3D está diretamente relacionada ao desempenho no rastreamento. Se conseguimos criar melhores modelos 3D, isso leva a resultados de rastreamento mais confiáveis. Este é um avanço significativo, pois demonstra que integrar reconstrução com rastreamento pode resultar em um desempenho geral melhor.
Aplicações em Reconhecimento de Ações
Além de apenas rastrear, a eficácia do modelo se estende ao reconhecimento de ações específicas que os indivíduos rastreados estão realizando. Ao usar as poses precisas geradas a partir do modelo, fica mais fácil identificar quais ações uma pessoa pode estar realizando em um vídeo.
Essa aplicação do nosso método leva a melhores resultados em tarefas de reconhecimento de ações. Ao examinar os movimentos dos indivíduos, conseguimos classificar ações mais precisamente do que os métodos antigos que se baseavam apenas em características visuais sem considerar as poses subjacentes.
Entendendo a Arquitetura do Modelo
A base do nosso sistema é um novo design de rede que combina funcionalidade de maneira ideal. O funcionamento interno do modelo usa transformers de visão, que são especialmente adaptados para lidar com imagens. Eles dividem uma imagem em pedaços menores, permitindo que o modelo se concentre em diferentes partes da figura que está sendo analisada.
O design emprega um processo de decodificação padrão que pega as informações dos tokens da imagem e as converte em saídas úteis para tarefas de rastreamento e reconhecimento de ações. Essa arquitetura inovadora é um fator crítico para alcançar um desempenho alto em várias métricas.
Comparação com Métodos Anteriores
Tradicionalmente, os métodos de recuperação de malha e rastreamento dependiam de designs específicos e modelos intricados. Em contraste, nossa abordagem não segue essas convenções e ainda supera os métodos existentes. Por exemplo, enquanto métodos anteriores podem usar muitos designs personalizados e ajustes complexos, nosso modelo simplifica esses requisitos sem perder a eficácia.
Além disso, vários métodos recentes tentaram estender o rastreamento ao longo do tempo, mas frequentemente enfrentaram dificuldades ao rastrear várias pessoas ou lidar com oclusões. A capacidade do nosso sistema de gerenciar esses desafios é uma melhoria notável em comparação com tentativas passadas.
Conjuntos de Dados e Avaliação
Para avaliar nosso método, usamos vários conjuntos de dados padrão que são comumente usados para treinar e validar tais sistemas. Esses conjuntos de dados nos permitem comparar nossos resultados com uma ampla gama de modelos anteriores. Os testes revelam que nosso modelo consistentemente supera abordagens anteriores em diferentes cenários.
Os resultados são medidos usando métricas de desempenho que avaliam a precisão das poses 3D e a confiabilidade do rastreamento. Descobrimos que nosso método se destaca especialmente em ambientes onde poses incomuns e oclusões são frequentes, demonstrando sua robustez.
Resultados Qualitativos
Além das métricas quantitativas, os resultados visuais do nosso método mostram suas forças. As reconstruções produzidas pelo nosso modelo se alinham bem com as imagens, mesmo em condições complicadas. A capacidade de fornecer representações precisas é crucial para aplicativos como animação, realidade virtual e robótica, onde um modelo fiel do movimento humano é necessário.
Direções Futuras
Embora nosso método atual mostre resultados impressionantes, ainda há áreas a melhorar. Futuras pesquisas poderiam explorar modelos melhores que incorporam detalhes mais finos, como poses das mãos e expressões faciais. Além disso, ajustar a maneira como lidamos com várias pessoas em contato próximo ajudaria a criar modelos ainda mais precisos.
Ao expandir as capacidades dos nossos modelos de reconstrução, podemos criar uma compreensão mais abrangente do comportamento humano em vídeos. Isso poderia abrir portas para várias aplicações em áreas que vão desde entretenimento até saúde, onde analisar o movimento humano é vital.
Conclusão
Em resumo, a abordagem que discutimos aqui marca um avanço significativo no rastreamento e na reconstrução de corpos humanos a partir de imagens e vídeos. Ao combinar técnicas avançadas de recuperação de malha humana com métodos de rastreamento eficazes, conseguimos um sistema bem adequado para aplicações do mundo real.
Esse trabalho não só expande os limites do que é possível na análise de figuras humanas na mídia, mas também estabelece as bases para inovações futuras que podem aprimorar nossa compreensão do movimento e das ações humanas.
Título: Humans in 4D: Reconstructing and Tracking Humans with Transformers
Resumo: We present an approach to reconstruct humans and track them over time. At the core of our approach, we propose a fully "transformerized" version of a network for human mesh recovery. This network, HMR 2.0, advances the state of the art and shows the capability to analyze unusual poses that have in the past been difficult to reconstruct from single images. To analyze video, we use 3D reconstructions from HMR 2.0 as input to a tracking system that operates in 3D. This enables us to deal with multiple people and maintain identities through occlusion events. Our complete approach, 4DHumans, achieves state-of-the-art results for tracking people from monocular video. Furthermore, we demonstrate the effectiveness of HMR 2.0 on the downstream task of action recognition, achieving significant improvements over previous pose-based action recognition approaches. Our code and models are available on the project website: https://shubham-goel.github.io/4dhumans/.
Autores: Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik
Última atualização: 2023-08-31 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.20091
Fonte PDF: https://arxiv.org/pdf/2305.20091
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.