Estimando Poses Humanas 3D a partir de Imagens 2D
Um novo método melhora a estimativa de pose 3D a partir de imagens 2D de várias pessoas.
― 6 min ler
Índice
Estimar poses humanas em três dimensões (3D) a partir de imagens bidimensionais (2D) é uma tarefa complexa. Isso é especialmente verdade quando várias pessoas estão presentes em uma única imagem. Em termos mais simples, é difícil saber quão longe cada pessoa está da câmera, o que torna difícil posicioná-las com precisão no espaço 3D. Esse desafio é conhecido como ambiguidade de perspectiva, onde o que você vê em uma foto pode ser interpretado de maneiras diferentes.
O Desafio de Múltiplas Pessoas
Os métodos atuais que estimam poses 3D geralmente focam em uma pessoa de cada vez. Quando você tenta aplicar esses métodos a várias pessoas, podem surgir imprecisões porque o ângulo da câmera afeta como vemos a profundidade. Por exemplo, uma pessoa que está mais longe na foto pode parecer menor ou flutuando em comparação com alguém que está na frente. Isso torna especialmente complicado descobrir como as pessoas estão interagindo umas com as outras em um espaço compartilhado.
Uma Nova Abordagem
O objetivo do novo método é estimar as posições 3D de várias pessoas a partir de suas Poses 2D, focando em como elas interagem entre si. Para isso, o método prevê o ângulo da câmera em relação à posição da Pelve de cada pessoa. Sabendo esse ângulo, ele pode ajustar as poses para ficarem planas no chão e também estimar quão distantes estão as pessoas em 3D.
Esse método funciona levantando primeiro a pose 2D de cada pessoa para 3D de forma independente. Depois, combina essas poses em um único espaço 3D. Após alinhá-las com base no ângulo da câmera previsto, o método garante que todas as poses coincidam em tamanho.
Testando o Método
Para verificar se essa nova abordagem funciona, ela foi testada usando um conjunto de dados específico projetado para estudar interações humanas em 3D. Esse conjunto inclui dados de verdadeiros, ou seja, as posições reais das articulações do corpo, coletadas de múltiplos Ângulos de Câmera durante diferentes interações, como segurar as mãos ou se empurrar.
Treinando o Modelo
O modelo é treinado usando sequências onde as poses 2D estão disponíveis. Nesse caso, sequências completas de dados de movimento foram usadas para ensinar ao sistema como as poses 3D deveriam parecer com base em imagens 2D. O treinamento também depende de certas suposições sobre o tamanho e a distância da câmera, como manter a pelve a uma distância fixa.
Levantando as Poses
A rede de levantamento do método prevê o deslocamento de profundidade para cada articulação com base na articulação raiz, que geralmente é a pelve. A posição final 3D das partes do corpo é então calculada. Essa estratégia ajuda a minimizar erros que surgem ao tentar levantar duas poses ao mesmo tempo.
Elevação
Lidando com Erros com Compensação deUm problema significativo na estimativa de poses 3D é o ângulo de elevação da câmera. Se a câmera estiver inclinada para cima ou para baixo, pode fazer as pessoas parecerem mais altas ou mais baixas do que realmente são na foto. O novo método aborda esse problema incluindo uma etapa de compensação que ajusta essas diferenças de altura.
O processo de ajuste envolve calcular quão longe a câmera precisa se mover para alinhar com a pelve de cada pessoa. As poses são então rotacionadas e posicionadas de acordo com essas medições de altura atualizadas.
Avaliando o Desempenho do Modelo
Uma vez que o modelo é treinado, seu desempenho é avaliado em relação a certas métricas que medem o quão bem ele reconstrói as poses. Isso inclui olhar para os erros nas posições previstas em comparação com as posições reais. A avaliação também verifica o tamanho geral e a tradução das poses.
Algumas métricas usadas são:
- Erro Médio de Posição de Junta: Mede o erro médio entre posições previstas e reais das articulações.
- Erro de Escala: Verifica se os tamanhos das poses coincidem.
- Erro de Tradução: Analisa quão precisamente a posição geral está.
- Erro de Deslocamento da Raiz: Mede quão bem as posições da pelve foram previstas.
Resultados e Melhorias
Os resultados mostraram que os novos ajustes para elevação e rotação melhoraram significativamente a precisão das previsões de poses 3D. A capacidade de estimar essas poses com precisão é crucial para aplicações como realidade virtual, jogos e captura de movimento.
Uma grande limitação dessa abordagem é que ela depende da precisão das poses 2D extraídas. Se a posição da pelve for estimada incorretamente, pode desajustar toda a reconstrução. Além disso, discrepâncias nos dados podem dificultar garantir que as poses previstas se alinhem com as interações reais.
Direções Futuras
Devido aos desafios em curso, trabalhos futuros pretendem combinar essa abordagem com ferramentas que detectam quando as pessoas estão em contato. Isso ajudará a melhorar a capacidade do modelo de fazer previsões precisas sobre como as pessoas interagem com base em suas poses 2D em um espaço compartilhado.
Conclusão
Este estudo apresenta um novo método para estimar poses humanas 3D a partir de imagens 2D, especialmente em cenários com várias pessoas. Ao abordar os problemas comuns relacionados ao ângulo da câmera e à elevação, oferece uma maneira mais precisa de visualizar interações humanas em três dimensões. A natureza leve do modelo também o torna adequado para aplicações em tempo real, aumentando sua utilidade em várias áreas. Este trabalho abre caminho para novas pesquisas em métodos não supervisionados para estimar poses humanas, potencialmente levando a avanços ainda maiores na área.
Título: Unsupervised Multi-Person 3D Human Pose Estimation From 2D Poses Alone
Resumo: Current unsupervised 2D-3D human pose estimation (HPE) methods do not work in multi-person scenarios due to perspective ambiguity in monocular images. Therefore, we present one of the first studies investigating the feasibility of unsupervised multi-person 2D-3D HPE from just 2D poses alone, focusing on reconstructing human interactions. To address the issue of perspective ambiguity, we expand upon prior work by predicting the cameras' elevation angle relative to the subjects' pelvis. This allows us to rotate the predicted poses to be level with the ground plane, while obtaining an estimate for the vertical offset in 3D between individuals. Our method involves independently lifting each subject's 2D pose to 3D, before combining them in a shared 3D coordinate system. The poses are then rotated and offset by the predicted elevation angle before being scaled. This by itself enables us to retrieve an accurate 3D reconstruction of their poses. We present our results on the CHI3D dataset, introducing its use for unsupervised 2D-3D pose estimation with three new quantitative metrics, and establishing a benchmark for future research.
Autores: Peter Hardy, Hansung Kim
Última atualização: 2024-03-12 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.14865
Fonte PDF: https://arxiv.org/pdf/2309.14865
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.