Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Recuperação Unificada de Malha Humana: Uma Nova Abordagem

Novo framework melhora a recuperação de malha humana a partir de várias imagens.

― 9 min ler


Quadro de Recuperação deQuadro de Recuperação deMalha Humana Reveladoprecisa da pose humana.Um sistema flexível para estimativa
Índice

A recuperação de malha humana é uma tarefa de visão computacional que foca em estimar a forma e a pose do corpo humano a partir de imagens. Essa tecnologia tem várias aplicações, incluindo em realidade virtual e interação humano-computador. Conseguir uma recuperação precisa de malha humana a partir de imagens únicas é complicado por causa de problemas como ambiguidade de profundidade e oclusão. No entanto, usar múltiplas vistas de uma pessoa pode fornecer informações mais detalhadas, facilitando a recuperação dos dados de malha humana.

Declaração do Problema

O desafio na recuperação de malha humana a partir de múltiplas imagens tá na variabilidade dos ângulos da câmera e na quantidade de vistas disponíveis. O objetivo é criar um sistema unificado que consiga estimar com precisão a pose e a forma humana de qualquer número de vistas e ângulos de câmera. Projetar tal sistema é complicado porque precisa lidar com a recuperação da malha do corpo humano e as poses de câmera como tarefas separadas, mas que funcionem bem juntas.

Estrutura Proposta

Pra enfrentar os desafios descritos, foi introduzida uma nova estrutura chamada Recuperação Unificada de Malha Humana (U-HMR). Essa estrutura divide a tarefa de recuperação em duas partes principais: estimar as poses da câmera e estimar os dados da malha humana. Separando essas tarefas, fica mais fácil gerenciar a variabilidade nas vistas e ângulos das câmeras.

Componentes da U-HMR

  • Desacoplamento de Câmera e Corpo (CBD): Esse componente separa a análise das poses da câmera da recuperação da malha humana, permitindo que cada tarefa seja tratada de forma independente. Isso reduz a complexidade e aumenta a eficiência.

  • Estimativa de Pose da Câmera (CPE): Pra estimar as poses da câmera, um modelo compartilhado processa todas as vistas da câmera em paralelo. Ao tratar as poses da câmera de forma independente, essa abordagem simplifica a tarefa e acelera o processo de estimativa.

  • Fusão de Vista Arbitrária (AVF): Essa parte lida com a combinação de informações de diferentes vistas de câmera pra melhorar a recuperação da malha. Um decodificador transformer é usado pra mesclar características de várias vistas, tornando o sistema adaptável a qualquer número de vistas.

Benefícios da Estrutura

A principal vantagem da U-HMR é a sua flexibilidade. Ela pode se adaptar a qualquer número de vistas de câmera sem precisar de ajustes ou re-treinamento. Isso é uma grande melhora em relação a métodos anteriores, que muitas vezes necessitavam de um número específico de vistas ou posições fixas da câmera. A estrutura é projetada pra aprender de forma eficaz a partir de dados de múltiplas vistas, que é crucial pra uma recuperação precisa da malha.

Trabalhos Relacionados

Pesquisas anteriores sobre recuperação de malha humana focaram principalmente em métodos de visão única ou múltiplas. Muitas técnicas de visão única enfrentaram dificuldades com ambiguidade de profundidade e oclusões, resultando em saídas menos confiáveis. Métodos de múltiplas vistas tendiam a funcionar melhor, mas muitas vezes dependiam de configurações fixas de câmera. O trabalho na U-HMR visa preencher essa lacuna, permitindo vistas e posições de câmera arbitrárias enquanto simplifica a tarefa de recuperação em componentes desacoplados.

Técnicas de Recuperação de Malha Humana

Recuperação de Malha de Imagem Única

Em cenários de imagem única, geralmente existem duas abordagens: métodos baseados em otimização e métodos baseados em regressão. A abordagem de otimização normalmente envolve ajustar um modelo pré-definido aos dados da imagem, enquanto as técnicas baseadas em regressão usam aprendizado profundo pra prever diretamente os parâmetros da malha a partir da imagem. Apesar dos avanços nesses métodos, problemas como oclusão continuam sendo um desafio.

Recuperação de Imagem de Múltiplas Vistas

Usar múltiplas vistas captura mais informações, tornando-a uma opção mais viável pra recuperação de malha humana. Muitos métodos foram propostos que usam dados de múltiplas vistas, normalmente exigindo calibrações de câmeras pra integrar as vistas de forma eficaz. Algumas abordagens foram desenvolvidas pra lidar com cenários sem calibração de câmera, mas tendem a falhar em flexibilidade.

Visão Geral da U-HMR

A estrutura U-HMR divide a tarefa de recuperação de malha em duas partes: estimativa de parâmetros da câmera e estimativa de parâmetros do corpo. Focando nesses dois componentes separadamente, o sistema consegue recuperar a malha humana de forma mais eficaz a partir de múltiplas vistas.

Processamento de Dados

Dadas imagens de diferentes ângulos de câmera, o primeiro passo na U-HMR é extrair características 2D de cada imagem. Essas características são então enviadas para os dois componentes: CPE e AVF. O CPE usa um modelo compartilhado pra prever os parâmetros da câmera, enquanto o AVF combina características de todas as vistas pra estimativa da malha do corpo.

Representação do Corpo Humano

O modelo SMPL, que é um padrão pra representar corpos humanos, é utilizado dentro dessa estrutura. Ele permite que uma variedade de formas e poses humanas seja modelada com precisão. O modelo mapeia os parâmetros de pose e forma para representações de malha de corpos humanos.

Funções de Perda

Pra treinar a estrutura U-HMR de forma eficaz, uma combinação de funções de perda é aplicada. Isso inclui perdas baseadas na precisão das projeções 2D, erros de pontos-chave 3D, e perdas adversariais pra garantir que as poses previstas sejam realistas.

Configuração Experimental

A eficácia da U-HMR é testada usando três grandes conjuntos de dados contendo imagens de múltiplas vistas de movimentos humanos: Human3.6M, MPI-INF-3DHP e TotalCapture. Esses conjuntos de dados fornecem uma plataforma robusta pra validar o desempenho da estrutura.

Conjunto de Dados Human3.6M

Esse conjunto de dados é um benchmark pra pose humana 3D e inclui várias ações realizadas por diferentes sujeitos. Foi capturado usando câmeras sincronizadas, permitindo dados ricos de múltiplas vistas que são ideais pra testar métodos de recuperação de malha.

Conjunto de Dados MPI-INF-3DHP

Esse conjunto é composto por atividades diversas capturadas de múltiplos ângulos de câmera com tecnologia de captura de movimento sem marcadores. Ele fornece dados de anotação bidimensionais e tridimensionais necessários pra avaliar a recuperação da malha.

Conjunto de Dados TotalCapture

TotalCapture inclui um grande número de quadros gravados por várias câmeras HD, junto com informações adicionais de sensores de movimento. Esse conjunto de dados é extenso, tornando-o adequado pra experimentações abrangentes.

Métricas de Avaliação

Pra avaliar o desempenho da estrutura U-HMR, várias métricas são empregadas, incluindo erro médio por posição de junta (MPJPE), erros de reconstrução e porcentagens de pontos-chave corretos (PCK). Essas métricas permitem uma avaliação detalhada de como o sistema se sai em diferentes cenários.

Detalhes da Implementação

A implementação da U-HMR usa arquiteturas populares de rede neural pra extração de características, como ResNet-50 e Transformers Visuais (ViT). O modelo é otimizado usando uma taxa de aprendizado adaptativa e é treinado em GPUs de alto desempenho pra processamento eficiente.

Estudos de Ablação

Uma série de estudos de ablação são conduzidos pra avaliar os diferentes componentes e designs de arquitetura da U-HMR. Esses estudos ajudam a identificar as configurações mais eficazes para a recuperação de malha humana.

Avaliação de Desacoplamento e Fusão

O impacto de desacoplar as tarefas de estimativa de pose da câmera e recuperação da malha do corpo é examinado. O estudo mostra que essa escolha de design melhora a flexibilidade e o desempenho em comparação com modelos que não separam essas tarefas.

Número de Vistas

Uma análise adicional é realizada pra ver como a U-HMR se adapta a diferentes números de vistas de câmera. Essa capacidade de lidar com diferentes configurações sem necessidade de re-treinamento reforça os pontos fortes da estrutura.

Comparação com Métodos de Última Geração

A U-HMR é comparada com vários métodos existentes, tanto de visão única quanto de múltiplas vistas, assim como métodos que exigem calibração de câmera. Os resultados indicam que a U-HMR alcança desempenho de última geração sem precisar de configurações ou setups complexos.

Carga Computacional

Uma análise da eficiência da estrutura mostra que ela mantém uma baixa carga computacional enquanto ainda entrega resultados de alta qualidade. Essa eficiência a torna adequada pra aplicações do mundo real.

Sensibilidade à Entrada

A resiliência da estrutura U-HMR é testada usando imagens com detecções imprecisas. Os resultados indicam que a U-HMR é robusta, mesmo quando as imagens de entrada não estão perfeitamente alinhadas ou cortadas.

Resultados de Visualização

Saídas visuais da estrutura U-HMR mostram sua capacidade de recuperar a malha humana a partir de vistas de câmera arbitrárias. Isso inclui exemplos de perspectivas de câmera não vistas, demonstrando a adaptabilidade da estrutura.

Conclusão

A estrutura de Recuperação Unificada de Malha Humana oferece uma abordagem simples e flexível pra recuperar dados de malha humana a partir de múltiplas imagens. Ao desacoplar a estimativa de pose da câmera e a recuperação da malha, a estrutura lida de forma eficiente com a variabilidade das vistas da câmera. Os resultados de vários conjuntos de dados destacam sua eficácia e potencial pra aplicações práticas em campos como realidade virtual e interação humano-computador. A U-HMR se destaca pela sua capacidade de trabalhar com números variados de vistas e ângulos de câmera arbitrários, tornando-a uma contribuição valiosa pro campo da recuperação de malha humana.

Fonte original

Título: Human Mesh Recovery from Arbitrary Multi-view Images

Resumo: Human mesh recovery from arbitrary multi-view images involves two characteristics: the arbitrary camera poses and arbitrary number of camera views. Because of the variability, designing a unified framework to tackle this task is challenging. The challenges can be summarized as the dilemma of being able to simultaneously estimate arbitrary camera poses and recover human mesh from arbitrary multi-view images while maintaining flexibility. To solve this dilemma, we propose a divide and conquer framework for Unified Human Mesh Recovery (U-HMR) from arbitrary multi-view images. In particular, U-HMR consists of a decoupled structure and two main components: camera and body decoupling (CBD), camera pose estimation (CPE), and arbitrary view fusion (AVF). As camera poses and human body mesh are independent of each other, CBD splits the estimation of them into two sub-tasks for two individual sub-networks (ie, CPE and AVF) to handle respectively, thus the two sub-tasks are disentangled. In CPE, since each camera pose is unrelated to the others, we adopt a shared MLP to process all views in a parallel way. In AVF, in order to fuse multi-view information and make the fusion operation independent of the number of views, we introduce a transformer decoder with a SMPL parameters query token to extract cross-view features for mesh recovery. To demonstrate the efficacy and flexibility of the proposed framework and effect of each component, we conduct extensive experiments on three public datasets: Human3.6M, MPI-INF-3DHP, and TotalCapture.

Autores: Xiaoben Li, Mancheng Meng, Ziyan Wu, Terrence Chen, Fan Yang, Dinggang Shen

Última atualização: 2024-06-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2403.12434

Fonte PDF: https://arxiv.org/pdf/2403.12434

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes