Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanço da Modelagem 3D a partir de Filmagens em Vídeo

Um novo método fornece modelos 3D detalhados a partir de vídeo de forma rápida e eficiente.

― 7 min ler


Técnicas de Modelagem 3DTécnicas de Modelagem 3Dde Próxima Geraçãopartir de gravações de vídeo.Novo método revoluciona modelagem 3D a
Índice

Recriar um Modelo 3D de uma pessoa a partir de vídeos é uma tarefa complicada. Tem vários desafios, como como as roupas ficam, partes do corpo que podem ficar escondidas, mudanças bruscas de posição e as diferentes texturas na superfície. Muitos métodos atuais usam técnicas avançadas para representar pessoas, mas essas abordagens muitas vezes não conseguem lidar com as complicações que vêm das roupas e outros detalhes.

Neste artigo, apresentamos uma nova forma de criar um modelo 3D detalhado de uma pessoa usando apenas vídeos, silhuetas simples e alguns pontos de referência. Nosso processo acelera o tempo necessário para gerar esses modelos e permite capturar mais detalhes em comparação com os métodos mais antigos.

Desafios na Reconstrução 3D

Criar um modelo 3D de uma pessoa a partir de vídeos pode ser complicado. Os principais problemas incluem:

  1. Roupas: Diferentes tipos de roupas podem parecer muito diferentes dependendo de como se encaixam e se movimentam. Roupas soltas, saias e itens com designs intrincados podem ser especialmente difíceis de modelar com precisão.

  2. Oclusão: Às vezes, partes do corpo ficam escondidas da câmera. Por exemplo, quando um braço cruza na frente do outro, isso pode criar confusão na hora de construir o modelo 3D.

  3. Mudanças de Textura: Pele, cabelo e roupas têm diferentes texturas que precisam ser capturadas de forma precisa para criar um modelo realista.

  4. Mudanças de Posição: As pessoas se movimentam nos vídeos, e seus corpos podem mudar de posição rapidamente. Capturar essas mudanças é necessário para precisão.

Limitações dos Métodos Atuais

Muitas técnicas atuais dependem de escaneamentos detalhados que podem produzir resultados de alta qualidade. Porém, esses escaneamentos costumam ser caros e não práticos para uso diário. Alguns sistemas recentes de visão computacional conseguem criar modelos a partir de fotos ou vídeos comuns, mas muitas vezes dependem de um único ponto de vista, o que dificulta obter uma imagem completa da estrutura 3D.

Mesmo usando múltiplas câmeras ou vídeos em 360 graus, muitas vezes é necessário um grande poder de processamento para combinar todas as imagens em um único modelo coeso. Isso pode tornar o processo lento e desafiador.

Nossa Abordagem

Estamos apresentando uma nova maneira de criar modelos 3D detalhados que podem se adaptar a diferentes movimentos e estilos usando apenas vídeos. Usando um modelo 3D simples chamado SMPL+D e combinando-o com métodos inteligentes de representação de textura, conseguimos produzir resultados rápidos e claros.

Características Principais do Nosso Método

  • Velocidade: Nossa abordagem acelera o tempo necessário para criar modelos 3D significativamente, permitindo a geração de modelos detalhados em menos de uma hora, em comparação com métodos tradicionais que podem levar dias.
  • Eficiência: O sistema é projetado para funcionar bem em hardware padrão de consumidor, tornando-o acessível para mais usuários.
  • Detalhe: Capturamos formas e texturas complicadas em roupas e cabelos, permitindo modelos realistas e personalizados.

Comparação com Técnicas Anteriores

Alguns métodos se tornaram populares recentemente para criar modelos humanos 3D. Eles incluem várias técnicas avançadas, mas também tendem a ter limitações. A maioria desses métodos pode ser lenta e exigir uma quantidade significativa de poder computacional. Nossa técnica supera essas em termos de velocidade e eficiência, mantendo a qualidade visual necessária para representações 3D realistas.

Forças dos Métodos Baseados em Malha

Métodos baseados em malha, como o nosso, se concentram em usar uma estrutura definida para capturar detalhes sem precisar de tanto poder computacional. Isso é especialmente benéfico ao trabalhar com diferentes pontos de vista, onde a malha pode ajudar a preencher lacunas deixadas por métodos tradicionais.

Quebra Técnica

Na nossa metodologia, usamos:

  1. Imagens RGB: Essas são imagens padrão tiradas do vídeo. Elas fornecem os detalhes básicos para textura e cor.

  2. Silhuetas: Extraindo o contorno de uma pessoa no vídeo, conseguimos entender melhor a forma e a posição do corpo.

  3. Pontos-chave 2D: Esses são pontos cruciais no corpo, como onde os cotovelos e joelhos estão localizados. Eles ajudam a guiar a forma do modelo.

Otimização

Combinamos esses elementos em um problema de otimização. O objetivo é fazer ajustes no nosso modelo 3D para que ele se aproxime do que é observado no vídeo, garantindo que todos os detalhes se alinhem. Isso nos permite produzir uma representação 3D altamente detalhada e precisa.

Aspectos Únicos do Nosso Método

Propondo uma nova maneira de olhar para métodos tradicionais, focamos na otimização de um modelo de malha. Aqui estão alguns aspectos únicos:

  1. Otimização em Duas Etapas: Nosso processo usa uma abordagem cuidadosa em duas etapas. Primeiro, focamos em alinhar a forma geral com base na cor. Depois, refinamos a textura separadamente para garantir a melhor correspondência.

  2. Texturização Multirresolução: Usando um método inteligente de texturização, conseguimos capturar detalhes finos de forma eficiente. Isso garante que não desperdicemos recursos em áreas que não precisam de alta resolução.

  3. Renderização Diferenciável Suave: Essa técnica nos permite considerar partes ocultas do corpo para ajustar como a renderização aparece. É crucial para gerenciar poses onde partes do corpo podem estar escondidas da vista.

Resultados e Conclusões

Testamos nosso método em comparação com outras técnicas e descobrimos que ele tem um desempenho muito bom.

Critérios de Avaliação

Focamos em várias áreas-chave:

  • Síntese de Novas Visões: Isso se refere à capacidade de criar novas visões da pessoa que não estavam presentes no vídeo original. Nosso método se destaca nisso.

  • Velocidade de Treinamento e Inferência: Nosso método é muito mais rápido que os outros, permitindo ajustes e renderizações rápidas.

  • Qualidade da Reconstrução Geométrica: A precisão da forma que produzimos é significativamente maior em comparação com métodos antigos.

Desempenho em Relação a Outros Métodos

Quando colocamos lado a lado com métodos populares, nossa abordagem mostrou desempenho superior em velocidade e qualidade. Ela captura com sucesso detalhes intrincados como roupas soltas e texturas, que outros métodos têm dificuldade.

Aplicações do Nosso Método

A capacidade de criar modelos humanos 3D precisos e detalhados tem várias possíveis aplicações em diferentes áreas:

  • Teleconferência: Criar avatares personalizados que podem ser usados durante chamadas de vídeo.

  • Entretenimento: Fazer personagens realistas para filmes ou jogos baseados em pessoas reais.

  • Vigilância: Aumentar a precisão do rastreamento humano em filmagens de segurança.

  • Geração de Dados Sintéticos: Produzir dados de treinamento para outros sistemas de IA sem precisar de tempo adicional de gravação.

Conclusão

Os métodos tradicionais de criar modelos humanos 3D a partir de vídeos muitas vezes enfrentam grandes obstáculos em termos de velocidade, eficiência e precisão. Nossa nova abordagem toma um caminho diferente ao focar em combinar um modelo de malha simples com técnicas inteligentes para produzir representações detalhadas e realistas.

Com melhorias significativas em velocidade e captura de detalhes, oferecemos uma alternativa viável aos métodos existentes. Essa tecnologia abre novas possibilidades em várias aplicações, facilitando a criação de modelos 3D personalizados para qualquer caso de uso. O futuro da reconstrução 3D parece promissor com essa nova abordagem, ampliando os limites do que é possível na criação de avatares humanos a partir de vídeos comuns.

Fonte original

Título: Mesh Strikes Back: Fast and Efficient Human Reconstruction from RGB videos

Resumo: Human reconstruction and synthesis from monocular RGB videos is a challenging problem due to clothing, occlusion, texture discontinuities and sharpness, and framespecific pose changes. Many methods employ deferred rendering, NeRFs and implicit methods to represent clothed humans, on the premise that mesh-based representations cannot capture complex clothing and textures from RGB, silhouettes, and keypoints alone. We provide a counter viewpoint to this fundamental premise by optimizing a SMPL+D mesh and an efficient, multi-resolution texture representation using only RGB images, binary silhouettes and sparse 2D keypoints. Experimental results demonstrate that our approach is more capable of capturing geometric details compared to visual hull, mesh-based methods. We show competitive novel view synthesis and improvements in novel pose synthesis compared to NeRF-based methods, which introduce noticeable, unwanted artifacts. By restricting the solution space to the SMPL+D model combined with differentiable rendering, we obtain dramatic speedups in compute, training times (up to 24x) and inference times (up to 192x). Our method therefore can be used as is or as a fast initialization to NeRF-based methods.

Autores: Rohit Jena, Pratik Chaudhari, James Gee, Ganesh Iyer, Siddharth Choudhary, Brandon M. Smith

Última atualização: 2023-03-15 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.08808

Fonte PDF: https://arxiv.org/pdf/2303.08808

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes