Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Reconstruindo Cenas Dinâmicas com o DySurf

Um novo método pra criar reconstruções de cenas dinâmicas realistas a partir de vídeos de múltiplas perspectivas.

― 6 min ler


DySurf: Inovação em CenaDySurf: Inovação em CenaDinâmicadinâmicas com técnicas novas.Avançando a reconstrução de cenas
Índice

Reconstruir cenas em movimento é importante pra várias áreas, tipo gráficos de computador e visão. Métodos recentes usam tecnologias novas pra fazer imagens realistas a partir de vídeos de Cenas Dinâmicas. Mas, às vezes, esses métodos têm dificuldade em capturar a verdadeira forma dos objetos. Pra melhorar isso, a gente apresenta uma nova abordagem que torna possível criar formas e aparências a partir de vídeos sem depender de modelos de forma anteriores.

Contexto

No mundo da visão computacional, surgiram novas técnicas pra representar cenas através de redes neurais. O campo de radiação neural (NeRF) é um desses métodos que mostra como representar uma cena codificando sua geometria e aparência. Isso permite criar visões realistas de diferentes ângulos. Mas o NeRF original foi feito pra cenas estáticas, e depois, métodos focados em cenas dinâmicas costumam ter dificuldade em capturar a geometria com precisão.

Alguns métodos usam a função de distância assinada (SDF) pra representar superfícies, que consegue gerenciar a geometria de forma mais eficaz. Porém, essas abordagens lidam principalmente com cenas estáticas. Outras pesquisas analisaram modelos corporais articulados pra humanos dinâmicos, mas esses métodos precisam de modelos específicos que limitam seu uso em situações mais amplas.

Método Proposto

Pra resolver esses desafios, a gente apresenta o DySurf, um novo método pra reconstruir cenas dinâmicas a partir de várias visões de vídeo sem precisar de conhecimento específico sobre formas. O DySurf mapeia pontos de visões de câmeras pra um espaço canônico, permitindo que o modelo acompanhe mudanças ao longo do tempo. Isso é crucial pra gerenciar as mudanças complexas nas formas que acontecem em cenas em movimento.

Pra renderizar, usamos uma combinação de redes neurais pra representar a forma da superfície e a aparência de um jeito que permite imagens claras e realistas. Uma inovação significativa na nossa abordagem é uma nova estratégia de seleção de pixels pra focar durante o processo de otimização, especialmente em áreas onde o movimento é dinâmico.

Entrada e Dados

Nosso método aceita como entrada vídeos multi-visão que incluem vários quadros e visões da cena. Isso inclui imagens e máscaras de segmentação que ajudam a diferenciar entre o objeto e o fundo. As configurações da câmera, que são críticas pra renderização precisa, também são fornecidas e geralmente requerem um processo de calibração pra serem determinadas.

O objetivo é criar uma representação consistente da cena dinâmica ao longo do tempo, permitindo que a gente recupere formas de alta qualidade e produza imagens realistas de novos ângulos.

Representação da Superfície

No nosso método, a gente introduz um campo de deformação que conecta as observações capturadas pelas câmeras a um espaço básico onde podemos explorar a geometria e a aparência subjacentes. Usamos uma rede especializada que permite uma representação flexível das várias formas em uma cena dinâmica.

Usamos um SDF neural pra modelar as formas das superfícies, o que ajuda a gerar normais mais claras pra a superfície. Isso, por sua vez, ajuda a distinguir entre a geometria e a aparência de forma eficaz. Pra renderização, seguimos métodos específicos pra converter valores SDF em densidade, permitindo uma integração precisa do volume.

Estratégia de Seleção de Raios

Métodos tradicionais costumam amostrar pixels de forma uniforme de toda a imagem pra treinamento, o que pode levar a resultados ruins, já que muito do fundo pode não contribuir pra a reconstrução final. Pra lidar com isso, a gente desenvolveu uma nova estratégia de seleção de raios baseada em máscaras que destacam regiões de interesse.

A estratégia envolve criar um mapa de probabilidade que guia nossa amostragem de pixels pra focar em áreas significativas, especialmente aquelas onde há movimento. Isso melhora o processo de otimização pra as regiões dinâmicas em primeiro plano, enquanto também aborda o fundo de forma eficaz.

Função de Perda

Durante o treinamento, nosso objetivo é minimizar as diferenças entre as cores renderizadas pelo nosso modelo e as cores reais nas imagens. Também aplicamos funções de perda adicionais pra supervisionar a geometria e regularizar o comportamento do modelo pra garantir um desempenho melhor durante o processo de reconstrução.

Configuração Experimental

Nossos experimentos são realizados em dois conjuntos de dados contendo uma variedade de sujeitos mostrando diferentes movimentos e poses. Os conjuntos de dados incluem capturas de vídeo de várias câmeras em alta resolução. Após o processo de treinamento, extraímos modelos de superfície pra representar as cenas reconstruídas.

Resultados e Comparações

Fizemos comparações qualitativas pra avaliar o desempenho do nosso método em relação às técnicas existentes. Nosso método lida eficientemente com movimentos complexos, preservando as formas e detalhes dos objetos, enquanto métodos anteriores lutavam pra reconstruir esses detalhes com precisão.

Ao gerar imagens de ângulos não incluídos nos dados de treinamento, nosso método produziu imagens com menos artefatos. Avaliamos a qualidade da renderização usando métricas específicas pra comparar nossos resultados com os produzidos por outras técnicas.

Conclusão

Nesse estudo, apresentamos o DySurf, uma nova abordagem pra reconstruir cenas dinâmicas a partir de vídeos multi-visão usando representações neurais implícitas. Nosso método captura eficientemente as formas e aparências sem precisar de conhecimento prévio das cenas envolvidas. Ao utilizar um campo de deformação e focar nossa otimização em áreas dinâmicas, melhoramos significativamente a qualidade das reconstruções de superfície e o realismo das imagens geradas. Nossos experimentos demonstram que o DySurf supera métodos existentes, estabelecendo-o como uma ferramenta robusta e eficaz pra reconstrução de cenas dinâmicas.

Trabalho Futuro

Olhando pra frente, planejamos expandir a aplicação do nosso método pra cenas ainda mais complexas e diferentes tipos de objetos. Também estamos interessados em explorar diferentes arquiteturas pras redes neurais envolvidas e otimizar ainda mais o processo de seleção de raios. O objetivo final é tornar nossa abordagem adaptável a uma gama mais ampla de cenários, melhorando a robustez e a precisão da reconstrução de cenas dinâmicas.

Fonte original

Título: Dynamic Multi-View Scene Reconstruction Using Neural Implicit Surface

Resumo: Reconstructing general dynamic scenes is important for many computer vision and graphics applications. Recent works represent the dynamic scene with neural radiance fields for photorealistic view synthesis, while their surface geometry is under-constrained and noisy. Other works introduce surface constraints to the implicit neural representation to disentangle the ambiguity of geometry and appearance field for static scene reconstruction. To bridge the gap between rendering dynamic scenes and recovering static surface geometry, we propose a template-free method to reconstruct surface geometry and appearance using neural implicit representations from multi-view videos. We leverage topology-aware deformation and the signed distance field to learn complex dynamic surfaces via differentiable volume rendering without scene-specific prior knowledge like template models. Furthermore, we propose a novel mask-based ray selection strategy to significantly boost the optimization on challenging time-varying regions. Experiments on different multi-view video datasets demonstrate that our method achieves high-fidelity surface reconstruction as well as photorealistic novel view synthesis.

Autores: Decai Chen, Haofei Lu, Ingo Feldmann, Oliver Schreer, Peter Eisert

Última atualização: 2023-02-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.00050

Fonte PDF: https://arxiv.org/pdf/2303.00050

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes