Novo Método para Sintetizar Visualizações 3D a partir de Poucas Imagens
Esse método torna mais fácil criar novas vistas 3D com poucas imagens.
― 6 min ler
Índice
Este artigo discute um método inovador para criar novas Visões de cenas 3D usando apenas algumas Imagens. Tradicionalmente, fazer novas visões exige saber as posições e ângulos das câmeras que tiraram as fotos. No entanto, nossa abordagem não depende dessas informações, facilitando a criação de novas visões a partir de imagens esparsas.
O Desafio da Síntese de Visões Esparsas
Criar novas visões a partir de imagens pode ser complicado, especialmente quando não há imagens suficientes ou quando as posições das câmeras não são conhecidas. A maioria das técnicas existentes assume que as poses das câmeras estão disponíveis, o que limita sua aplicação em situações do mundo real. Quando só temos algumas imagens para trabalhar, fica um desafio real entender como recriar uma cena de forma precisa.
Nosso Método
Propomos um método chamado "construir-e-otimizar" para sintetizar novas visões sem a necessidade de posições conhecidas das câmeras. Essa técnica aproveita informações das imagens para gradualmente construir um ambiente 3D. Em vez de estimar as posições das câmeras diretamente, usamos uma combinação de informações de Profundidade e um processo para comparar diferentes imagens e refinar nosso modelo.
Passos da Nossa Abordagem
Configuração Inicial: Começamos com um conjunto de imagens e suas respectivas informações de profundidade, que nos dizem o quão longe diferentes partes da cena estão da câmera. A primeira imagem é usada como referência, e usamos suas informações para começar a construir o modelo 3D.
Retroprojeção: Pegamos a primeira imagem e projetamos de volta no mundo 3D, criando uma representação básica usando Gaussianas 3D. Isso nos dá uma ideia geral do layout da cena.
Registro de Novas Visões: Para cada nova imagem, precisamos encontrar sua posição e ângulo em relação ao modelo 3D existente. Começamos estimando a pose da câmera e, em seguida, ajustamos todas as posições de câmeras registradas anteriormente para alinhar melhor com a nova imagem.
Otimização: Durante esta etapa, ajustamos nosso modelo comparando quão bem as imagens projetadas combinam com as fotografias originais. Esse processo ajuda a eliminar erros causados pelas estimativas bruscas que fizemos antes.
Refinamento: Depois de obter uma versão grosseira da cena 3D, refinamos os detalhes usando técnicas de otimização padrão. Isso garante que a saída final seja de alta qualidade e represente a cena com precisão.
Importância da Definição da Superfície
Um aspecto crítico do nosso método é como definimos a superfície esperada em nosso modelo. A superfície não é apenas um plano plano; tem profundidade e textura. Ao usar uma definição precisa da superfície, conseguimos renderizar a cena de forma mais realista. Isso envolve usar novas maneiras de aproximar a superfície esperada com base em Gaussianas 3D, o que permite um processo de otimização melhor.
Avaliação de Desempenho
Testamos nosso método em vários conjuntos de dados conhecidos por sua complexidade. Os resultados foram promissores. Quando comparado a outros métodos existentes, nossa técnica mostrou uma qualidade significativamente melhor na síntese de novas visões. Em casos onde só havia algumas imagens disponíveis, nosso método ainda produziu resultados impressionantes.
Comparação com Técnicas Existentes
A maioria dos métodos existentes depende fortemente de posições de câmeras conhecidas, o que pode levar a imprecisões quando as poses não são confiáveis. Em contraste, nossa abordagem não requer estimativas precisas das posições das câmeras, tornando-a mais robusta em cenários práticos. Demonstramos como nosso método superou outros na geração de imagens mais claras e detalhadas a partir de entradas limitadas.
Lidando com Ambiguidades
Um dos principais desafios ao trabalhar com síntese de visões esparsas é a ambiguidade que surge por ter poucas imagens. Diferentes ângulos de câmera podem levar a várias interpretações da mesma cena. Nossa metodologia aborda isso otimizando o alinhamento entre as poses das câmeras e a cena reconstruída, o que ajuda a reduzir erros e melhorar a qualidade geral.
Usando Informações de Profundidade
As informações de profundidade são cruciais para criar novas visões. Em nossa abordagem, utilizamos estimativas de profundidade para guiar a reconstrução da cena. Isso nos permite construir um modelo mais preciso do ambiente, pois fornece contexto sobre como os objetos se relacionam entre si espacialmente.
Vantagens do Nosso Método
Menos Dependência de Poses de Câmeras: Ao não depender de posições conhecidas das câmeras, nosso método pode ser aplicado em mais situações onde informações detalhadas da câmera não estão disponíveis.
Saídas de Qualidade Superior: Nosso método mostrou produzir melhores resultados visuais, mesmo com menos imagens de treinamento em comparação a outros métodos.
Robustez: As etapas de otimização que incorporamos ajudam a garantir que nosso modelo permaneça preciso, mesmo em condições desafiadoras.
Flexibilidade na Entrada: Nossa abordagem pode lidar efetivamente com imagens desordenadas, tornando-a aplicável em cenários do mundo real onde as imagens são capturadas em sequências aleatórias.
Direções Futuras
Embora nosso método mostre potencial, ainda há áreas para melhoria. Trabalhos futuros poderiam focar em aprimorar a precisão da estimativa de profundidade, que é um componente vital para uma reconstrução de qualidade. Além disso, estender nossa abordagem para trabalhar com imagens desordenadas poderia abrir novas possibilidades na síntese de visões.
Conclusão
Em resumo, nosso método proposto para sintetizar novas visões a partir de imagens esparsas representa um avanço significativo no campo. Ao nos basearmos em uma abordagem de construir-e-otimizar sem a necessidade de poses de câmeras conhecidas, fizemos progressos na solução dos desafios associados à síntese de visões esparsas. Nossos resultados indicam um futuro promissor para aplicações em vários domínios, incluindo realidade virtual, jogos e visualização arquitetônica, onde reconstruções 3D precisas são essenciais.
Título: A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose
Resumo: Novel view synthesis from a sparse set of input images is a challenging problem of great practical interest, especially when camera poses are absent or inaccurate. Direct optimization of camera poses and usage of estimated depths in neural radiance field algorithms usually do not produce good results because of the coupling between poses and depths, and inaccuracies in monocular depth estimation. In this paper, we leverage the recent 3D Gaussian splatting method to develop a novel construct-and-optimize method for sparse view synthesis without camera poses. Specifically, we construct a solution progressively by using monocular depth and projecting pixels back into the 3D world. During construction, we optimize the solution by detecting 2D correspondences between training views and the corresponding rendered images. We develop a unified differentiable pipeline for camera registration and adjustment of both camera poses and depths, followed by back-projection. We also introduce a novel notion of an expected surface in Gaussian splatting, which is critical to our optimization. These steps enable a coarse solution, which can then be low-pass filtered and refined using standard optimization methods. We demonstrate results on the Tanks and Temples and Static Hikes datasets with as few as three widely-spaced views, showing significantly better quality than competing methods, including those with approximate camera pose information. Moreover, our results improve with more views and outperform previous InstantNGP and Gaussian Splatting algorithms even when using half the dataset. Project page: https://raymondjiangkw.github.io/cogs.github.io/
Autores: Kaiwen Jiang, Yang Fu, Mukund Varma T, Yash Belhe, Xiaolong Wang, Hao Su, Ravi Ramamoorthi
Última atualização: 2024-06-10 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2405.03659
Fonte PDF: https://arxiv.org/pdf/2405.03659
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.