Avanços nas Técnicas de Reconstrução de Forma 3D
Explorando métodos eficazes para reconstrução realista de formas usando Gaussianos 3D.
― 9 min ler
Índice
- Introdução
- Melhorando Fuzzy Metaballs
- Trabalhos Relacionados
- Interseções Raio-Forma
- Mistura Ponderada e Modelos Simplificados
- Processo de Reconstrução de Forma
- Usando Fluxo Óptico pra Melhorar a Reconstrução
- Exportando pra Malhas
- Interoperabilidade das Técnicas
- Dividindo e Modificando Gaussianos
- Conclusão
- Fonte original
- Ligações de referência
Reconstrução de formas rápida e confiável é super importante pra várias tarefas de visão computacional, tipo robôs e headsets de realidade mista. Essas tecnologias precisam reconhecer e criar modelos de objetos do dia a dia. Existem métodos tradicionais, mas técnicas recentes buscam criar imagens mais realistas. Um método que se destaca é o Neural Radiance Fields (NeRF), que usa muita potência computacional pra fazer isso rápido e com precisão. Outros métodos novos surgiram, usando formas mais simples chamadas Gaussianos 3D.
Esse artigo descreve formas de tornar essas técnicas mais novas mais fáceis de usar e melhores pra criar formas realistas. Adicionamos recursos como Fluxo Óptico diferenciável, que melhora a aparência dessas formas, e também criamos Malhas à prova d'água que podem ser usadas em várias aplicações. Mostramos também como dois métodos recentes funcionam bem juntos e podem melhorar os resultados um do outro. Os resultados dessas técnicas são rápidos, confiáveis e podem ser usados tanto em GPUs quanto em CPUs.
Introdução
Com as tecnologias de visão computacional sendo cada vez mais usadas na vida diária, os usuários querem que esses sistemas reconstruam com precisão objetos do dia a dia. Técnicas tradicionais de reconstrução de cenas em múltiplas visões podem ser usadas, mas métodos mais novos buscam uma qualidade melhor nas cenas geradas. NeRF é um exemplo proeminente que melhora o realismo dos visuais gerados, mas precisa de muitos recursos computacionais. Tecnologias duradouras como Fuzzy Metaballs e 3D Gaussian Splatting surgiram como alternativas mais rápidas.
Esses métodos recentes usam Gaussianos 3D, que são formas simples que ajudam a reconstruir as cenas rapidamente. Nesse artigo, apresentamos formas de melhorar a técnica Fuzzy Metaballs e mostramos como ela pode funcionar com métodos Gaussian Splatting.
Melhorando Fuzzy Metaballs
O método Fuzzy Metaballs originalmente usava vários parâmetros que podiam adicionar complexidade. Desenvolvemos uma versão mais simples pra reconstrução de formas usando Gaussianos 3D. Esse novo design remove hiperparâmetros desnecessários, tornando tudo mais fácil de usar.
Além disso, mostramos como esses métodos podem renderizar cenas sem configurações complexas. Também introduzimos um método de fluxo óptico por pixel, que ajuda a melhorar o processo de reconstrução ao fornecer informações de movimento mais detalhadas. Além disso, demonstramos como exportar formas definidas por Gaussianos 3D em malhas, que podem ser usadas em vários programas de software.
Trabalhos Relacionados
Existem várias abordagens existentes usando Gaussianos 3D, incluindo Fuzzy Metaballs e 3D Gaussian Splatting. Esses métodos se baseiam em conceitos anteriores que criam formas a partir de observações parciais. A maioria dos métodos tradicionais depende de malhas triangulares e nuvens de pontos, mas o surgimento de renderizadores diferenciáveis permite resultados mais rápidos e de maior qualidade.
O uso de Gaussianos 3D na renderização começou com trabalhos iniciais que os estabeleceram como uma forma de construir formas. Isso criou a base para técnicas modernas que também os incorporam como parte de sua representação de forma. Métodos recentes conectam renderizadores estilo NeRF a representações de malha, permitindo ainda mais aplicações dessas abordagens.
Interseções Raio-Forma
Pra entender como Gaussianos 3D e raios se cruzam nesses métodos, existem algumas maneiras de abordar isso. Alguns métodos seguem a família NeRF e classificam todas as interseções pra criar uma imagem mais suave. A técnica Fuzzy Metaballs introduziu um método pra misturar interseções de forma mais eficiente.
As interseções entre raios e Gaussianos são computadas separadamente e combinadas com uma média ponderada. Cada Gaussiano é definido usando sua média e peso, a partir dos quais a distância é calculada pra uma melhor mistura.
Esboçamos algumas técnicas que podem ser usadas pra processamento de interseções. Todos os métodos produzem resultados similares, permitindo transições fáceis entre as diferentes técnicas.
Mistura Ponderada e Modelos Simplificados
No design original de Fuzzy Metaballs, cinco hiperparâmetros eram necessários pra calcular pesos de mistura e transparência. Porém, na nossa versão simplificada, descobrimos que três desses parâmetros não são necessários pra uma reconstrução de forma eficaz. Esse modelo de dois parâmetros permite uma abordagem mais direta.
Na nossa exploração de um método separado que requer a ordenação de todas as interseções pra composição alfa, descobrimos que esse método é mais lento, mas dá resultados comparáveis. Podemos usar esse método pra melhorar ainda mais a eficiência dos pesos de mistura pra cálculos de normal, cor e profundidade.
Processo de Reconstrução de Forma
Pra reconstrução de forma, nosso sistema usa entrada de vídeo junto com um único quadro mascarado. O processo começa com uma ferramenta existente que gera poses, propaga máscaras e calcula fluxo. A otimização rapidamente adapta Gaussianos 3D com base nesses dados.
Nossa implementação é construída em uma estrutura que permite lidar efetivamente com tarefas tanto de CPU quanto de GPU. Normalmente, conseguimos reconstruir formas em menos de um minuto usando cerca de 40 Gaussianos, o que facilita comparações com trabalhos anteriores.
Ao conduzir experimentos, usamos várias funções de perda derivadas de entropia cruzada para máscaras de segmentação e outras perdas para cor e fluxo. Isso significa que podemos otimizar diferentes parâmetros simultaneamente pra alcançar um resultado sólido.
Usando Fluxo Óptico pra Melhorar a Reconstrução
Muitos métodos de reconstrução 3D focam de forma estreita em imagens independentes de uma sequência dada. Porém, na real, essas imagens geralmente são coletadas em sequências de vídeo que fornecem informações úteis sobre como os objetos estão posicionados no tempo. Nós aproveitamos o fluxo óptico pra tornar a reconstrução de formas mais precisa.
O fluxo óptico atua como um guia pra correspondência de superfícies, que é crucial pra calcular formas com precisão. Usando o fluxo óptico, ganhamos um sinal mais confiável que lida melhor com mudanças nas condições de iluminação. Os resultados mostram que incorporar fluxo óptico melhora a reconstrução de formas, mesmo que isso possa impactar levemente a precisão das cores.
Usando nosso sistema baseado em raios, conseguimos computar fluxo óptico em cada pixel, facilitando a estimativa de movimento no espaço 3D. Os resultados demonstram que o fluxo óptico melhora significativamente a clareza dos mapas de profundidade e os contornos gerais das formas.
Exportando pra Malhas
A maioria das técnicas de renderização depende de definições de superfícies suaves e macias. No entanto, aplicações práticas muitas vezes precisam de malhas claras e à prova d'água. Métodos tradicionais de exportação de malhas tendem a produzir saídas ásperas e não à prova d'água. Nesse trabalho, em vez disso, usamos um método que aproveita as superfícies suaves definidas por Gaussianos 3D pra criar malhas bem formadas.
Pra isso, coletamos pontos e suas orientações a partir das visões de treinamento, permitindo uma recriação eficiente da malha. Podemos usar dois métodos diferentes pra definir orientações normais, sendo a definição misturada preferida por sua simplicidade.
A saída final pode ser uma nuvem de pontos colorida e orientada que preserva as cores originais, tornando-a compatível com ferramentas comumente usadas no processo de criação 3D.
Interoperabilidade das Técnicas
Mostramos como as técnicas Fuzzy Metaballs e 3D Gaussian Splatting compartilham um terreno comum em termos de representação de forma. Ambos os métodos são compatíveis entre si, permitindo flexibilidade na abordagem. Mostramos que reconstruções de um método podem ser renderizadas com sucesso usando técnicas do outro.
Convertendo entre os dois métodos, encontramos eficiências de desempenho. Ambas as técnicas capturam formas detalhadas, com a abordagem de mistura ponderada gerando normais suaves, enquanto as exportações de malha mantêm informações de cor precisas.
Dividindo e Modificando Gaussianos
Enquanto trabalhos anteriores se concentravam em heurísticas pra mesclar e dividir Gaussianos, apresentamos um método claro pra ajustar a contagem de Gaussianos em uma reconstrução. Após um modelo inicial convergir, dividimos os Gaussianos 3D com base em suas contribuições e repetimos a otimização.
Identificamos Gaussianos que contribuem minimamente para a forma geral e dividimos aqueles que carregam responsabilidade demais. Nosso método foca em maximizar detalhes de uma maneira organizada, resultando em reconstruções melhoradas.
Conclusão
Com os sistemas de visão computacional sendo cada vez mais usados em ambientes do dia a dia, a necessidade de reconstruções de forma eficientes e flexíveis cresce. Avanços recentes nas técnicas de renderização se aproximam mais da realização de representações 3D realistas. Ao ampliar métodos existentes usando Gaussianos 3D, criamos ferramentas mais acessíveis pra aplicações práticas.
A conexão entre mistura ponderada e composição alfa introduz uma gama de opções pros usuários, enfatizando velocidade e simplicidade. O melhor manuseio das exportações de malha proporciona um link contínuo com outras técnicas 3D. Além disso, a integração do fluxo óptico resulta em melhorias significativas na qualidade das formas.
Em resumo, essas inovações apresentam um caminho pra usar essas representações 3D Gaussianas flexíveis em várias aplicações e ambientes computacionais.
Título: Flexible Techniques for Differentiable Rendering with 3D Gaussians
Resumo: Fast, reliable shape reconstruction is an essential ingredient in many computer vision applications. Neural Radiance Fields demonstrated that photorealistic novel view synthesis is within reach, but was gated by performance requirements for fast reconstruction of real scenes and objects. Several recent approaches have built on alternative shape representations, in particular, 3D Gaussians. We develop extensions to these renderers, such as integrating differentiable optical flow, exporting watertight meshes and rendering per-ray normals. Additionally, we show how two of the recent methods are interoperable with each other. These reconstructions are quick, robust, and easily performed on GPU or CPU. For code and visual examples, see https://leonidk.github.io/fmb-plus
Autores: Leonid Keselman, Martial Hebert
Última atualização: 2023-08-28 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.14737
Fonte PDF: https://arxiv.org/pdf/2308.14737
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.