Inovações nas Técnicas de Estrutura a Partir do Movimento
Novo método melhora a eficiência da reconstrução 3D a partir de imagens.
― 6 min ler
A Estrutura a partir do movimento (SfM) é um método usado em visão computacional pra entender como uma cena tá disposta em três dimensões usando imagens. Isso é super útil pra várias aplicações, como carros autônomos, realidade virtual e criação de modelos 3D a partir de fotos.
O que é SfM?
No fundo, SfM é sobre pegar imagens e descobrir a posição das câmeras que tiraram aquelas fotos e as formas dos objetos na cena. Isso é feito procurando por características comuns nas imagens, como pontos, bordas ou texturas, e usando isso pra reconstruir a estrutura 3D do ambiente.
Desafios com SfM
Tem dois tipos principais de dados de imagem usados no SfM: imagens desordenadas e imagens sequenciais.
Imagens Desordenadas: Essas são imagens coletadas de várias fontes sem nenhuma ordem específica. Por exemplo, fotos da internet podem ser consideradas desordenadas. Essas imagens podem ser difíceis de processar porque podem não ter sobreposições ou conexões claras.
Imagens Sequenciais: Essas são imagens tiradas em sequência, como um vídeo. Como há uma ordem natural e sobreposição entre essas imagens, é mais fácil pro SfM determinar como as imagens se relacionam.
O desafio com imagens desordenadas é que leva mais tempo e poder de processamento pra identificar como elas se conectam. Por outro lado, enquanto imagens sequenciais são mais fáceis de trabalhar, muitas aplicações precisam da capacidade de combinar diferentes tipos de imagens.
A Necessidade de Eficiência
Pra aplicações práticas, é importante reconstruir rapidamente e com precisão uma cena a partir de imagens. Métodos tradicionais de SfM costumam ser lentos, especialmente com imagens desordenadas, e eles precisam de muito poder computacional.
Novas Abordagens pro SfM
Pra resolver esses desafios, os pesquisadores desenvolveram um novo método que foca em melhorar a eficiência do SfM usando um conceito conhecido como covisibilidade. Covisibilidade é usado pra descrever como as imagens se relacionam com base nas características comuns que elas compartilham.
Esse método permite uma combinação de imagens desordenadas e sequenciais de forma coerente. Usando covisibilidade, o método identifica quais imagens estão relacionadas e acelera o processo de Reconstrução.
Como o Novo Método Funciona
Relacionamentos de Covisibilidade: O novo método cria uma conexão entre imagens identificando características compartilhadas. Isso ajuda a prever quais imagens provavelmente vão se sobrepor, acelerando o processo de correspondência.
Estrutura Unificada: A nova abordagem permite um sistema único que pode lidar com diferentes tipos de dados de imagem. Ao invés de tratar imagens sequenciais e desordenadas separadamente, esse método funciona com ambos.
Seleção de Keyframes: Um processo chave nesse método é escolher keyframes. Keyframes são imagens importantes que representam diferentes partes da cena. Focando nesses keyframes, o sistema pode reduzir o número de imagens que precisa processar, o que acelera a reconstrução.
Exemplos de Aplicação
Reconstruções de Cidades Inteligentes: Ao reconstruir cidades usando imagens de várias fontes, como vídeos de veículos ou imagens aéreas, esse novo método pode gerenciar os tipos mistos de dados de maneira eficaz e eficiente.
Reconstruções de Monumentos: O método também pode ser aplicado pra reconstruir monumentos famosos, reunindo imagens da internet, incluindo fotos e vídeos, oferecendo uma visão abrangente.
Benefícios da Nova Abordagem
Velocidade: O novo método é bem mais rápido que os métodos tradicionais. Ele pode processar imagens e reconstruir cenas muito mais rápido, tornando-o prático para aplicações em tempo real.
Precisão: Apesar da velocidade, o método não compromete a qualidade da reconstrução. Ele fornece posições de câmera precisas e modelos 3D.
Versatilidade: Ele pode ser aplicado a vários tipos de dados de imagem, sejam sequenciais, desordenadas ou uma mistura de ambas.
O Processo de Correspondência
O método começa identificando características nas imagens. Cada imagem é dividida em regiões menores, e características dentro dessas regiões são comparadas.
Correspondência Inicial: Isso envolve combinar características das imagens mais próximas com base em seus pontos comuns.
Correspondência Iterativa: O sistema então passa por várias rodadas de correspondência, refinando gradualmente as conexões entre as imagens com base nas relações de covisibilidade.
Verificação de Erros: Um aspecto importante do processo de reconstrução é verificar se há erros. O método inclui uma maneira de detectar e corrigir erros geométricos nas imagens pra garantir a precisão do modelo 3D final.
Estágio de Reconstrução
Uma vez que as imagens estão combinadas, o sistema passa pro estágio de reconstrução. Isso envolve usar as combinações pra estimar os pontos 3D da cena.
Estimativa da Posição da Câmera: O método calcula onde cada câmera estava posicionada quando tirou as fotos, baseado nas correspondências.
Criação do Mapa: Os pontos 3D são então usados pra criar um mapa da cena, dando uma representação visual da estrutura.
Aplicações do Mundo Real
Esse método tem várias aplicações no mundo real:
Robótica: Em robôs autônomos, esse método ajuda a navegar por ambientes entendendo a disposição espacial dos objetos.
Realidade Aumentada: Em aplicações de realidade aumentada, ele permite a colocação de objetos virtuais de uma maneira realista ao entender com precisão o espaço físico.
Patrimônio Cultural: Pode ser usado pra criar modelos 3D detalhados de sítios históricos, ajudando em esforços de preservação.
Conclusão
Os avanços nas técnicas de Estrutura a partir do Movimento, especialmente através do uso de covisibilidade, oferecem um novo nível de eficiência e precisão na reconstrução de ambientes 3D a partir de imagens. Isso é especialmente importante à medida que o uso de fontes variadas de imagens se torna mais comum em muitos campos. A capacidade de lidar tanto com imagens desordenadas quanto sequenciais de maneira unificada abre novas possibilidades pra aplicações em visão computacional, robótica e realidade aumentada.
Título: EC-SfM: Efficient Covisibility-based Structure-from-Motion for Both Sequential and Unordered Images
Resumo: Structure-from-Motion is a technology used to obtain scene structure through image collection, which is a fundamental problem in computer vision. For unordered Internet images, SfM is very slow due to the lack of prior knowledge about image overlap. For sequential images, knowing the large overlap between adjacent frames, SfM can adopt a variety of acceleration strategies, which are only applicable to sequential data. To further improve the reconstruction efficiency and break the gap of strategies between these two kinds of data, this paper presents an efficient covisibility-based incremental SfM. Different from previous methods, we exploit covisibility and registration dependency to describe the image connection which is suitable to any kind of data. Based on this general image connection, we propose a unified framework to efficiently reconstruct sequential images, unordered images, and the mixture of these two. Experiments on the unordered images and mixed data verify the effectiveness of the proposed method, which is three times faster than the state of the art on feature matching, and an order of magnitude faster on reconstruction without sacrificing the accuracy. The source code is publicly available at https://github.com/openxrlab/xrsfm
Autores: Zhichao Ye, Chong Bao, Xin Zhou, Haomin Liu, Hujun Bao, Guofeng Zhang
Última atualização: 2023-08-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2302.10544
Fonte PDF: https://arxiv.org/pdf/2302.10544
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.