Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanços na Estimativa de Profundidade com GlocalFuse-Depth

O GlocalFuse-Depth melhora a estimativa de profundidade em diferentes condições de iluminação usando uma abordagem de duas ramificações.

― 6 min ler


GlocalFuse-Depth:GlocalFuse-Depth:Inovação em Estimativa deProfundidadevariadas.profundidade em condições de iluminaçãoNovo método melhora mapas de
Índice

Nos últimos anos, os métodos para estimar profundidade a partir de imagens únicas ganharam bastante atenção. Esses métodos são úteis porque não precisam de informações de profundidade de sensores especiais, tornando-os mais acessíveis. Muitos desses métodos funcionam bem durante o dia, mas têm dificuldade à noite por causa das diferenças nas condições de iluminação. Este artigo apresenta uma nova abordagem chamada GlocalFuse-Depth, que tem como objetivo estimar profundidade a partir de imagens tiradas a qualquer hora do dia.

O Desafio da Estimativa de Profundidade

A estimativa de profundidade é uma tarefa fundamental no campo da visão computacional, que envolve atividades como mapeamento, realidade aumentada e carros autônomos. O desafio surge porque uma única imagem pode representar várias cenas tridimensionais diferentes. Isso significa que o mapa de profundidade gerado a partir da imagem pode variar bastante.

Tradicionalmente, coletar dados para estimativa de profundidade pode ser caro e demorado. Sensores como câmeras RGB-D e LIDAR são frequentemente usados, mas vêm com altos custos e podem introduzir erros. Como resultado, os pesquisadores começaram a explorar métodos auto-supervisionados. Esses métodos usam dados de vídeo existentes para aprender a estimar profundidade sem precisar de dados reais.

Limitações Atuais

A maioria dos métodos auto-supervisionados tem se concentrado principalmente em imagens diurnas. Eles não generalizam bem para imagens noturnas, o que leva a um desempenho pior quando as condições de iluminação mudam. As diferenças de brilho e visibilidade à noite representam um desafio significativo para esses modelos. Uma solução no passado foi usar técnicas como CycleGAN para converter imagens noturnas em diurnas. No entanto, isso muitas vezes resulta em imagens menos naturais, o que pode limitar a eficácia dos modelos treinados com essas imagens.

A Abordagem GlocalFuse-Depth

A rede GlocalFuse-Depth foi projetada para abordar esses problemas. Ela usa um sistema de dois ramos que processa imagens diurnas e noturnas separadamente. Um ramo usa uma Rede Neural Convolucional (CNN) para capturar detalhes finos, enquanto o outro ramo emprega um Transformer para entender relacionamentos mais amplos na imagem. A combinação dessas duas abordagens permite uma melhor estimativa de profundidade, aproveitando os pontos fortes de ambos os métodos.

O sistema processa pares de imagens feitas da mesma cena em diferentes momentos. Ao fazer isso, a rede pode se adaptar às diferenças de iluminação e melhorar a estimativa de profundidade. Um novo módulo de fusão também é introduzido para combinar as características capturadas pelos dois ramos, fornecendo uma estimativa de profundidade mais abrangente.

Importância da Textura

Para imagens tiradas do mesmo lugar, as informações de profundidade devem permanecer consistentes apesar das mudanças na iluminação. Isso significa que as informações de textura desempenham um papel crucial na estimativa de profundidade. Usando um par de imagens dia-noite, o GlocalFuse-Depth pode capturar melhor a textura necessária para estimar a profundidade com precisão. Essa é uma inovação chave do método, pois permite resultados melhores em diferentes condições de iluminação.

Arquitetura da Rede

A arquitetura do GlocalFuse-Depth consiste em dois ramos paralelos. Enquanto um processa imagens diurnas, o outro foca nas imagens noturnas. O ramo CNN é projetado para construir gradualmente de características locais para globais, enquanto o ramo Transformer começa com uma compreensão global e refina os detalhes locais. Isso permite que a rede capture uma ampla gama de informações sobre a cena.

Para combinar as informações de ambos os ramos, a rede utiliza um módulo de fusão especializado. Esse módulo foca na atenção por canal e espacial, garantindo que apenas as características mais relevantes de ambos os ramos sejam reunidas para a estimativa final de profundidade. Essa abordagem é eficiente e eficaz, permitindo que o modelo produza melhores resultados.

Processo de Treinamento

Durante a fase de treinamento, o modelo usa um CycleGAN pré-treinado para traduzir imagens diurnas em imagens noturnas. Assim, os pares de imagens usados para o treinamento contêm informações de profundidade consistentes, facilitando o aprendizado do modelo. O treinamento usa erros de re-projeção fotométrica para otimizar o modelo, garantindo que ele aprenda a produzir mapas de profundidade precisos.

Resultados

O método foi testado extensivamente no conjunto de dados Oxford RobotCar, que inclui imagens diurnas e noturnas. Os resultados do GlocalFuse-Depth mostram melhorias significativas em relação a outros métodos existentes. As análises quantitativas e qualitativas demonstram que ele supera muitas técnicas de ponta para estimativa de profundidade.

Para imagens diurnas, o GlocalFuse-Depth conseguiu recuperar mais detalhes e produzir mapas de profundidade mais claros do que os métodos concorrentes. Isso é essencial para aplicações onde entender a cena é crítico, como em veículos autônomos.

Em cenários noturnos, as melhorias foram ainda mais pronunciadas. A capacidade da rede de se adaptar a diferentes condições de iluminação e ainda produzir mapas de profundidade confiáveis a diferencia. Em particular, o modelo conseguiu lidar com condições desafiadoras, como baixa visibilidade e mudanças de iluminação, que costumam confundir métodos tradicionais.

Análise Comparativa

Ao comparar GlocalFuse-Depth com métodos existentes, ficou claro que a abordagem de dois ramos ofereceu uma vantagem significativa. Métodos tradicionais, que se concentram apenas em imagens diurnas ou noturnas, tiveram dificuldade em generalizar entre diferentes condições de iluminação. Em contraste, o GlocalFuse-Depth conseguiu eficazmente superar essa lacuna, tornando-se adequado para aplicações do mundo real que exigem desempenho durante todo o dia.

O uso do CycleGAN para criar imagens 'falsas' diurnas para teste também mostrou resultados promissores. Modelos que dependiam apenas de imagens noturnas sem transformação tendiam a ter um desempenho inferior. Isso enfatiza ainda mais a eficácia da arquitetura GlocalFuse-Depth em lidar com condições de imagem diversas.

Conclusão

A introdução do GlocalFuse-Depth marca um avanço significativo no campo da estimativa de profundidade a partir de imagens únicas. Ao combinar os pontos fortes de CNNs e Transformers, a rede de dois ramos alcança resultados impressionantes para imagens diurnas e noturnas. O inovador módulo de fusão integra efetivamente informações de ambos os ramos, permitindo mapas de profundidade aprimorados que são cruciais para muitas aplicações.

À medida que essa tecnologia continua a avançar, ela tem o potencial de melhorar vários campos, incluindo direção autônoma, realidade aumentada e mapeamento. A capacidade de estimar a profundidade com precisão em todos os tipos de condições de iluminação torna o GlocalFuse-Depth uma ferramenta valiosa para futuras pesquisas e implementações práticas.

Fonte original

Título: GlocalFuse-Depth: Fusing Transformers and CNNs for All-day Self-supervised Monocular Depth Estimation

Resumo: In recent years, self-supervised monocular depth estimation has drawn much attention since it frees of depth annotations and achieved remarkable results on standard benchmarks. However, most of existing methods only focus on either daytime or nighttime images, thus their performance degrades on the other domain because of the large domain shift between daytime and nighttime images. To address this problem, in this paper we propose a two-branch network named GlocalFuse-Depth for self-supervised depth estimation of all-day images. The daytime and nighttime image in input image pair are fed into the two branches: CNN branch and Transformer branch, respectively, where both fine-grained details and global dependency can be efficiently captured. Besides, a novel fusion module is proposed to fuse multi-dimensional features from the two branches. Extensive experiments demonstrate that GlocalFuse-Depth achieves state-of-the-art results for all-day images on the Oxford RobotCar dataset, which proves the superiority of our method.

Autores: Zezheng Zhang, Ryan K. Y. Chan, Kenneth K. Y. Wong

Última atualização: 2023-02-20 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2302.09884

Fonte PDF: https://arxiv.org/pdf/2302.09884

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes