Avanços na Estimativa de Profundidade Monocular Usando o Conjunto de Dados SlowTV
Uma nova abordagem melhora a estimativa de profundidade com dados de treinamento diversos.
― 5 min ler
Índice
Reconstruir a estrutura do ambiente é importante pra várias áreas, tipo carros autônomos, robótica e realidade aumentada. A Estimativa de Profundidade Monocular (MDE) é um método que estima a profundidade a partir de uma única imagem, o que é útil porque simplifica o processo em comparação com métodos tradicionais que geralmente precisam de várias imagens.
Os métodos atuais de MDE costumam depender de Conjuntos de dados bem rotulados. Mas, coletar esses dados de alta qualidade pode ser caro e demorado. Os pesquisadores estão buscando maneiras de tornar o MDE mais eficiente usando Aprendizado Auto-Supervisionado, que consegue aprender com dados não rotulados.
Esse trabalho fala sobre um novo conjunto de dados combinado com um modelo auto-supervisionado que visa melhorar o Desempenho do MDE em diferentes ambientes, incluindo cenários internos e externos complexos.
O Desafio
Muitas técnicas existentes de MDE são limitadas a dados coletados de ambientes específicos, tipo áreas urbanas. Esse foco restrito faz com que esses modelos tenham dificuldade em se adaptar a outros lugares, como paisagens naturais ou espaços internos.
Fatores como o custo de coletar dados rotulados e as exigências computacionais de métodos tradicionais, como a Estrutura a partir do Movimento (SfM), dificultam o treinamento de modelos eficazes. O aprendizado auto-supervisionado poderia ajudar usando vídeos da internet em vez de conjuntos de dados rotulados, aumentando assim a diversidade dos ambientes de treinamento.
O Novo Conjunto de Dados: SlowTV
Pra enfrentar esses desafios, foi criado um novo conjunto de dados chamado SlowTV. Ele consiste em longos vídeos coletados do YouTube, mostrando várias atividades relaxantes, como trilhas, direção e mergulho. Esse conjunto é diferente porque oferece uma gama muito mais ampla de ambientes em comparação com conjuntos de dados focados em automóveis que já existem.
O conjunto de dados SlowTV inclui 1,7 milhões de imagens de mais de 40 vídeos, que estão divididos em três categorias: cenas naturais, cenas de direção e cenas subaquáticas. Os vídeos capturam uma variedade de condições, incluindo diferentes tipos de clima e locais geográficos, pra garantir que os dados sejam o mais diversos possível.
Metodologia
O método proposto aproveita o novo conjunto de dados SlowTV pra treinar um modelo MDE auto-supervisionado. Em vez de exigir dados rotulados, o modelo aprende a partir da consistência fotométrica entre os quadros. Isso significa que ele usa as informações visuais dos vídeos pra entender a profundidade sem precisar de rótulos explícitos.
Entrada de Imagem Única
O modelo funciona estimando a profundidade a partir de uma única imagem. Ele gera uma previsão com base na imagem alvo e usa outra imagem tirada logo antes como referência. Isso é feito prevendo o movimento relativo entre as duas imagens. O modelo é projetado pra ser flexível, permitindo que ele se adapte a várias situações.
Funções de Perda
Várias funções de perda são usadas pra melhorar a precisão da estimativa do modelo. Elas incluem:
- Perda Fotométrica: Essa mede o quão bem a previsão do modelo combina com a imagem original. O objetivo é minimizar essa diferença.
- Perda de Reconstrução Mínima: Isso ajuda o modelo a focar nas partes da imagem que têm menos ruído, removendo distrações como oclusões de objetos em movimento.
- Automasking: Essa técnica ajuda o modelo a ignorar certos pixels que podem não fornecer informações úteis, melhorando ainda mais a precisão.
Aprendendo Intrínsecos da Câmera
Quando se usa câmeras não calibradas, estimar os parâmetros intrínsecos da câmera é essencial. Isso significa que o modelo precisa entender as configurações da câmera que afetam como as imagens são capturadas. O método proposto inclui um mecanismo pra aprender essas configurações automaticamente, simplificando o processo como um todo.
Aumento de Proporção
Pra garantir que o modelo funcione bem com vários tamanhos de imagem, um aumento de proporção é aplicado durante o treinamento. Isso significa que as imagens são recortadas e redimensionadas aleatoriamente pra criar uma gama de formas e tamanhos, o que ajuda a melhorar a capacidade do modelo de generalizar em diferentes conjuntos de dados e ambientes.
Resultados
O modelo proposto é avaliado em vários conjuntos de dados pra avaliar seu desempenho. Esses incluem tanto conjuntos de dados em distribuição (onde os dados de teste vêm das mesmas fontes que os dados de treinamento) quanto conjuntos de dados zero-shot (onde o modelo é testado com dados que nunca viu antes).
Desempenho em Distribuição
O modelo mostra um desempenho excelente nos conjuntos de dados de treinamento, superando significativamente as técnicas auto-supervisionadas existentes. Ele até compete bem contra alguns modelos supervisionados, destacando sua eficácia e versatilidade.
Generalização Zero-Shot
O verdadeiro teste para o modelo vem com a generalização zero-shot. Nesse cenário, o modelo é aplicado a ambientes completamente novos que nunca treinou. Os resultados indicam que o novo modelo consistentemente supera métodos auto-supervisionados anteriores nessas condições desafiadoras.
Conclusões
Esse trabalho apresenta um avanço significativo no campo da estimativa de profundidade monocular. Ao aproveitar um conjunto de dados diverso e uma abordagem de aprendizado auto-supervisionado, o modelo proposto é capaz de generalizar em diferentes ambientes, superando muitos modelos existentes.
Trabalhos futuros devem focar em expandir ainda mais o conjunto de dados, possivelmente adicionando mais cenários internos. Além disso, melhorar o desempenho do modelo na presença de elementos dinâmicos será essencial. Soluções potenciais podem incluir o uso de técnicas adicionais pra estimar melhor o movimento nas imagens.
Em resumo, a combinação do conjunto de dados SlowTV e do novo modelo auto-supervisionado oferece um caminho promissor pra melhorar a estimativa de profundidade monocular, tornando-a mais aplicável a situações do mundo real.
Título: Kick Back & Relax: Learning to Reconstruct the World by Watching SlowTV
Resumo: Self-supervised monocular depth estimation (SS-MDE) has the potential to scale to vast quantities of data. Unfortunately, existing approaches limit themselves to the automotive domain, resulting in models incapable of generalizing to complex environments such as natural or indoor settings. To address this, we propose a large-scale SlowTV dataset curated from YouTube, containing an order of magnitude more data than existing automotive datasets. SlowTV contains 1.7M images from a rich diversity of environments, such as worldwide seasonal hiking, scenic driving and scuba diving. Using this dataset, we train an SS-MDE model that provides zero-shot generalization to a large collection of indoor/outdoor datasets. The resulting model outperforms all existing SSL approaches and closes the gap on supervised SoTA, despite using a more efficient architecture. We additionally introduce a collection of best-practices to further maximize performance and zero-shot generalization. This includes 1) aspect ratio augmentation, 2) camera intrinsic estimation, 3) support frame randomization and 4) flexible motion estimation. Code is available at https://github.com/jspenmar/slowtv_monodepth.
Autores: Jaime Spencer, Chris Russell, Simon Hadfield, Richard Bowden
Última atualização: 2023-07-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.10713
Fonte PDF: https://arxiv.org/pdf/2307.10713
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.