Avanços em Imagem e Navegação Subaquática
Novos conjuntos de dados melhoram a clareza e a precisão das imagens subaquáticas.
― 7 min ler
Índice
A visão debaixo d'água pode ser bem complicada. Quanto mais fundo ou longe você vai de um objeto, mais a clareza do que você vê pode desaparecer. Isso torna tarefas como identificar obstáculos ou mapear áreas subaquáticas bem difíceis. Para ajudar com esses desafios, criamos dois tipos de conjuntos de dados que focam em sistemas de câmeras voltadas para frente. Esses sistemas usam câmeras especiais montadas de maneiras diferentes, capturando imagens e dados de locais subaquáticos como o Mediterrâneo e o Mar Vermelho.
Os Conjuntos de Dados
Reunimos dois tipos de conjuntos de dados: um com imagens estéreo (duas câmeras trabalhando juntas) e outro que combina uma câmera única com sensores de movimento (IMU). Esses conjuntos de dados incluem milhares de imagens coletadas em diferentes condições subaquáticas, mostrando tanto estruturas naturais quanto feitas pelo homem. Cada conjunto de dados foi calibrado para que possamos criar mapas de profundidade, que são essenciais para medir distâncias de forma precisa debaixo d'água.
Conjuntos de Dados Estéreo
Os conjuntos de dados estéreo consistem em imagens tiradas por duas câmeras ao mesmo tempo. Essa configuração permite capturar a mesma cena de ângulos ligeiramente diferentes, ajudando a estimar a profundidade. Colocamos objetos de tamanho conhecido na cena para validar as medições. No total, são cinco conjuntos de dados estéreo, cada um capturando imagens a uma taxa de 10 quadros por segundo.
Conjuntos de Dados Visuais-Inerciais
Os conjuntos de dados visuais-inerciais usam uma única câmera combinada com sensores de movimento para coletar dados. Essa configuração permite que o veículo veja o que está diretamente à frente enquanto também mantém o controle dos seus movimentos. Existem oito conjuntos de dados visuais-inerciais, também gravados a 10 quadros por segundo. Assim como nos conjuntos de dados estéreo, objetos de tamanho conhecido foram usados para garantir a precisão.
Por Que Esses Conjuntos de Dados São Importantes?
Esses conjuntos de dados podem ser usados para melhorar várias tecnologias subaquáticas. Eles podem ajudar a desenvolver sistemas para veículos autônomos que conseguem navegar sem ajuda humana, descobrir obstáculos e criar mapas detalhados de áreas subaquáticas. Esses avanços são cruciais, especialmente em ambientes com água rasa, onde métodos tradicionais podem não funcionar bem.
Desafios na Imagem Subaquática
Conseguir imagens claras debaixo d'água não é fácil. A luz se comporta de maneira diferente na água, muitas vezes resultando em imagens que faltam contraste e detalhes. Ao longo do tempo, muitos pesquisadores trabalharam em maneiras de usar câmeras de forma eficaz debaixo d'água, mas ainda há muitos obstáculos a serem superados. Problemas como dispersão da luz e como a câmera se move na água podem dificultar a obtenção de resultados precisos. Por causa desses desafios, precisamos de conjuntos de dados que reflitam com precisão o ambiente subaquático.
Atenuação da Luz
Quando a luz viaja pela água, ela se torna mais fraca e pode dispersar, deixando as imagens borradas ou desbotadas. Esse problema piora à medida que a distância entre a câmera e o objeto aumenta. Para nossos conjuntos de dados, garantimos capturar imagens em várias condições de luz para entender melhor como lidar com esses problemas.
Movimento e Visibilidade
Ao capturar imagens debaixo d'água, a forma como a câmera se move é crucial. Movimentos rápidos podem deixar as imagens borradas, enquanto movimentos lentos podem permitir imagens mais nítidas. Nossos conjuntos de dados incluem diferentes tipos de movimentos de câmera para ajudar a estudar como esses fatores afetam a qualidade das imagens.
Tipos de Algoritmos para Tarefas Subaquáticas
No mundo da visão computacional, vários algoritmos foram desenvolvidos para lidar com os desafios de trabalhar com imagens. Algumas dessas técnicas foram adaptadas para uso subaquático, embora essa área ainda precise de mais atenção.
Estrutura a partir do movimento (SfM)
SFM é um método que pega várias imagens de diferentes ângulos e usa elas para criar um modelo tridimensional do ambiente. Embora isso funcione bem em terra, as condições subaquáticas podem trazer desafios que afetam a qualidade do resultado.
Localização e Mapeamento Simultâneos (SLAM)
SLAM é outro método que ajuda veículos a navegar construindo um mapa enquanto rastreia sua localização em tempo real. Essa tecnologia é útil em áreas onde os sinais de GPS são fracos ou indisponíveis, como debaixo d'água. Integrar SLAM com dados visuais-inerciais pode melhorar significativamente o desempenho de veículos subaquáticos.
Odometria Visual-Inercial (VIO)
VIO combina dados de câmera comuns com sensores de movimento para fornecer uma melhor consciência espacial. Pode oferecer medições de profundidade mais precisas em comparação com sistemas de câmera tradicionais sozinhos. Isso é particularmente útil para veículos subaquáticos que precisam de capacidades de navegação detalhadas.
Métodos de Coleta de Dados
Coletar dados debaixo d'água requer um planejamento e execução cuidadosos. Nossos conjuntos de dados foram coletados usando alguns métodos diferentes dependendo do tipo de configuração de imagem.
Método de Coleta Estéreo
Para os conjuntos de dados estéreo, usamos duas câmeras configuradas de uma forma que permite capturar imagens sincronizadas. Nos certificamos de que as câmeras estavam devidamente calibradas e configuradas para coletar imagens a uma taxa constante. Cuidamos especialmente para revisar locais-chave para consistência.
Método de Coleta Visual-Inercial
Para os conjuntos de dados visuais-inerciais, usamos um ROV (Veículo Operado Remotamente) para coletar imagens. O mergulhador controlou o ROV, focando em um caminho suave enquanto garante que as configurações da câmera estavam ótimas para capturar imagens de qualidade. Incluímos objetos de tamanho conhecido para ajudar na escala dos mapas de profundidade.
Geração de Verdadeiros Terrenos
Para confirmar a precisão dos nossos conjuntos de dados, criamos mapas de profundidade verdadeiros usando software projetado para fotogrametria. Esse software pega as imagens coletadas e as usa para estimar distâncias e posições no ambiente subaquático. Ao verificar as medições contra objetos conhecidos na cena, garantimos que nossos conjuntos de dados são confiáveis.
Problemas Conhecidos
Enquanto fizemos grandes avanços na coleta desses conjuntos de dados, alguns desafios ainda existem. Por exemplo, algumas imagens podem estar superexpostas quando há transições entre diferentes condições de iluminação. Além disso, a falta de sincronização entre a câmera e o sensor de movimento pode afetar a qualidade dos dados.
Conclusão
Nossos conjuntos de dados subaquáticos voltados para frente fornecem um recurso valioso para pesquisadores e desenvolvedores que trabalham em sistemas subaquáticos autônomos. Com dados estéreo e visuais-inerciais detalhados, esperamos incentivar avanços em tecnologias de navegação e imagem subaquáticas. O acesso a esse tipo de informação é crucial para enfrentar os desafios únicos impostos pelos ambientes subaquáticos, permitindo que sistemas operem de maneira mais eficaz em condições complexas. Acreditamos que nossos conjuntos de dados servirão como um padrão para quem busca melhorar sua compreensão de imagem subaquática e robótica.
Título: FLSea: Underwater Visual-Inertial and Stereo-Vision Forward-Looking Datasets
Resumo: Visibility underwater is challenging, and degrades as the distance between the subject and camera increases, making vision tasks in the forward-looking direction more difficult. We have collected underwater forward-looking stereo-vision and visual-inertial image sets in the Mediterranean and Red Sea. To our knowledge there are no other public datasets in the underwater environment acquired with this camera-sensor orientation published with ground-truth. These datasets are critical for the development of several underwater applications, including obstacle avoidance, visual odometry, 3D tracking, Simultaneous Localization and Mapping (SLAM) and depth estimation. The stereo datasets include synchronized stereo images in dynamic underwater environments with objects of known-size. The visual-inertial datasets contain monocular images and IMU measurements, aligned with millisecond resolution timestamps and objects of known size which were placed in the scene. Both sensor configurations allow for scale estimation, with the calibrated baseline in the stereo setup and the IMU in the visual-inertial setup. Ground truth depth maps were created offline for both dataset types using photogrammetry. The ground truth is validated with multiple known measurements placed throughout the imaged environment. There are 5 stereo and 8 visual-inertial datasets in total, each containing thousands of images, with a range of different underwater visibility and ambient light conditions, natural and man-made structures and dynamic camera motions. The forward-looking orientation of the camera makes these datasets unique and ideal for testing underwater obstacle-avoidance algorithms and for navigation close to the seafloor in dynamic environments. With our datasets, we hope to encourage the advancement of autonomous functionality for underwater vehicles in dynamic and/or shallow water environments.
Autores: Yelena Randall, Tali Treibitz
Última atualização: 2023-02-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2302.12772
Fonte PDF: https://arxiv.org/pdf/2302.12772
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.