Nova técnica melhora a qualidade de imagem subaquática
Um método que combina física e deep learning melhora a clareza de fotos subaquáticas.
― 7 min ler
Índice
- O Problema com Imagens Subaquáticas
- Uma Nova Abordagem
- Usando Aprendizado Profundo
- Criando um Conjunto de Dados
- Como o Método Funciona
- Modelo de Formação de Imagem
- Arquitetura do Modelo
- Estrutura Codificador-Decodificador
- Treinando o Modelo
- Funções de Perda
- Diferentes Técnicas
- Resultados e Discussão
- Comparando Técnicas
- Eficácia
- Conclusão
- Fonte original
- Ligações de referência
Imagens subaquáticas geralmente têm uma aparência bem diferente das fotos tiradas em terra. Elas costumam ter cores estranhas e pouca iluminação. Isso acontece porque a luz é absorvida e dispersa ao passar pela água. Cores diferentes se comportam de maneiras diferentes na água, e coisas como sujeira ou partículas podem piorar o problema.
Pra melhorar as imagens subaquáticas, pesquisadores criaram várias técnicas. Eles usam Aprendizado Profundo, que é um termo chique pra usar computadores pra aprender padrões a partir de várias imagens. Esse artigo fala sobre um método novo que junta o conhecimento de como a luz se comporta na água com dados de imagens reais pra ajudar a melhorar a qualidade das fotos subaquáticas.
O Problema com Imagens Subaquáticas
Quando tiramos fotos debaixo d'água, as imagens podem perder suas cores originais. Por exemplo, a luz vermelha é absorvida rapidamente, então coisas que são vermelhas podem parecer mais escuras ou até cinzas. Outras cores, como azul e verde, conseguem viajar mais longe em água clara. Mas, quando a água tá turva ou lamacenta, até essas cores podem ficar zoadas.
Muitos fatores influenciam como a luz se comporta debaixo d'água. A turbidez, ou quão clara a água é, pode fazer uma grande diferença. A luz pode refletir em partículas na água, o que aumenta a confusão na imagem. Isso torna difícil usar fórmulas simples pra corrigir as cores e o contraste das fotos subaquáticas.
Uma Nova Abordagem
Pra resolver esses problemas, foi desenvolvida uma nova técnica. Ela usa uma mistura de aprendizado profundo e física pra lidar com os problemas únicos das imagens subaquáticas. O método se baseia em um modelo de aprendizado profundo que aprende como a água afeta as imagens analisando muitos exemplos de fotos claras e turvas.
Usando Aprendizado Profundo
Aprendizado profundo é uma maneira dos computadores aprenderem com exemplos. Nesse caso, o modelo aprende a melhorar as imagens subaquáticas olhando pra muitos pares de imagens: uma clara e uma turva. O modelo consegue então identificar as diferenças e aprender como deixar as imagens turvas mais claras.
O método foca em usar apenas Imagens RGB padrão porque, em situações do mundo real, muitas vezes é difícil obter informações extras de profundidade. O modelo é projetado pra estimar a profundidade e usar essas informações pra entender melhor como a luz se comporta na água.
Criando um Conjunto de Dados
Pra treinar esse modelo de aprendizado profundo, foi criado um conjunto de dados especial de imagens. Esse conjunto inclui tanto imagens claras quanto turvas que parecem com cenas subaquáticas do mundo real. Os pesquisadores criaram essas imagens usando fórmulas complexas pra simular como a luz se comporta debaixo d'água. Isso deu a eles uma espécie de "verdade base" pra comparar ao treinar o modelo.
Como o Método Funciona
O método proposto inclui entender como a luz se comporta na água usando uma fórmula matemática conhecida. Essa fórmula considera como a luz é absorvida e dispersa, o que ajuda o modelo a fazer previsões mais precisas.
Modelo de Formação de Imagem
O núcleo do método é um modelo de formação de imagem que descreve como as imagens subaquáticas são criadas. Ele reconhece que cada pixel numa foto contém dois componentes principais: a luz que vem diretamente do objeto (o sinal) e luz extra que se mistura (luz de véu). O modelo pode usar esses componentes pra entender como a imagem final aparece.
À medida que o modelo reconhece o comportamento da luz, ele pode ajustar as imagens pra que fiquem mais claras e realistas. Esse ajuste também leva em conta o fato de que nem todas as cores se comportam da mesma forma debaixo d'água.
Arquitetura do Modelo
O modelo de aprendizado profundo consiste de várias partes conectadas, parecido com como nossos cérebros funcionam. Ele tem uma estrutura de codificador-decodificador, que é comum em tarefas de processamento de imagem.
Estrutura Codificador-Decodificador
Nesse modelo, o codificador recebe a imagem subaquática e extrai recursos importantes. Depois, o decodificador pega esses recursos e tenta criar uma versão mais clara da imagem. O modelo é projetado pra aprender como preencher as lacunas que fazem as imagens subaquáticas parecerem menos atraentes.
O modelo também usa conexões de salto, que ajudam a manter detalhes importantes que poderiam ser perdidos no processo. Essas conexões permitem que a informação passe pela rede sem ser alterada demais.
Treinando o Modelo
Durante o treinamento do modelo, os pesquisadores usaram uma abordagem especial pra medir como ele estava se saindo. Eles focaram em minimizar erros comparando a saída do modelo com as imagens claras no conjunto de dados.
Funções de Perda
Funções de perda são ferramentas que ajudam o modelo a entender quão longe suas previsões estão. O objetivo do modelo é reduzir essa perda durante o treinamento. Uma parte da função de perda observa quão bem a profundidade da imagem subaquática é estimada, enquanto outra parte mede quão próxima a imagem gerada tá da versão clara.
Diferentes Técnicas
Várias variações do método foram testadas pra encontrar a forma mais eficaz de melhorar as imagens subaquáticas. Cada versão ajustou diferentes partes do modelo pra ver como ele se saía. Os pesquisadores compararam os resultados com várias outras técnicas pra analisar o desempenho.
Resultados e Discussão
O novo método foi avaliado usando Conjuntos de dados estabelecidos pra ver como ele conseguia melhorar a qualidade das imagens subaquáticas. Os resultados indicaram que a técnica proposta superou as técnicas anteriores, especialmente em manter a consistência das cores e clareza.
Comparando Técnicas
O método foi comparado com técnicas populares na área, incluindo aquelas que usam modelos básicos de aprendizado profundo. A nova abordagem mostrou melhorias significativas, especialmente em reduzir distorções de cor e aumentar a visibilidade nas fotos subaquáticas.
Eficácia
A técnica proposta capturou efetivamente a física subjacente da luz na água enquanto usava aprendizado profundo pra refinar as imagens. A combinação permitiu uma melhor simulação de como a luz interage com objetos subaquáticos, resultando em imagens que parecem mais realistas.
Conclusão
Resumindo, foi desenvolvida uma nova técnica que junta física com aprendizado profundo pra melhorar a qualidade das imagens subaquáticas. Um conjunto de dados único ajudou o modelo a aprender a lidar com os desafios de distorção de cor e baixo contraste em condições subaquáticas.
Os resultados mostram promessas pra melhorar aplicações reais de imagem subaquática, oferecendo uma forma de criar representações mais claras e precisas de ambientes subaquáticos. O trabalho futuro irá focar em refinar ainda mais esse método e explorar suas possíveis aplicações em várias áreas, como exploração subaquática e pesquisa marinha. Com o avanço da tecnologia, esses métodos podem desempenhar um papel crucial em entender e documentar melhor o mundo subaquático.
Título: Physics Informed and Data Driven Simulation of Underwater Images via Residual Learning
Resumo: In general, underwater images suffer from color distortion and low contrast, because light is attenuated and backscattered as it propagates through water (differently depending on wavelength and on the properties of the water body). An existing simple degradation model (similar to atmospheric image "hazing" effects), though helpful, is not sufficient to properly represent the underwater image degradation because there are unaccounted for and non-measurable factors e.g. scattering of light due to turbidity of water, reflective characteristics of turbid medium etc. We propose a deep learning-based architecture to automatically simulate the underwater effects where only a dehazing-like image formation equation is known to the network, and the additional degradation due to the other unknown factors if inferred in a data-driven way. We only use RGB images (because in real-time scenario depth image is not available) to estimate the depth image. For testing, we have proposed (due to the lack of real underwater image datasets) a complex image formation model/equation to manually generate images that resemble real underwater images (used as ground truth). However, only the classical image formation equation (the one used for image dehazing) is informed to the network. This mimics the fact that in a real scenario, the physics are never completely known and only simplified models are known. Thanks to the ground truth, generated by a complex image formation equation, we could successfully perform a qualitative and quantitative evaluation of proposed technique, compared to other purely data driven approaches
Autores: Tanmoy Mondal, Ricardo Mendoza, Lucas Drumetz
Última atualização: 2024-02-07 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.05281
Fonte PDF: https://arxiv.org/pdf/2402.05281
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/anoynymREVIEW/underwater_simulation.git
- https://pytorch.org/cppdocs/api/classtorch_1_1nn_1_1_adaptive_avg_pool1d.html
- https://medium.com/arteos-ai/the-differences-between-sigmoid-and-softmax-activation-function-12adee8cf322
- https://pytorch.org/docs/stable/generated/torch.optim.Adam.html