Avanços na Classificação de Imagens SSS com Transformers de Visão
Este artigo compara Transformers de Visão e CNNs para classificar imagens de sonar de varredura lateral.
― 7 min ler
Índice
Classificar imagens de sonar de varredura lateral (SSS) geralmente é uma tarefa feita por especialistas, que misturam sua experiência com métodos tradicionais de machine learning que dependem de características criadas manualmente. Esses métodos clássicos podem funcionar, mas levam muito tempo e nem sempre conseguem capturar os detalhes complexos vistos em imagens subaquáticas. A introdução das Redes Neurais Convolucionais (CNNs) mudou isso, oferecendo maneiras melhores de extrair recursos das imagens e automatizando o processo de classificação até certo ponto.
Este artigo discute como os Transformers de Visão (ViTs) estão mudando a abordagem para analisar imagens de SSS. Os ViTs usam um método único em que prestam atenção a diferentes partes de uma imagem de uma vez, o que pode ajudar a entender melhor o layout e os detalhes das cenas subaquáticas do que as CNNs. Enquanto as CNNs se concentram principalmente em pequenas partes de uma imagem por causa de como funcionam, os ViTs conseguem olhar para seções maiores juntas. Isso pode ser muito útil para identificar objetos feitos pelo homem em ambientes onde as características naturais, como rochas ou áreas de areia, podem confundir as CNNs.
Classificação de Imagens
Transformers de Visão naO objetivo da pesquisa é comparar os ViTs com modelos de CNN estabelecidos para classificar imagens de SSS. Avaliando várias métricas e considerando a eficiência de cada modelo, a meta é destacar os pontos fortes e fracos de cada tipo de modelo. Isso pode ajudar futuras pesquisas em machine learning para sistemas de sonar.
Trabalho Relacionado
Os ViTs têm mostrado promessas em termos de desempenho, frequentemente superando as CNNs tradicionais enquanto precisam de menos recursos para treinar. Um desenvolvimento chave foi adaptar o conceito de atenção usado em processamento de linguagem para funcionar com imagens. Tentativas anteriores de aplicar atenção a imagens analisavam cada pixel em relação a todos os outros pixels, o que era intensivo em recursos. Em vez disso, a nova abordagem compara primeiro blocos de imagem locais, depois examina as relações entre esses blocos, permitindo um processamento mais eficiente.
Os ViTs também se mostraram excelentes em imagens de sensoriamento remoto, que compartilham semelhanças com imagens de SSS, já que ambos olham para baixo e não são amplamente representados em bibliotecas comuns de deep learning. Recentes pesquisas exploraram ainda mais os ViTs em aplicações, incluindo imagem médica e sensoriamento remoto.
Na acústica subaquática, modelos novos como o Modelo Transformador de Espectrograma (STM) e a Rede de Transformadores de Visão de Caminho Duplo (DP-ViT) foram introduzidos. Esses modelos aplicam conceitos de transformadores para identificar sons subaquáticos e detectar alvos em imagens de sonar, mostrando resultados melhores em comparação com as CNNs padrão.
Arquiteturas de Modelos
Neste estudo, avaliamos múltiplos modelos, especificamente dois modelos CNN (ResNet e ConvNext) e dois modelos ViT (ViT e SwinViT). Cada tamanho de modelo foi escolhido a partir de variantes menores para evitar problemas com modelos maiores. Todos os modelos foram projetados para trabalhar com dados de baixa e alta frequência de SSS, usando trechos de imagem de 224x224 pixels que apresentam um objeto feito pelo homem ou não. Os conjuntos de dados usados foram balanceados, com números iguais de casos positivos e negativos.
Os dados foram coletados de um sonar de abertura sintética de dupla frequência (SAS) em diferentes locais, criando imagens de alta resolução. Essas imagens foram recortadas e redimensionadas para atender aos requisitos do modelo. Os modelos foram treinados usando PyTorch em unidades de processamento gráfico de alto desempenho, e pesos pré-treinados ajudaram a dar um empurrão inicial ao processo de aprendizado. Para minimizar o overfitting-quando um modelo se sai bem nos dados de treinamento, mas mal nos novos dados-várias estratégias foram implementadas, incluindo otimização contra dados de validação.
O treinamento também incluiu diferentes aumentações para adicionar diversidade ao conjunto de dados. No entanto, evitamos certas aumentações que poderiam distorcer como os dados de sonar são geralmente coletados. Por exemplo, inverter uma imagem de cabeça para baixo não representaria com precisão como o sonar opera na vida real.
Métricas de Avaliação
Avaliamo a eficácia dos modelos com quatro critérios de avaliação principais: f1-score, recall, precisão e acurácia. Essas métricas ajudam a avaliar quão bem os modelos conseguem identificar corretamente objetos reais e limitar erros onde categorizam algo incorretamente.
- Precisão mede quão bom é o modelo em retornar apenas as instâncias corretas.
- Recall indica quão bom é o modelo em encontrar todas as instâncias relevantes.
- F1-Score serve como um equilíbrio entre precisão e recall, dando uma visão mais clara do desempenho do modelo.
- Acurácia avalia o desempenho geral, mas pode ser enganosa em situações onde objetos feitos pelo homem são raros em comparação com muitas características de fundo.
Eficiência Computacional
Medimos quão eficientemente cada modelo processa dados observando a velocidade média de inferência, o número de instâncias processadas por segundo e o número de cálculos realizados em um segundo. O número de parâmetros em um modelo também afeta sua capacidade de aprender, com modelos maiores precisando de mais dados e recursos para treinar.
A velocidade de inferência é particularmente importante para aplicações em tempo real, como em veículos subaquáticos. Enquanto os ViTs mostraram melhor desempenho na classificação, frequentemente exigiram mais memória e foram mais lentos que as CNNs. Essa discrepância limita seu uso em alguns cenários.
Discussão dos Resultados
O estudo encontrou que os ViTs geralmente superaram as CNNs na classificação de imagens de SSS. No entanto, seu desempenho vem a um custo. Os ViTs tendem a requerer mais recursos computacionais devido ao seu número maior de parâmetros. Por exemplo, enquanto o ResNet-101 já é pesado em recursos, o ViT-B tem quase o dobro do número de parâmetros. Velocidades de inferência mais lentas nos ViTs também representam desafios para a implantação imediata, especialmente em ambientes subaquáticos onde a eficiência é crucial.
Em aplicações práticas, as CNNs ainda têm uma vantagem significativa devido às suas forças embutidas que permitem aprender efetivamente com conjuntos de dados menores. No entanto, os modelos ViT mostraram muito potencial quando treinados com dados suficientes, especialmente em ambientes diversos apresentados em imagens de SSS.
Os resultados sugerem que, embora os ViTs ainda não estejam prontos para implantação no mundo real em cenários de recursos limitados, eles podem melhorar significativamente a precisão da classificação quando devidamente calibrados. Pesquisas futuras poderiam explorar maneiras de otimizar esses modelos, como por meio de métodos que consomem menos recursos, como quantização e poda.
Direções Futuras
Olhando adiante, os pesquisadores vão investigar técnicas de aprendizagem auto-supervisionada envolvendo dados não rotulados. Além disso, integrar diferentes tipos de dados de veículos subaquáticos pode fornecer insights valiosos e melhorar as capacidades preditivas. Há uma grande oportunidade de aproveitar esses métodos para avançar ainda mais no campo, aproveitando as forças tanto dos ViTs quanto das CNNs para melhorar tarefas de classificação de imagem em SSS e além.
Conclusão
A introdução e análise dos Transformers de Visão marcam uma mudança significativa em como as imagens de SSS podem ser classificadas, oferecendo uma alternativa promissora aos métodos tradicionais de CNN. Embora desafios permaneçam em uso de memória e velocidades de inferência, as potenciais melhorias na precisão e na compreensão de características representam uma área valiosa para futuras pesquisas na análise de imagens de sonar. A exploração contínua de como esses modelos podem ser otimizados fornecerá insights e avanços importantes no campo.
Título: On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery
Resumo: Side-scan sonar (SSS) imagery presents unique challenges in the classification of man-made objects on the seafloor due to the complex and varied underwater environments. Historically, experts have manually interpreted SSS images, relying on conventional machine learning techniques with hand-crafted features. While Convolutional Neural Networks (CNNs) significantly advanced automated classification in this domain, they often fall short when dealing with diverse seafloor textures, such as rocky or ripple sand bottoms, where false positive rates may increase. Recently, Vision Transformers (ViTs) have shown potential in addressing these limitations by utilizing a self-attention mechanism to capture global information in image patches, offering more flexibility in processing spatial hierarchies. This paper rigorously compares the performance of ViT models alongside commonly used CNN architectures, such as ResNet and ConvNext, for binary classification tasks in SSS imagery. The dataset encompasses diverse geographical seafloor types and is balanced between the presence and absence of man-made objects. ViT-based models exhibit superior classification performance across f1-score, precision, recall, and accuracy metrics, although at the cost of greater computational resources. CNNs, with their inductive biases, demonstrate better computational efficiency, making them suitable for deployment in resource-constrained environments like underwater vehicles. Future research directions include exploring self-supervised learning for ViTs and multi-modal fusion to further enhance performance in challenging underwater environments.
Autores: BW Sheffield, Jeffrey Ellen, Ben Whitmore
Última atualização: 2024-09-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.12026
Fonte PDF: https://arxiv.org/pdf/2409.12026
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.