Avanços na Tecnologia de Inspeção de Casco de Navios Subaquáticos
A análise automática de vídeo melhora as inspeções de navios subaquáticos usando modelos avançados.
― 10 min ler
Índice
- Importância das Inspeções Subaquáticas do Casco de Navios
- Classificação Quadro a Quadro
- Objetivo Principal
- Trabalhos Relacionados
- Conjuntos de Dados
- Classificadores de Imagem Multi-rótulo ViT
- Confiança na Previsão e Características Temporais
- Métricas de Qualidade de Imagem Subaquática
- Geração de Dados de Vídeo e Anotação
- Classificadores de Vídeo Multi-rótulo
- Métricas de Avaliação para Classificadores de Vídeo Multi-rótulo
- Recursos de Hardware
- Resultados
- Conclusão e Trabalho Futuro
- Fonte original
- Ligações de referência
Inspeções do casco de navios são super importantes pra manter os barcos em boas condições. Essas inspeções verificam problemas como danos na camada externa, corrosão e crescimento marinho. Hoje em dia, muito desse trabalho é feito debaixo d'água usando Veículos Operados Remotamente (ROVs). Tradicionalmente, os inspetores analisam as filmagens manualmente, mas esse método é demorado e sujeito a erros.
Pra melhorar esse processo, sugerimos usar um sistema automático de análise de vídeo que utiliza tecnologia avançada em aprendizado profundo e visão computacional. Nosso sistema vai além de apenas olhar pra um único quadro de vídeo e considera as mudanças nas filmagens ao longo do tempo. Com isso, desenvolvemos um modelo de classificação de vídeo multi-rótulo que usa transformers pra focar nos detalhes importantes em quadros de vídeo consecutivos. Os resultados iniciais indicam que nosso método funciona bem e pode servir como referência pra futuras pesquisas em inspeções subaquáticas.
Importância das Inspeções Subaquáticas do Casco de Navios
Inspecionar o casco de um navio é crucial pra monitorar sua condição e vida útil. A inspeção analisa o revestimento exterior e identifica qualquer defeito que possa surgir devido à corrosão ou crescimento de vida marinha. Esses problemas podem prejudicar o casco e encurtar sua vida útil. Mais empresas estão transferindo as inspeções de docas secas pra debaixo d'água pra economizar grana e tempo. Os ROVs são usados pra realizar essas inspeções, reduzindo custos e evitando os riscos associados a mergulhadores humanos.
O processo geral de inspeção inclui três etapas:
- Coletar filmagens do casco do navio com um ROV.
- Analisar as filmagens de perto.
- Preparar um relatório com base nas descobertas.
A análise manual de vídeo é complicada e pode levar a erros. Dada a evolução da tecnologia, usar análise de vídeo automática tem potencial pra tornar as inspeções subaquáticas mais eficientes.
Classificação Quadro a Quadro
Uma abordagem comum, mas básica, pra análise de vídeo é olhar cada quadro do vídeo individualmente e identificar problemas como defeitos ou corrosão. Esse método só precisa de um classificador de imagem forte. Existem muitos modelos acessíveis que podem ser usados pra isso. Muitas vezes, os pesquisadores usam modelos de classificação de imagem pré-treinados e ajustam pra tarefas específicas.
No entanto, essa abordagem quadro a quadro tem uma grande desvantagem: ela só considera o que cada quadro contém sem levar em conta como os quadros se relacionam ao longo do tempo. Isso significa que falta informação vital baseada no tempo, que é crucial pra analisar vídeos de forma eficaz.
Objetivo Principal
Pra lidar com as limitações da classificação quadro a quadro, precisamos treinar modelos que consigam aprender tanto os aspectos espaciais quanto temporais dos vídeos. Nosso foco é melhorar a consistência das previsões feitas durante as inspeções subaquáticas.
Enquanto modelos tradicionais consideram ações dinâmicas, nossos vídeos mostram principalmente cenas estáticas com algum movimento do ROV. Queremos aproveitar a informação temporal pra estabilizar as previsões feitas durante a análise de vídeo. Este trabalho explora os benefícios e limitações de usar classificadores multi-rótulo baseados em imagem e propõe um modelo de classificação de vídeo que combina efetivamente informação espacial e temporal.
Trabalhos Relacionados
Tecnologia de Visão Computacional
Visão computacional envolve usar tecnologia pra permitir que máquinas interpretem informações visuais. Tem aplicações em vários campos, como agricultura, carros autônomos e imagem médica. Uma tecnologia bem conhecida nessa área é a Rede Neural Convolucional (CNN), que ajuda máquinas a entender imagens extraindo características espaciais. As CNNs avançaram bastante desde sua introdução pra tarefas de reconhecimento de dígitos.
Transformers de Visão
Recentemente, houve uma mudança na visão computacional usando transformers, inicialmente projetados pra processamento de linguagem. O Vision Transformer (ViT) aplica princípios semelhantes ao dividir imagens em partes menores e analisá-las em busca de relações. O ViT mostrou grande promessa no reconhecimento de imagens, e muitos pesquisadores começaram a adaptar essa tecnologia pra várias tarefas de visão.
No nosso trabalho, pretendemos treinar um classificador de imagem multi-rótulo ViT usando um conjunto de dados especificamente desenhado pra tarefas de inspeção subaquática. O mecanismo de autoatenção do ViT pode ajudar a capturar características importantes durante a análise de vídeo.
Localização Temporal de Ações
Pra entender vídeos de forma eficaz, é importante extrair o timing das ações mostradas nas filmagens. A Localização Temporal de Ações (TAL) foca em identificar intervalos em vídeos que contêm ações específicas. Enquanto TAL geralmente envolve reconhecer atividades dinâmicas, nossas inspeções muitas vezes envolvem cenas estáticas que duram muito tempo.
Existem dois tipos principais de métodos TAL:
- Unidimensional: Propõe segmentos de ação de uma vez e classifica-os simultaneamente.
- Bidimensional: Propõe segmentos primeiro, classifica as ações e depois refina os limites dos segmentos.
No nosso caso, preferimos uma abordagem fraca supervisionada pra treinar nosso modelo, já que temos vídeos sem anotações detalhadas de ações.
Características Espácio-Temporais em Classificação de Vídeos
As abordagens pra entender o conteúdo dos vídeos evoluíram de métodos mais antigos que usavam características feitas à mão pra técnicas de aprendizado profundo. Os Trajetórias Densas Melhoradas (iDT) foram uma das primeiras maneiras de extrair informação temporal. Avanços recentes introduziram 3D ConvNets que aprendem de dimensões espaciais e temporais de forma eficaz. Outros modelos como TimeSformer e ViViT também incorporam mecanismos de autoatenção pra melhorar a classificação de vídeo.
A relevância desses modelos pro nosso trabalho tá na habilidade deles de capturar ambos os tipos de informação, que pode ser benéfico pras nossas tarefas de inspeção subaquática.
Conjuntos de Dados
O conjunto de dados que estamos usando é o conjunto LIACI, que contém imagens extraídas de vários vídeos de inspeção de navios. O conjunto inclui um total de 1893 imagens RGB com várias classes, todas divididas em duas categorias principais:
- Componentes do Navio: Isso inclui itens como ânodos, hélices e válvulas de esgoto.
- Problemas de Revestimento Marinho: Isso aborda problemas como descamação de tinta e corrosão.
No entanto, decidimos excluir a classe do casco do navio durante o treinamento, já que apareceu em quase todas as imagens. Isso nos deixou com 1561 imagens do conjunto de dados. Embora o conjunto não esteja perfeitamente balanceado, é suficiente pra treinamento.
Pra avaliar nosso modelo de forma eficaz, também selecionamos trechos-chave de vídeos das inspeções, cada um durando cerca de 14 segundos e apresentando diferentes conteúdos visíveis.
Classificadores de Imagem Multi-rótulo ViT
Implementamos diferentes variantes dos modelos ViT pra classificar imagens. Nossa escolha foi baseada nos modelos disponíveis na estrutura PyTorch, que oferece fácil acesso pra carregar, modificar e re-treinar esses modelos. Selecionamos a arquitetura ViT-B/16 pra nosso trabalho.
Treinamos duas versões dos ViTs nos dados LIACI, uma pré-treinada no ImageNet e a outra no COCO 2014. O objetivo era ver como cada versão se comportava e escolher a melhor pra nossas necessidades.
Confiança na Previsão e Características Temporais
Pra entender como nosso modelo treinado se comporta, usamos OpenCV pra visualizar a confiança das previsões do modelo nos quadros de vídeo. Isso forneceu insights sobre como o modelo prevê várias classes de uma vez.
Examinar a consistência temporal é essencial pra avaliar quão estáveis são as previsões do modelo ao longo das filmagens. Essa análise ajuda a determinar se o modelo reconhece as classes de forma consistente entre diferentes quadros.
Métricas de Qualidade de Imagem Subaquática
Medir a qualidade das imagens subaquáticas é crítico, já que imagens de baixa qualidade podem impactar negativamente o desempenho do modelo. Usamos duas métricas específicas desenhadas pra imagens subaquáticas, UCIQE e UIQM. Essas métricas sem referência ajudam a relacionar a qualidade da imagem à confiança das previsões do modelo.
Geração de Dados de Vídeo e Anotação
Pra criar os dados de treinamento necessários, extraímos trechos de vídeo das imagens do conjunto LIACI. Cada trecho incluiu sete quadros consecutivos, com o quadro do meio servindo como referência pra rótulos de classe. Isso nos permitiu aplicar uma estratégia de anotação fraca supervisionada. Os dados foram então divididos em conjuntos de treinamento, validação e não utilizados pra treinamento do modelo.
Classificadores de Vídeo Multi-rótulo
Treinamos diferentes variantes de classificadores de vídeo que usaram arquiteturas ViT. Os esforços iniciais de treinamento com métodos padrão enfrentaram desafios, levando-nos a explorar várias técnicas pra melhorar a performance. As melhorias incluíram o uso de transformers espaciais e temporais pra lidar com características dos trechos de entrada de forma eficaz.
A eficácia dos modelos de vídeo variou com base no design e nas melhorias feitas durante o treinamento. Nossa meta era desenvolver classificadores que pudessem prever melhor os rótulos de classe enquanto estabilizavam a confiança em vários quadros.
Métricas de Avaliação para Classificadores de Vídeo Multi-rótulo
Avaliar o desempenho na classificação multi-rótulo é mais complexo do que em cenários tradicionais de multi-classe. Utilizamos métricas como precisão, revocação e F1-score pra avaliar nossos modelos. Essas medidas ajudam a quantificar quão bem o modelo se sai na classificação de cada rótulo.
Recursos de Hardware
Pra treinar tanto os modelos de imagem quanto os de vídeo, usamos várias configurações de hardware, principalmente GPUs NVIDIA projetadas pra tarefas computacionais intensivas. Esse hardware facilitou tempos de treinamento e processamento mais rápidos.
Resultados
Através de treinamento e testes extensivos, observamos o desempenho dos nossos modelos em vários trechos, notando como as flutuações nas previsões ocorreram mesmo em quadros que pareciam semelhantes. A análise também destacou relacionamentos entre métricas de qualidade de imagem e a confiança do modelo em fazer previsões.
Na nossa avaliação, o modelo COCO ViT superou consistentemente o modelo IMAGENET ViT, exceto nas métricas de precisão. A programação da taxa de aprendizado desempenhou um papel significativo em guiar nosso modelo pra um desempenho melhor.
Introduzimos vários modelos de vídeo, avaliando sua capacidade de classificar múltiplos rótulos com precisão. Enquanto algumas tentativas iniciais de amostragem de quadros lutaram pra convergir, versões posteriores demonstraram desempenho melhorado através de ajustes nas estratégias subjacentes.
Conclusão e Trabalho Futuro
Nosso trabalho destaca a importância de avançar nas técnicas de classificação de vídeo em inspeções subaquáticas. Conseguimos treinar vários classificadores multi-rótulo e investigar como melhorar o desempenho daqui pra frente. As principais áreas pra pesquisas futuras incluem coletar dados mais diversos, explorar estratégias de treinamento alternativas e criar métricas pra quantificar o desempenho temporal.
A exploração contínua de novas arquiteturas e conjuntos de dados visa aprimorar a confiabilidade e precisão dos nossos modelos. Este trabalho estabelece uma referência pra pesquisas futuras, e esperamos ver avanços nas tecnologias de inspeção subaquática.
Título: Multi-label Video Classification for Underwater Ship Inspection
Resumo: Today ship hull inspection including the examination of the external coating, detection of defects, and other types of external degradation such as corrosion and marine growth is conducted underwater by means of Remotely Operated Vehicles (ROVs). The inspection process consists of a manual video analysis which is a time-consuming and labor-intensive process. To address this, we propose an automatic video analysis system using deep learning and computer vision to improve upon existing methods that only consider spatial information on individual frames in underwater ship hull video inspection. By exploring the benefits of adding temporal information and analyzing frame-based classifiers, we propose a multi-label video classification model that exploits the self-attention mechanism of transformers to capture spatiotemporal attention in consecutive video frames. Our proposed method has demonstrated promising results and can serve as a benchmark for future research and development in underwater video inspection applications.
Autores: Md Abulkalam Azad, Ahmed Mohammed, Maryna Waszak, Brian Elvesæter, Martin Ludvigsen
Última atualização: 2023-05-26 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.17338
Fonte PDF: https://arxiv.org/pdf/2305.17338
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.