Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale

Sviluppi nella tecnologia di ispezione dello scafo delle navi sott'acqua

L'analisi video automatica migliora le ispezioni subacquee delle navi grazie a modelli avanzati.

― 9 leggere min


Rivoluzione nellaRivoluzione nellatecnologia per ispezionisubacqueescafo delle navi.l'accuratezza dell'ispezione delloModelli innovativi migliorano
Indice

Le ispezioni degli scafi delle navi sono fondamentali per mantenere le imbarcazioni in buono stato. Queste ispezioni controllano problemi come danni allo strato esterno, corrosione e crescita marina. Oggi gran parte di questo lavoro si svolge sott'acqua usando veicoli sottomarini telecomandati (ROV). Tradizionalmente, gli ispettori analizzano i filmati video guardandoli manualmente. Questo metodo è lento e soggetto a errori.

Per migliorare questo processo, suggeriamo di usare un sistema di analisi video automatica che utilizza tecnologie avanzate nel deep learning e nella visione artificiale. Il nostro sistema va oltre il semplice esame dei singoli fotogrammi video e tiene conto dei cambiamenti nei filmati nel tempo. Così facendo, sviluppiamo un modello di classificazione video multi-etichetta che usa i trasformatori per concentrarsi sui dettagli importanti nei fotogrammi video consecutivi. I primi risultati indicano che il nostro metodo funziona bene e può servire da riferimento per ricerche future nelle ispezioni subacquee.

Importanza delle Ispezioni Subacquee degli Scafi

Ispezionare lo scafo di una nave è cruciale per monitorare le sue condizioni e la sua durata. L'ispezione esamina il rivestimento esterno e identifica eventuali difetti che possono derivare da corrosione o crescita di vita marina. Questi problemi possono danneggiare lo scafo e abbreviare la sua vita utile. Sempre più aziende stanno spostando le ispezioni dai bacini di carenaggio a sott'acqua per risparmiare tempo e denaro. I ROV vengono utilizzati per effettuare queste ispezioni, riducendo i costi e evitando i rischi associati ai subacquei umani.

Il processo di ispezione generale include tre passaggi:

  1. Raccolta di filmati video dello scafo della nave con un ROV.
  2. Analisi attenta del filmato.
  3. Preparazione di un rapporto basato sui risultati.

L'analisi video manuale è complessa e può portare a errori. Data l'avanzata della tecnologia, l'uso dell'analisi video automatica ha il potenziale per rendere le ispezioni subacquee più efficienti.

Classificazione Fotogramma per Fotogramma

Un approccio comune, ma di base, all'analisi video è esaminare ciascun fotogramma del video singolarmente e identificare problemi come difetti o corrosione. Questo metodo richiede solo un forte classificatore di immagini. Ci sono molti modelli accessibili che possono essere utilizzati a questo scopo. Spesso, i ricercatori usano modelli di classificazione delle immagini pre-addestrati e li ottimizzano per compiti specifici.

Tuttavia, questo approccio fotogramma per fotogramma ha un grosso svantaggio: guarda solo a cosa contiene ogni fotogramma senza considerare come i fotogrammi si relazionano tra loro nel tempo. Questo significa che manca di informazioni fondamentali basate sul tempo, che sono cruciali per analizzare i video in modo efficace.

Obiettivo Principale

Per affrontare le carenze della classificazione fotogramma per fotogramma, dobbiamo addestrare modelli che possano apprendere sia dagli aspetti spaziali che temporali dei video. Ci concentriamo sul migliorare la coerenza delle previsioni fatte durante le ispezioni subacquee.

Mentre i modelli tradizionali considerano azioni dinamiche, i nostri video mostrano principalmente scene statiche con qualche movimento del ROV. Vogliamo sfruttare le informazioni temporali per stabilizzare le previsioni fatte durante l'analisi video. Questo documento esplora i vantaggi e le limitazioni dell'uso di classificatori multi-etichetta basati su immagini e propone un modello di classificazione video che combina efficacemente informazioni spaziali e temporali.

Lavori Correlati

Tecnologia della Visione Artificiale

La visione artificiale implica l'uso della tecnologia per consentire alle macchine di interpretare le informazioni visive. Ha applicazioni in diversi campi, come l'agricoltura, le auto a guida autonoma e l'imaging medico. Una tecnologia ben nota in questo settore è la Rete Neurale Convoluzionale (CNN), che aiuta le macchine a comprendere le immagini estraendo caratteristiche spaziali. Le CNN hanno fatto notevoli progressi da quando sono state introdotte per compiti di riconoscimento di cifre.

Trasformatori per la Visione

Recentemente, c'è stata una svolta nella visione artificiale usando trasformatori, inizialmente progettati per l'elaborazione del linguaggio. Il Vision Transformer (ViT) applica principi simili suddividendo le immagini in sezioni più piccole e analizzandole per relazioni. Il ViT ha mostrato grande promessa nel riconoscimento delle immagini, e molti ricercatori hanno iniziato ad adattare questa tecnologia per vari compiti visivi.

Nel nostro lavoro, puntiamo ad addestrare un classificatore di immagini multi-etichetta ViT utilizzando un dataset specificamente progettato per compiti di ispezione subacquea. Il meccanismo di autoattenzione del ViT può aiutare a catturare caratteristiche importanti durante l'analisi video.

Localizzazione temporale delle azioni

Per comprendere i video in modo efficace, è importante estrarre i tempi delle azioni mostrate nel filmato. La Localizzazione Temporale delle Azioni (TAL) si concentra sull'identificazione degli intervalli nei video che contengono azioni particolari. Anche se la TAL di solito coinvolge il riconoscimento di attività dinamiche, le nostre ispezioni spesso comprendono scene statiche che durano a lungo.

Ci sono due tipi principali di metodi TAL:

  1. A fase unica: propone i segmenti di azione in un colpo solo e li classifica simultaneamente.
  2. A due fasi: propone prima i segmenti, poi classifica le azioni e infine affina i confini dei segmenti.

Nel nostro caso, ci orientiamo verso un approccio debolmente supervisionato per addestrare il nostro modello, poiché abbiamo video senza annotazioni dettagliate delle azioni.

Caratteristiche Spaziali e Temporali nella Classificazione Video

Gli approcci per comprendere il contenuto video si sono evoluti da metodi precedenti che usavano caratteristiche fatte a mano a tecniche di deep learning. Le Traiettorie Dense Migliorate (iDT) sono state uno dei primi modi per estrarre informazioni temporali. I recenti progressi hanno introdotto reti 3D ConvNets che apprendono efficacemente dalle dimensioni spaziali e temporali. Altri modelli come TimeSformer e ViViT incorporano anche meccanismi di autoattenzione per migliorare la classificazione video.

La rilevanza di questi modelli per il nostro lavoro risiede nella loro capacità di catturare entrambi i tipi di informazioni, che possono essere utili per i nostri compiti di ispezione subacquea.

Dataset

Il dataset che stiamo utilizzando è il dataset LIACI, che contiene immagini estratte da vari video di ispezione delle navi. Il dataset include un totale di 1893 immagini RGB con diverse etichette di classe, tutte suddivise in due categorie principali:

  1. Componenti della Nave: Questo include elementi come anodi, eliche e valvole di scarico.
  2. Problemi di Rivestimento Marino: Questo copre problemi come il distacco della vernice e la corrosione.

Tuttavia, abbiamo deciso di escludere la classe dello scafo della nave durante l'addestramento poiché appariva in quasi tutte le immagini. Questo ci ha lasciato con 1561 immagini dal dataset. Anche se il dataset non è perfettamente bilanciato, è sufficiente per l'addestramento.

Per valutare efficacemente il nostro modello, abbiamo anche selezionato clip video chiave dai video di ispezione, ciascuna della durata di circa 14 secondi, e che mostrano contenuti visibili diversi.

Classificatori di Immagini Multi-etichetta ViT

Abbiamo implementato diverse varianti dei modelli ViT per classificare le immagini. La nostra scelta si è basata sui modelli disponibili nel framework PyTorch, che offre un facile accesso per caricare, modificare e riaddestrare questi modelli. Abbiamo scelto l'architettura ViT-B/16 per il nostro lavoro.

Abbiamo addestrato due versioni dei ViT sui dati LIACI, una pre-addestrata su ImageNet e l'altra su COCO 2014. L'obiettivo era vedere come si comportava ciascuna versione e scegliere la migliore per le nostre esigenze.

Fiducia nelle Previsioni e Caratteristiche Temporali

Per capire quanto bene performa il nostro modello addestrato, abbiamo utilizzato OpenCV per visualizzare la fiducia delle previsioni del modello sui fotogrammi video. Questo ha fornito indicazioni su come il modello prevede più classi contemporaneamente.

Esaminare la coerenza temporale è essenziale per valutare quanto siano stabili le previsioni del modello durante il filmato video. Questa analisi aiuta a determinare se il modello riconosce consistentemente le classi attraverso diversi fotogrammi.

Metriche di Qualità delle Immagini Subacquee

Misurare la qualità delle immagini subacquee è critico poiché immagini di scarsa qualità possono influenzare negativamente le performance del modello. Abbiamo utilizzato due metriche specifiche per le immagini subacquee, UCIQE e UIQM. Queste metriche senza riferimento aiutano a mettere in relazione la qualità dell'immagine con la fiducia delle previsioni del modello.

Generazione e Annotazione dei Dati Video

Per creare i dati di addestramento necessari, abbiamo estratto frammenti video dalle immagini nel dataset LIACI. Ogni frammento includeva sette fotogrammi consecutivi, con il fotogramma centrale che serviva come riferimento per le etichette di classe. Questo ci ha permesso di applicare una strategia di annotazione debolmente supervisionata. I dati sono stati poi divisi in set di addestramento, validazione e non utilizzati per l'addestramento del modello.

Classificatori Video Multi-etichetta

Abbiamo addestrato diverse varianti di classificatori video che utilizzavano architetture ViT. I primi sforzi di addestramento con metodi standard hanno affrontato delle sfide, portandoci a esplorare varie tecniche per migliorare le performance. Gli aggiornamenti includevano l'uso di trasformatori spaziali e temporali per gestire efficacemente le caratteristiche degli snippet di input.

L'efficacia dei modelli video variava in base al design e ai miglioramenti apportati durante l'addestramento. Il nostro obiettivo era sviluppare classificatori che potessero prevedere meglio le etichette delle classi mentre stabilizzano la fiducia su più fotogrammi.

Metriche di Valutazione per Classificatori Video Multi-etichetta

Valutare la performance nella classificazione multi-etichetta è più complesso rispetto a scenari tradizionali di classi multiple. Abbiamo utilizzato metriche come accuratezza, precisione, richiamo e F1-score per valutare i nostri modelli. Queste misure aiutano a quantificare quanto bene il modello performa nella classificazione di ciascuna etichetta.

Risorse Hardware

Per addestrare sia i modelli di immagini che di video, abbiamo utilizzato diverse configurazioni hardware, principalmente GPU NVIDIA progettate per compiti computazionali elevati. Questa hardware ha facilitato tempi di addestramento e processamento più rapidi.

Risultati

Attraverso un addestramento e un testing approfonditi, abbiamo osservato le performance dei nostri modelli su vari snippet, notando come fluttuazioni nelle previsioni si sono verificate anche in fotogrammi che apparivano simili. L'analisi ha anche messo in evidenza le relazioni tra le metriche di qualità delle immagini e la fiducia del modello nel fare previsioni.

Nella nostra valutazione, il modello ViT COCO ha costantemente superato il modello ViT IMAGENET, a parte le metriche di precisione. La programmazione del tasso di apprendimento ha giocato un ruolo significativo nell'orientare il nostro modello verso migliori performance.

Abbiamo introdotto vari modelli video, valutando la loro capacità di classificare più etichette accuratamente. Anche se alcuni tentativi iniziali di campionamento dei fotogrammi hanno avuto difficoltà con la convergenza, versioni successive hanno dimostrato performance migliorate grazie ad aggiustamenti delle strategie sottostanti.

Conclusione e Lavori Futuri

Il nostro lavoro evidenzia l'importanza di avanzare le tecniche di classificazione video nelle ispezioni subacquee. Abbiamo addestrato con successo numerosi classificatori multi-etichetta e indagato come migliorare le performance in futuro. Aree chiave per future ricerche includono la raccolta di dati più diversificati, l'esplorazione di strategie di addestramento alternative e la creazione di metriche per quantificare le performance temporali.

La continua esplorazione di nuove architetture e dataset mira a migliorare l'affidabilità e l'accuratezza dei nostri modelli. Questo lavoro stabilisce un benchmark per future ricerche, e speriamo di vedere avanzamenti nelle tecnologie di ispezione subacquee.

Fonte originale

Titolo: Multi-label Video Classification for Underwater Ship Inspection

Estratto: Today ship hull inspection including the examination of the external coating, detection of defects, and other types of external degradation such as corrosion and marine growth is conducted underwater by means of Remotely Operated Vehicles (ROVs). The inspection process consists of a manual video analysis which is a time-consuming and labor-intensive process. To address this, we propose an automatic video analysis system using deep learning and computer vision to improve upon existing methods that only consider spatial information on individual frames in underwater ship hull video inspection. By exploring the benefits of adding temporal information and analyzing frame-based classifiers, we propose a multi-label video classification model that exploits the self-attention mechanism of transformers to capture spatiotemporal attention in consecutive video frames. Our proposed method has demonstrated promising results and can serve as a benchmark for future research and development in underwater video inspection applications.

Autori: Md Abulkalam Azad, Ahmed Mohammed, Maryna Waszak, Brian Elvesæter, Martin Ludvigsen

Ultimo aggiornamento: 2023-05-26 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2305.17338

Fonte PDF: https://arxiv.org/pdf/2305.17338

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili