Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Apprendimento automatico

Progressi nella classificazione delle immagini SSS con Vision Transformers

Questo articolo confronta i Vision Transformers e le CNN per classificare le immagini sonar a scansione laterale.

BW Sheffield, Jeffrey Ellen, Ben Whitmore

― 6 leggere min


ViTs vs CNNs nelleViTs vs CNNs nelleImmagini Sonarscansione laterale.classificazione nelle immagini sonar aEsaminando le prestazioni di
Indice

Classificare le immagini da sonar a scansione laterale (SSS) è di solito un compito per esperti, che uniscono la loro esperienza con metodi di machine learning standard che si basano su caratteristiche create a mano. Questi metodi tradizionali possono funzionare, ma richiedono molto tempo e non catturano sempre i dettagli complessi delle immagini subacquee. L'introduzione delle Reti Neurali Convoluzionali (CNN) ha cambiato tutto, offrendo modi migliori per estrarre caratteristiche dalle immagini e automatizzare il processo di classificazione in parte.

Questo articolo discute come i Vision Transformers (ViT) stanno cambiando l'approccio all'analisi delle immagini SSS. I ViT usano un metodo unico in cui prestano attenzione a diverse parti di un'immagine contemporaneamente, il che aiuta a capire meglio la disposizione e i dettagli presenti nelle scene subacquee rispetto alle CNN. Mentre le CNN si concentrano principalmente su piccole parti di un'immagine, i ViT possono guardare sezioni più grandi insieme. Questo potrebbe essere molto utile per identificare oggetti costruiti dall'uomo in ambienti dove le caratteristiche naturali, come rocce o aree sabbiose, potrebbero confondere le CNN.

Vision Transformers nella Classificazione delle Immagini

L'obiettivo della ricerca è confrontare i ViT con i modelli CNN consolidati per classificare le immagini SSS. Valutando diversi parametri e considerando quanto è efficiente ciascun modello, si intende evidenziare i punti di forza e di debolezza di ogni tipo di modello. Questo potrebbe aiutare la ricerca futura nel machine learning per i sistemi sonar.

Lavori Correlati

I ViT hanno mostrato molte promesse in termini di prestazioni, spesso superando le CNN tradizionali e richiedendo meno risorse per essere addestrati. Un importante sviluppo è stato fatto adattando il concetto di attenzione utilizzato nell'elaborazione del linguaggio per lavorare con le immagini. I tentativi precedenti di applicare l'attenzione alle immagini consideravano ogni pixel in relazione a tutti gli altri pixel, il che era molto dispendioso in termini di risorse. Invece, il nuovo approccio confronta prima blocchi locali dell'immagine, poi esamina le relazioni tra questi blocchi, permettendo un'elaborazione più efficiente.

I ViT hanno anche dimostrato di eccellere nelle immagini di telerilevamento, che condividono somiglianze con le immagini SSS, poiché entrambe guardano verso il basso e non sono ampiamente rappresentate nelle biblioteche di deep learning comuni. Recenti sondaggi hanno esplorato ulteriormente i ViT in applicazioni, inclusa l'imaging medico e il telerilevamento.

Nel campo dell'acustica subacquea, sono stati introdotti nuovi modelli come il Modello di Trasformatore Spettrale (STM) e la Rete Dual-Path Vision Transformer (DP-ViT). Questi modelli applicano concetti di trasformatori per identificare suoni subacquei e rilevare obiettivi nelle immagini sonar, mostrando risultati migliori rispetto alle CNN standard.

Architetture dei Modelli

In questo studio, valutiamo più modelli, in particolare due modelli CNN (ResNet e ConvNext) e due modelli ViT (ViT e SwinViT). Le dimensioni di ciascun modello sono scelte da varianti più piccole per evitare problemi con modelli più grandi. Tutti i modelli sono progettati per lavorare sia con dati a bassa che ad alta frequenza da SSS, utilizzando frammenti di immagine di 224x224 pixel che presentano o meno un oggetto costruito dall'uomo. I dataset utilizzati erano bilanciati, con numeri uguali di casi positivi e negativi.

I dati sono stati raccolti da un sonar ad apertura sintetica a doppia frequenza (SAS) in diverse località, creando immagini ad alta risoluzione. Queste immagini sono state ritagliate e ridimensionate per soddisfare i requisiti del modello. I modelli sono stati addestrati usando PyTorch su unità di elaborazione grafica di alta gamma, e pesi pre-addestrati hanno aiutato a dare il via al processo di apprendimento. Per ridurre l’overfitting-dove un modello si comporta bene sui dati di addestramento ma male sui dati nuovi-sono state implementate varie strategie, inclusa l'ottimizzazione contro i dati di convalida.

L’addestramento ha incluso anche diverse augmentazioni per aggiungere varietà al dataset. Tuttavia, abbiamo evitato alcune augmentazioni che potrebbero distorcere come i dati sonar vengono tipicamente raccolti. Ad esempio, rovesciare un'immagine non rappresenterebbe accuratamente come funziona il sonar nella vita reale.

Metriche di Valutazione

Valutiamo l'efficacia dei modelli con quattro criteri di valutazione chiave: f1-score, recall, precision e accuracy. Queste metriche aiutano a valutare quanto bene i modelli possano identificare correttamente oggetti reali e limitare gli errori dove classificano erroneamente qualcosa.

  • Precision misura quanto è bravo il modello a restituire solo le istanze giuste.
  • Recall indica quanto è bravo il modello a trovare tutte le istanze rilevanti.
  • F1-Score serve come bilanciamento tra precision e recall, fornendo una visione più chiara delle prestazioni del modello.
  • Accuracy valuta le prestazioni complessive ma può essere fuorviante in situazioni in cui gli oggetti costruiti dall'uomo sono rari rispetto a molte caratteristiche di sfondo.

Efficienza Computazionale

Misuriamo quanto efficientemente ciascun modello elabora i dati guardando alla velocità media di inferenza, al numero di istanze elaborate al secondo e al conteggio dei calcoli effettuati in un secondo. Anche il numero di parametri in un modello influisce sulla sua capacità di apprendere, con modelli più grandi che necessitano di più dati e risorse per l'addestramento.

La velocità di inferenza è particolarmente importante per applicazioni in tempo reale, come in veicoli subacquei. Anche se i ViT hanno mostrato migliori prestazioni di classificazione, spesso richiedono più memoria e sono più lenti delle CNN. Questa discrepanza limita il loro utilizzo in alcuni scenari.

Discussione dei Risultati

Lo studio ha trovato che i ViT generalmente hanno superato le CNN nella classificazione delle immagini SSS. Tuttavia, le loro prestazioni hanno un costo. I ViT tendono a richiedere più risorse computazionali a causa di un numero maggiore di parametri. Ad esempio, mentre ResNet-101 è già pesante in termini di risorse, ViT-B ha quasi il doppio del conteggio dei parametri. Le velocità di inferenza più lente nei ViT pongono anche sfide per il deployment immediato, specialmente in contesti subacquei dove l'efficienza è cruciale.

Nelle applicazioni pratiche, le CNN detengono ancora un vantaggio significativo grazie ai loro punti di forza incorporati che permettono loro di apprendere in modo efficace con dataset più piccoli. Tuttavia, i modelli ViT hanno mostrato un grande potenziale quando addestrati con dati sufficienti, in particolare in ambienti diversificati presentati nelle immagini SSS.

I risultati suggeriscono che, anche se i ViT potrebbero non essere ancora pronti per il deployment nel mondo reale in scenari a risorse limitate, possono migliorare significativamente la precisione di classificazione quando calibrati correttamente. La ricerca futura potrebbe esplorare modi per ottimizzare questi modelli, ad esempio attraverso metodi che consumano meno risorse come la quantizzazione e il pruning.

Direzioni Future

Guardando avanti, i ricercatori esploreranno tecniche di apprendimento auto-supervisionato che coinvolgono dati non etichettati. Inoltre, integrare diversi tipi di dati dai veicoli subacquei potrebbe fornire informazioni preziose e migliorare le capacità predittive. C'è una grande opportunità di sfruttare questi metodi per far avanzare ulteriormente il campo, costruendo sui punti di forza sia dei ViT che delle CNN per migliorare i compiti di classificazione delle immagini in SSS e oltre.

Conclusione

L'introduzione e l'analisi dei Vision Transformers segnano un cambiamento significativo nel modo in cui le immagini SSS possono essere classificate, offrendo un'alternativa promettente ai metodi CNN tradizionali. Anche se ci sono ancora sfide nell'uso della memoria e nelle velocità di inferenza, i potenziali miglioramenti in termini di precisione e comprensione delle caratteristiche rappresentano un'area preziosa per la ricerca futura nell'analisi delle immagini sonar. L'esplorazione continua di come ottimizzare questi modelli fornirà importanti intuizioni e progressi nel campo.

Fonte originale

Titolo: On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery

Estratto: Side-scan sonar (SSS) imagery presents unique challenges in the classification of man-made objects on the seafloor due to the complex and varied underwater environments. Historically, experts have manually interpreted SSS images, relying on conventional machine learning techniques with hand-crafted features. While Convolutional Neural Networks (CNNs) significantly advanced automated classification in this domain, they often fall short when dealing with diverse seafloor textures, such as rocky or ripple sand bottoms, where false positive rates may increase. Recently, Vision Transformers (ViTs) have shown potential in addressing these limitations by utilizing a self-attention mechanism to capture global information in image patches, offering more flexibility in processing spatial hierarchies. This paper rigorously compares the performance of ViT models alongside commonly used CNN architectures, such as ResNet and ConvNext, for binary classification tasks in SSS imagery. The dataset encompasses diverse geographical seafloor types and is balanced between the presence and absence of man-made objects. ViT-based models exhibit superior classification performance across f1-score, precision, recall, and accuracy metrics, although at the cost of greater computational resources. CNNs, with their inductive biases, demonstrate better computational efficiency, making them suitable for deployment in resource-constrained environments like underwater vehicles. Future research directions include exploring self-supervised learning for ViTs and multi-modal fusion to further enhance performance in challenging underwater environments.

Autori: BW Sheffield, Jeffrey Ellen, Ben Whitmore

Ultimo aggiornamento: Sep 18, 2024

Lingua: English

URL di origine: https://arxiv.org/abs/2409.12026

Fonte PDF: https://arxiv.org/pdf/2409.12026

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili