Avancées dans la classification d'images SSS avec les Vision Transformers
Ce papier compare les Vision Transformers et les CNN pour classifier des images de sonar latéral.
BW Sheffield, Jeffrey Ellen, Ben Whitmore
― 8 min lire
Table des matières
Classer des images à partir de sonar à balayage latéral (SSS) est généralement un boulot pour des experts, qui mélangent leur expérience avec des méthodes d'apprentissage machine classiques basées sur des caractéristiques créées à la main. Ces méthodes traditionnelles fonctionnent mais prennent beaucoup de temps et ne capturent pas toujours les détails complexes des images sous-marines. L'arrivée des Réseaux de Neurones Convolutionnels (CNN) a changé la donne en proposant de meilleures façons d'extraire des caractéristiques des images et d'automatiser en partie le processus de classification.
Cet article discute de comment les Vision Transformers (ViTs) modifient l'approche d'analyse des images SSS. Les ViTs utilisent une méthode unique où ils portent attention à différentes parties d'une image en même temps, ce qui aide à mieux comprendre la disposition et les détails dans les scènes sous-marines par rapport aux CNN. Tandis que les CNN se concentrent surtout sur de petites parties de l'image à cause de leur fonctionnement, les ViTs peuvent regarder des sections plus larges ensemble. Ça pourrait être super utile pour identifier des objets faits par l'homme dans des environnements où les caractéristiques naturelles, comme les rochers ou les zones sablonneuses, pourraient embrouiller les CNN.
Vision Transformers et Classification d’Images
Le but de cette recherche est de comparer les ViTs aux modèles CNN établis pour classer les images SSS. En évaluant plusieurs métriques et en regardant l'efficacité de chaque modèle, l'objectif est de mettre en avant les forces et faiblesses de chaque type de modèle. Ça pourrait être utile pour les recherches futures dans l'apprentissage machine pour les systèmes sonar.
Travaux Connus
Les ViTs montrent de bonnes performances, dépassant souvent les CNN traditionnels tout en nécessitant moins de ressources pour l'entraînement. Un développement clé a été d'adapter le concept d'attention utilisé en traitement de langage pour fonctionner avec des images. Les tentatives précédentes d'appliquer l'attention aux images regardaient chaque pixel en rapport avec chaque autre pixel, ce qui était gourmand en ressources. Au lieu de ça, la nouvelle approche compare d'abord des blocs d'images locaux, puis examine les relations entre ces blocs, permettant un traitement plus efficace.
Les ViTs ont aussi prouvé leur efficacité dans les images de télédétection, qui présentent des similitudes avec les images SSS, car les deux regardent vers le bas et ne sont pas très représentées dans les bibliothèques d'apprentissage profond classiques. Des enquêtes récentes ont approfondi les ViTs dans des applications comme l'imagerie médicale et la télédétection.
Dans l'acoustique sous-marine, de nouveaux modèles comme le Spectrogram Transformer Model (STM) et le Dual-Path Vision Transformer Network (DP-ViT) ont été introduits. Ces modèles appliquent des concepts de transformateur pour identifier des sons sous-marins et détecter des cibles dans des images sonar, montrant de meilleurs résultats que les CNN standards.
Architectures de Modèle
Dans cette étude, on évalue plusieurs modèles, spécifiquement deux modèles CNN (ResNet et ConvNext) et deux modèles ViT (ViT et SwinViT). Chaque modèle est choisi parmi des variantes plus petites pour éviter les soucis avec des modèles plus gros. Tous les modèles sont conçus pour fonctionner avec des données en basse et haute fréquence provenant du SSS, en utilisant des extraits d'images de 224x224 pixels qui présentent ou non un objet fait par l'homme. Les ensembles de données utilisés étaient équilibrés, avec un nombre égal de cas positifs et négatifs.
Les données ont été collectées à partir d'un sonar à ouverture synthétique duale (SAS) à travers différents endroits, créant des images haute résolution. Ces images ont été recadrées et redimensionnées pour répondre aux exigences des modèles. Les modèles ont été entraînés avec PyTorch sur des unités de traitement graphique haut de gamme, et des poids pré-entraînés ont aidé à démarrer le processus d'apprentissage. Pour minimiser le surajustement - quand un modèle fonctionne bien sur les données d'entraînement mais mal sur de nouvelles données - différentes stratégies ont été mises en œuvre, y compris l'optimisation contre les données de validation.
L'entraînement a aussi inclus différentes augmentations pour diversifier l'ensemble de données. Cependant, on a évité certaines augmentations qui pourraient déformer la façon dont les données sonar sont habituellement collectées. Par exemple, retourner une image à l'envers ne représenterait pas fidèlement le fonctionnement du sonar dans la réalité.
Métriques d'évaluation
On évalue l'efficacité des modèles avec quatre critères d'évaluation clés : f1-score, rappel, précision, et exactitude. Ces métriques aident à évaluer comment bien les modèles peuvent identifier correctement les objets réels et limiter les erreurs où ils classifient par erreur quelque chose.
- Précision mesure à quel point le modèle retourne uniquement les bonnes instances.
- Rappel indique à quel point le modèle trouve toutes les instances pertinentes.
- F1-Score sert de balance entre précision et rappel, donnant une meilleure idée de la performance du modèle.
- Exactitude évalue la performance globale mais peut être trompeuse dans des situations où les objets faits par l'homme sont rares comparés à beaucoup de caractéristiques de fond.
Efficacité computationnelle
On mesure l'efficacité de chaque modèle en regardant la vitesse d'inférence moyenne, le nombre d'instances traitées par seconde, et le nombre de calculs effectués en une seconde. Le nombre de paramètres dans un modèle affecte aussi sa capacité à apprendre, avec des modèles plus gros nécessitant plus de données et de ressources pour s'entraîner.
La vitesse d'inférence est particulièrement importante pour les applications en temps réel, comme dans les véhicules sous-marins. Alors que les ViTs montrent une meilleure performance en classification, ils nécessitent souvent plus de mémoire et sont plus lents que les CNN. Cette différence limite leur utilisation dans certains scénarios.
Discussion des Résultats
L'étude a trouvé que les ViTs surpassaient généralement les CNN dans la classification des images SSS. Cependant, leur performance a un coût. Les ViTs ont tendance à nécessiter plus de ressources computationnelles à cause d'un plus grand nombre de paramètres. Par exemple, tandis que ResNet-101 est déjà gourmand en ressources, ViT-B a presque le double du nombre de paramètres. De plus, les vitesses d'inférence plus lentes des ViTs posent des défis pour un déploiement immédiat, surtout dans des environnements sous-marins où l'efficacité est cruciale.
Dans les applications pratiques, les CNN ont encore un avantage significatif grâce à leurs forces intégrées qui leur permettent d'apprendre efficacement avec des ensembles de données plus petits. Cependant, les modèles ViT ont montré beaucoup de potentiel quand ils sont formés avec suffisamment de données, notamment dans des environnements divers présentés dans les images SSS.
Les résultats suggèrent que bien que les ViTs ne soient pas encore prêts pour un déploiement dans le monde réel dans des scénarios à ressources limitées, ils peuvent considérablement améliorer la précision de classification quand ils sont bien calibrés. Les recherches futures pourraient explorer des façons d'optimiser ces modèles, comme par des méthodes moins gourmandes en ressources comme la quantification et l'élagage.
Directions Futures
En regardant vers l'avenir, les chercheurs vont examiner des techniques d'apprentissage auto-supervisé impliquant des données non étiquetées. De plus, intégrer différents types de données provenant de véhicules sous-marins pourrait fournir des insights précieux et améliorer les capacités prédictives. Il y a une grande opportunité de tirer parti de ces méthodes pour avancer encore plus dans le domaine, en bâtissant sur les forces des ViTs et des CNN pour améliorer les tâches de Classification d'images dans le SSS et au-delà.
Conclusion
L'introduction et l'analyse des Vision Transformers marque un tournant important dans la façon dont les images SSS peuvent être classées, offrant une alternative prometteuse aux méthodes CNN traditionnelles. Bien que des défis demeurent en termes d'utilisation de mémoire et de vitesses d'inférence, les améliorations potentielles en précision et compréhension des caractéristiques présentent un domaine précieux pour de futures recherches dans l'analyse des images sonar. L'exploration continue de comment ces modèles peuvent être optimisés fournira des insights et des avancées importantes dans le domaine.
Titre: On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery
Résumé: Side-scan sonar (SSS) imagery presents unique challenges in the classification of man-made objects on the seafloor due to the complex and varied underwater environments. Historically, experts have manually interpreted SSS images, relying on conventional machine learning techniques with hand-crafted features. While Convolutional Neural Networks (CNNs) significantly advanced automated classification in this domain, they often fall short when dealing with diverse seafloor textures, such as rocky or ripple sand bottoms, where false positive rates may increase. Recently, Vision Transformers (ViTs) have shown potential in addressing these limitations by utilizing a self-attention mechanism to capture global information in image patches, offering more flexibility in processing spatial hierarchies. This paper rigorously compares the performance of ViT models alongside commonly used CNN architectures, such as ResNet and ConvNext, for binary classification tasks in SSS imagery. The dataset encompasses diverse geographical seafloor types and is balanced between the presence and absence of man-made objects. ViT-based models exhibit superior classification performance across f1-score, precision, recall, and accuracy metrics, although at the cost of greater computational resources. CNNs, with their inductive biases, demonstrate better computational efficiency, making them suitable for deployment in resource-constrained environments like underwater vehicles. Future research directions include exploring self-supervised learning for ViTs and multi-modal fusion to further enhance performance in challenging underwater environments.
Auteurs: BW Sheffield, Jeffrey Ellen, Ben Whitmore
Dernière mise à jour: Sep 18, 2024
Langue: English
Source URL: https://arxiv.org/abs/2409.12026
Source PDF: https://arxiv.org/pdf/2409.12026
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.