Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Apprentissage automatique

Nouvelle méthode pour détecter des objets sous-marins

Une nouvelle approche utilisant des autoencodeurs variationnels améliore la détection d'objets sous-marins.

― 7 min lire


Innovation dans laInnovation dans ladétection d'objetssous-marinsdétection d'anomalies efficace.Les AUV utilisent des VAE pour une
Table des matières

Détecter des objets artificiels sous l’eau est super important pour plein de domaines comme l'industrie, la science et la sécurité. Les véhicules sous-marins autonomes (AUV) prennent souvent plein de photos, mais c'est galère pour les gens de vérifier toutes ces images pour trouver des objets, surtout quand il y a beaucoup plus d'images naturelles que d'artificielles. Ce déséquilibre rend la création de systèmes de détection fiables assez compliquée.

Pour régler ce problème, on propose une méthode qui considère les objets artificiels comme des découvertes bizarres, ou des Anomalies. Cette méthode s'appuie sur une technique appelée autoencodeurs variationnels (VAE). L'idée, c'est d'analyser les images sous-marines et de repérer celles qui ont des caractéristiques étranges qui pourraient signaler la présence d'objets artificiels.

Défis dans la détection d'objets sous l'eau

Prendre des photos sous l'eau génère une énorme quantité de données, ce qui rend difficile pour les humains de passer au peigne fin chaque image. La plupart des méthodes traditionnelles pour détecter des objets sous l'eau nécessitent de connaître des détails sur ces objets et d'avoir des ensembles de données étiquetés. Cependant, ces ensembles de données étiquetés sont difficiles à obtenir, surtout pour des objets inhabituels. Du coup, de nombreuses méthodes traditionnelles galèrent dans des scénarios réels où les ensembles de données sont souvent déséquilibrés, contenant principalement des caractéristiques naturelles avec peu d'objets artificiels.

Les méthodes d'apprentissage profond peuvent apprendre les caractéristiques des objets automatiquement, mais elles dépendent souvent d'ensembles de données larges et bien équilibrés. Étiqueter les données à la main prend beaucoup de temps et entraîne souvent des erreurs. Donc, on a besoin de méthodes plus flexibles qui fonctionnent avec des données non étiquetées.

Méthode proposée

La méthode proposée commence par entraîner un Autoencodeur Variationnel sur une collection d'images principalement composées de scènes naturelles sous-marines. Ce modèle apprend à compresser ces images en représentations de dimensions inférieures tout en préservant des caractéristiques essentielles. Une fois entraîné, il peut aider à identifier les images qui ne correspondent pas aux motifs attendus, indiquant la présence d'objets artificiels.

La méthode relie deux stratégies principales : utiliser la Perte de reconstruction et le clustering dans l'espace latent. La perte de reconstruction mesure à quel point l'autoencodeur peut recréer une image avec précision. Si une image ne correspond pas bien, elle peut contenir une anomalie. Le clustering aide à analyser les représentations de dimensions inférieures des images, ce qui facilite l'identification de celles qui sont inhabituelles.

Collecte de données

Les données pour cette méthode de détection ont été collectées à l'aide d'un AUV capable de flotter appelé Nimbus. Ce véhicule a effectué des sondages dans la baie de Jervis, en Australie, capturant des images haute résolution du fond marin. Après le sondage initial, un objet artificiel a été placé dans la zone, permettant aux chercheurs de comparer les images avec et sans objets artificiels. Cela fournit à la fois des images inliers (caractéristiques naturelles) et des images outliers (celles contenant des objets artificiels).

Les images ont ensuite été traitées pour être utilisées efficacement dans le VAE. Étant donné que le nombre d'images outliers est beaucoup plus petit que celui des inliers, le modèle doit être entraîné de manière à pouvoir détecter efficacement ces cas rares.

Entraînement du modèle

Le modèle est entraîné en minimisant la perte de reconstruction, qui mesure à quel point l'autoencodeur peut recréer les images d'entrée. Un mécanisme d'arrêt précoce s'assure que le processus d'entraînement s'arrête s'il n'y a pas d'amélioration observée pendant plusieurs époques. Pendant l'entraînement, diverses augmentations de données, comme le retournement d'images, aident à améliorer la robustesse du modèle.

Une fois entraîné, le modèle génère des métriques de détection d'anomalies basées sur la perte de reconstruction. Lorsqu'une nouvelle image est entrée, sa perte de reconstruction est calculée. Une perte de reconstruction élevée suggère des anomalies potentielles, indiquant la présence d'objets artificiels.

Amélioration de la détection avec les Régions d'intérêt (ROIs)

Pour améliorer le processus de détection, des régions spécifiques d'une image avec de fortes erreurs de reconstruction sont identifiées comme Régions d'Intérêt (ROIs). La méthode implique d'appliquer des techniques de filtrage pour mettre en évidence des zones dans la carte de chaleur des anomalies, permettant de mieux se concentrer sur les régions suspectes. La taille de ces ROIs est vérifiée par rapport aux tailles d'objets attendues pour réduire les faux positifs.

Cette approche double, utilisant à la fois les scores d'anomalie de la perte de reconstruction et l'analyse des ROIs, améliore la performance globale de détection. En appliquant des seuils sur ces scores, on peut diminuer la probabilité de fausses alertes.

Clustering dans l'espace latent

Les images représentées dans l'espace latent peuvent être analysées davantage pour localiser des régions de faible densité où les anomalies sont susceptibles d'être présentes. Deux méthodes sont employées pour analyser cet espace : le clustering spatial basé sur la densité avec bruit (DBSCAN) et l'estimation de densité par noyau (KDE).

DBSCAN classifie les points de données en fonction de leur densité, aidant à identifier des clusters de données qui diffèrent significativement des autres points. En appliquant cette technique, une grande partie des images inliers peut être séparée des outliers.

KDE ajuste une distribution aux données, permettant d'attribuer des mesures statistiques à chaque point. En établissant un seuil basé sur cette distribution ajustée, le modèle peut signaler les images susceptibles de contenir des objets artificiels tout en réduisant encore les fausses alertes.

Résultats et évaluation

La méthode développée est évaluée en utilisant plusieurs métriques de performance comme la précision, le rappel et le score F1. La précision mesure combien d'anomalies détectées étaient exactes, tandis que le rappel évalue combien d'anomalies réelles ont été détectées. Le score F1 fournit une évaluation équilibrée de la précision et du rappel.

Les tests préliminaires montrent que l'approche basée sur le clustering fonctionne bien pour isoler les images que peut examiner un opérateur humain. Cependant, utilisée seule, elle a des taux de précision plus faibles. La combinaison du clustering avec l'analyse des ROIs améliore significativement la précision en présentant une sélection plus restreinte d'images pour révision humaine.

Les performances sont sensibles à la dimensionnalité de l'espace latent. À mesure que la dimension augmente, la capacité à différencier les inliers et les outliers s'améliore, renforçant le besoin d'un réglage minutieux.

Futurs travaux

En regardant vers l'avenir, plusieurs améliorations potentielles peuvent être apportées. Une possibilité est d'incorporer l'apprentissage par transfert, ce qui pourrait tirer parti de modèles existants comme partie de l'encodeur VAE. Il y a aussi une opportunité d'explorer les dépendances temporelles, permettant potentiellement au système d'analyser les images au fil du temps pour une détection d'anomalies plus précise.

Un autre domaine d'intérêt est de se diriger vers des systèmes adaptatifs qui s'ajustent en fonction des changements environnementaux. Cela pourrait impliquer d'ajuster dynamiquement les seuils d'erreur de reconstruction en fonction des conditions de l'ensemble de données.

Conclusion

En résumé, le système de détection proposé offre une méthode efficace pour identifier des objets artificiels dans des images sous-marines. En couplant les autoencodeurs variationnels avec à la fois la perte de reconstruction et des techniques de clustering, une approche pratique est établie pour reconnaître les anomalies dans de grands ensembles de données. Au fur et à mesure des avancées, le potentiel pour une détection d'anomalies en temps réel devient plus réalisable, améliorant les capacités d'exploration et de surveillance sous-marines dans divers secteurs.

Source originale

Titre: A Semi-supervised Object Detection Algorithm for Underwater Imagery

Résumé: Detection of artificial objects from underwater imagery gathered by Autonomous Underwater Vehicles (AUVs) is a key requirement for many subsea applications. Real-world AUV image datasets tend to be very large and unlabelled. Furthermore, such datasets are typically imbalanced, containing few instances of objects of interest, particularly when searching for unusual objects in a scene. It is therefore, difficult to fit models capable of reliably detecting these objects. Given these factors, we propose to treat artificial objects as anomalies and detect them through a semi-supervised framework based on Variational Autoencoders (VAEs). We develop a method which clusters image data in a learned low-dimensional latent space and extracts images that are likely to contain anomalous features. We also devise an anomaly score based on extracting poorly reconstructed regions of an image. We demonstrate that by applying both methods on large image datasets, human operators can be shown candidate anomalous samples with a low false positive rate to identify objects of interest. We apply our approach to real seafloor imagery gathered by an AUV and evaluate its sensitivity to the dimensionality of the latent representation used by the VAE. We evaluate the precision-recall tradeoff and demonstrate that by choosing an appropriate latent dimensionality and threshold, we are able to achieve an average precision of 0.64 on unlabelled datasets.

Auteurs: Suraj Bijjahalli, Oscar Pizarro, Stefan B. Williams

Dernière mise à jour: 2023-06-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.04834

Source PDF: https://arxiv.org/pdf/2306.04834

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires