Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Maschinelles Lernen

Neue Methode zur Erkennung von Unterwasserobjekten

Ein neuartiger Ansatz mit Variational Autoencoders verbessert die Unterwasserobjekterkennung.

― 6 min Lesedauer


Innovation bei derInnovation bei derErkennung von Objektenunter WasserAnomalieerkennung.AUVs nutzen VAEs für effektive
Inhaltsverzeichnis

Die Erkennung künstlicher Objekte unter Wasser ist wichtig für verschiedene Bereiche wie Industrie, Wissenschaft und Sicherheit. Autonome Unterwasserfahrzeuge (AUVs) sammeln oft viele Bilder, aber es kann schwierig sein, diese Bilder nach Objekten zu durchsuchen, besonders wenn viel mehr natürliche Bilder als künstliche vorhanden sind. Dieses Ungleichgewicht macht es schwer, zuverlässige Erkennungssysteme zu entwickeln.

Um dieses Problem anzugehen, wird eine Methode vorgeschlagen, die künstliche Objekte als ungewöhnliche Funde oder Anomalien behandelt. Diese Methode basiert auf einer Technik namens Variational Autoencoders (VAEs). Die Idee ist, die Unterwasserbilder zu analysieren und herauszufinden, welche seltsame Merkmale aufweisen, die auf das Vorhandensein von künstlichen Objekten hindeuten könnten.

Herausforderungen bei der Objekterkennung unter Wasser

Das Sammeln von Unterwasserbildern erzeugt eine riesige Datenmenge, was es unpraktisch macht, jedes Bild von Menschen überprüfen zu lassen. Die meisten traditionellen Methoden zur Erkennung von Objekten unter Wasser erfordern Wissen über diese Objekte und beschriftete Datensätze. Allerdings sind beschriftete Datensätze schwer zu bekommen, besonders für ungewöhnliche Objekte. Daher haben viele traditionelle Methoden Schwierigkeiten in realen Szenarien, in denen Datensätze oft unausgewogen sind und hauptsächlich natürliche Merkmale mit wenigen künstlichen enthalten.

Deep-Learning-Methoden können die Merkmale von Objekten automatisch lernen, sind jedoch oft auf grosse, gut ausgewogene Datensätze angewiesen. Das manuelle Beschriften von Daten ist zeitaufwendig und führt häufig zu Fehlern. Daher werden flexiblere Methoden benötigt, die mit unbeschrifteten Daten arbeiten können.

Vorgeschlagene Methode

Der vorgeschlagene Ansatz beginnt damit, einen Variational Autoencoder auf einer Sammlung von Bildern zu trainieren, die hauptsächlich natürliche Unterwasserszenen zeigen. Dieses Modell lernt, diese Bilder in niedrigdimensionale Darstellungen zu komprimieren, während es essentielle Merkmale bewahrt. Nach dem Training kann es helfen, Bilder zu identifizieren, die nicht den erwarteten Mustern entsprechen, was auf das Vorhandensein von künstlichen Objekten hinweist.

Die Methode verbindet zwei Hauptstrategien: die Verwendung von Rekonstruktionsverlust und Clustering im latenten Raum. Der Rekonstruktionsverlust misst, wie genau der Autoencoder ein Bild wiederherstellen kann. Wenn ein Bild nicht gut übereinstimmt, könnte es eine Anomalie enthalten. Clustering hilft, die niedrigdimensionalen Darstellungen der Bilder zu analysieren, was es einfacher macht, ungewöhnliche zu identifizieren.

Datensammlung

Die Daten für diese Erkennungsmethode wurden mit einem schwebefähigen AUV namens Nimbus gesammelt. Dieses Fahrzeug führte Vermessungen in der Jervis Bay, Australien, durch und erfasste hochaufgelöste Bilder des Meeresbodens. Nach der ersten Vermessung wurde ein künstliches Ziel in der Gegend platziert, sodass die Forscher Bilder mit und ohne künstliche Objekte vergleichen konnten. So entstehen sowohl Inlier-Bilder (natürliche Merkmale) als auch Outlier-Bilder (solche mit künstlichen Objekten).

Die Bilder wurden dann bearbeitet, um sie effektiv im VAE zu verwenden. Da die Anzahl der Outlier-Bilder viel kleiner ist als die der Inlier-Bilder, muss das Modell so trainiert werden, dass es diese seltenen Fälle effektiv erkennen kann.

Modelltraining

Das Modell wird trainiert, indem der Rekonstruktionsverlust minimiert wird, der misst, wie gut der Autoencoder Eingabebilder wiederherstellen kann. Ein Frühstop-Mechanismus stellt sicher, dass der Trainingsprozess angehalten wird, wenn über mehrere Epochen keine Verbesserung festgestellt wird. Während des Trainings helfen verschiedene Datenaugmentierungen, wie das Drehen von Bildern, die Robustheit des Modells zu verbessern.

Nach dem Training generiert das Modell Anomalieerkennungskennzahlen basierend auf dem Rekonstruktionsverlust. Wenn ein neues Bild eingegeben wird, wird sein Rekonstruktionsverlust berechnet. Hoher Rekonstruktionsverlust deutet auf potenzielle Anomalien hin, was auf das Vorhandensein von künstlichen Objekten hinweist.

Verbesserung der Erkennung mit Regionen von Interesse (ROIs)

Um den Erkennungsprozess zu verbessern, werden spezifische Regionen eines Bildes mit hohen Rekonstruktionsfehlern als Regionen von Interesse (ROIs) identifiziert. Die Methode umfasst die Anwendung von Filtertechniken, um Bereiche in der Anomalie-Wärmekarte hervorzuheben, was eine bessere Fokussierung auf verdächtige Regionen ermöglicht. Die Grösse dieser ROIs wird mit den erwarteten Objektgrössen abgeglichen, um falsch-positive Ergebnisse zu reduzieren.

Dieser duale Ansatz, der sowohl Anomaliewerte aus dem Rekonstruktionsverlust als auch die ROI-Analyse nutzt, verbessert die allgemeine Erkennungsleistung. Durch die Anwendung von Schwellenwerten auf diese Werte kann die Wahrscheinlichkeit von Fehlalarmen verringert werden.

Clustering im latenten Raum

Die Bilder, die im latenten Raum dargestellt werden, können weiter analysiert werden, um niederdichte Regionen zu finden, in denen Anomalien wahrscheinlich vorhanden sind. Zwei Methoden werden verwendet, um diesen Raum zu analysieren: Density-Based Spatial Clustering of Applications with Noise (DBSCAN) und Kernel Density Estimation (KDE).

DBSCAN klassifiziert Datenpunkte basierend auf ihrer Dichte und hilft dabei, Datencluster zu identifizieren, die sich erheblich von anderen Punkten unterscheiden. Durch die Anwendung dieser Technik kann ein wesentlicher Teil der Inlier-Bilder von den Outlier-Bildern getrennt werden.

KDE passt eine Verteilung an die Daten an, wodurch statistische Masse für jeden Punkt zugewiesen werden können. Durch die Festlegung eines Schwellenwerts basierend auf dieser angepassten Verteilung kann das Modell Bilder markieren, die voraussichtlich künstliche Objekte enthalten, während gleichzeitig die Fehlalarme weiter verringert werden.

Ergebnisse und Bewertung

Die entwickelte Methode wird mit mehreren Leistungskennzahlen wie Präzision, Recall und F1-Score bewertet. Präzision misst, wie viele erkannte Anomalien genau waren, während Recall bewertet, wie viele tatsächliche Anomalien erkannt wurden. Der F1-Score bietet eine ausgewogene Bewertung sowohl der Präzision als auch des Recalls.

Vorläufige Tests zeigen, dass der auf Clustering basierende Ansatz gut darin funktioniert, Bilder zu isolieren, die von einem menschlichen Operator überprüft werden können. Wenn er jedoch allein verwendet wird, hat er niedrigere Präzisionsraten. Die Kombination von Clustering mit ROI-Analyse verbessert die Genauigkeit erheblich, indem eine engere Auswahl an Bildern für die menschliche Überprüfung bereitgestellt wird.

Die Leistung ist empfindlich gegenüber der Dimensionalität des latenten Raums. Mit zunehmender Dimension verbessert sich die Fähigkeit, zwischen Inlier- und Outlier-Bildern zu unterscheiden, was die Notwendigkeit einer sorgfältigen Abstimmung unterstreicht.

Zukünftige Arbeiten

In Zukunft können mehrere potenzielle Verbesserungen vorgenommen werden. Eine Möglichkeit ist die Integration von Transfer Learning, das vorhandene Modelle als Teil des VAE-Coders nutzen könnte. Es gibt auch die Möglichkeit, zeitliche Abhängigkeiten zu untersuchen, was es dem System ermöglichen könnte, Bilder über die Zeit hinweg zu analysieren, um eine genauere Anomalieerkennung zu ermöglichen.

Ein weiteres Interessengebiet ist die Entwicklung adaptiver Systeme, die sich an Umweltveränderungen anpassen. Dies könnte die dynamische Anpassung der Schwellenwerte für Rekonstruktionsfehler basierend auf den Bedingungen des Datensatzes umfassen.

Fazit

Zusammenfassend bietet das vorgeschlagene Erkennungssystem eine effektive Methode zur Identifizierung künstlicher Objekte in Unterwasserbildern. Durch die Kombination von Variational Autoencoders mit sowohl Rekonstruktionsverlust als auch Clustering-Techniken wird ein praktischer Ansatz zur Erkennung von Anomalien in grossen Datensätzen geschaffen. Mit fortschreitenden Entwicklungen wird das Potenzial für eine Echtzeiterkennung von Anomalien realisierbarer, was die Fähigkeiten in der Unterwassererkundung und Überwachung in verschiedenen Sektoren verbessert.

Originalquelle

Titel: A Semi-supervised Object Detection Algorithm for Underwater Imagery

Zusammenfassung: Detection of artificial objects from underwater imagery gathered by Autonomous Underwater Vehicles (AUVs) is a key requirement for many subsea applications. Real-world AUV image datasets tend to be very large and unlabelled. Furthermore, such datasets are typically imbalanced, containing few instances of objects of interest, particularly when searching for unusual objects in a scene. It is therefore, difficult to fit models capable of reliably detecting these objects. Given these factors, we propose to treat artificial objects as anomalies and detect them through a semi-supervised framework based on Variational Autoencoders (VAEs). We develop a method which clusters image data in a learned low-dimensional latent space and extracts images that are likely to contain anomalous features. We also devise an anomaly score based on extracting poorly reconstructed regions of an image. We demonstrate that by applying both methods on large image datasets, human operators can be shown candidate anomalous samples with a low false positive rate to identify objects of interest. We apply our approach to real seafloor imagery gathered by an AUV and evaluate its sensitivity to the dimensionality of the latent representation used by the VAE. We evaluate the precision-recall tradeoff and demonstrate that by choosing an appropriate latent dimensionality and threshold, we are able to achieve an average precision of 0.64 on unlabelled datasets.

Autoren: Suraj Bijjahalli, Oscar Pizarro, Stefan B. Williams

Letzte Aktualisierung: 2023-06-07 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2306.04834

Quell-PDF: https://arxiv.org/pdf/2306.04834

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel