Automatisierung der Klassifizierung von Lebensräumen am Meeresgrund
Selbstüberwachtes Lernen nutzen, um Unterwasserbilder in einem hierarchischen Rahmen zu klassifizieren.
― 6 min Lesedauer
Inhaltsverzeichnis
Die Überwachung und Kategorisierung von Meeresbodenlebensräumen wird immer wichtiger. Das liegt daran, dass wir die Auswirkungen menschlicher Aktivitäten wie Fischerei und Klimawandel auf die Nachhaltigkeit der Ozeane verstehen müssen. Ein Schlüssel zur Überwachung dieser Veränderungen ist die fotografische Darstellung des Meeresbodens. In den letzten Jahren haben Unterwasserfahrzeuge, sowohl automatisierte als auch manuell gesteuerte, es ermöglicht, eine riesige Menge an Bildern des Meeresbodens zu sammeln. Allerdings macht die wachsende Datenmenge es schwierig, diese Bilder manuell zu kennzeichnen. Deshalb ist es entscheidend, den Prozess der Klassifizierung benthischer Fotos zu automatisieren.
Der BenthicNet-Datensatz
BenthicNet ist ein grosser Datensatz mit Meeresbodenfotos, der dazu entwickelt wurde, um Maschinenlernmodelle für die automatisierte Klassifizierung von benthischen Bildern zu entwickeln. Es ist der grösste Datensatz dieser Art, der aus verschiedenen offenen Datenquellen, Regierungsbehörden und Forschungsgruppen weltweit gesammelt wurde. Die anfänglichen Labels wurden in einem Standardschema namens CATAMI zusammengefasst, das fünf Hauptkategorien umfasst: Biota, Substrat, Bettformen, Relief und Farbe. Die meisten dieser Kategorien haben eine hierarchische Struktur, was bedeutet, dass sie unterschiedliche Detailebenen haben.
Allerdings bringt der Datensatz Herausforderungen mit sich, da er aus verschiedenen Quellen stammt. Unterschiedliche Forschungsgruppen haben ihre Daten basierend auf ihren eigenen Bedürfnissen und Methoden annotiert. Das bedeutet, dass nicht nur Informationen in den Kategorien fehlen, sondern einige Kategorien möglicherweise nicht vollständig detailliert sind. Zum Beispiel könnte ein Datensatz erwähnen, dass es Korallen gibt, aber nicht die genauen Korallenarten angeben. Darüber hinaus erfordert das Trainieren eines Klassifizierungsmodells sowohl positive als auch negative Beispiele, was es schwierig macht zu bestimmen, ob ein ausgelassenes Label tatsächlich fehlt oder einfach nicht annotiert ist.
Forschungsziele
Das Hauptziel dieser Studie ist es, effektive Möglichkeiten zu finden, um Klassifizierung in einem hierarchischen Mehrfach-Label-Setting zu lernen und zu bewerten, insbesondere wenn viele Informationen fehlen. Wir wollen drei Hauptfragen beantworten:
- Nutzung unlabeleter Daten: Können wir eine grosse Menge unlabeleter Daten verwenden, indem wir ein Modell mit selbstüberwachenden Lernmethoden vortrainieren? Wie gut funktionieren diese Methoden?
- Anpassung hierarchischen Lernens: Wie können bestehende hierarchische Lernmethoden modifiziert werden, um mit verschiedenen Arten von fehlenden Informationen umzugehen?
- Bewertung der Modellleistung: Wie können wir die erwartete Effektivität unserer Modelle in realen Aufgaben bewerten?
Während unser Fokus auf BenthicNet liegt, ist der Umgang mit fehlenden Annotationen ein häufiges Problem in wissenschaftlichen Daten aus verschiedenen Bereichen, wie den Lebenswissenschaften, wo eine detaillierte Klassifizierung aufgrund der Variabilität der Proben schwierig sein kann.
Die Methodik
Unser Ansatz besteht aus zwei Hauptteilen:
- Vortraining auf unlabeleten Daten: Wir beginnen damit, Modelle auf den nicht annotierten Teilen des Datensatzes unter Verwendung selbstüberwachender Lernmethoden zu trainieren. Das hilft den Modellen, nützliche Merkmale aus den Daten zu lernen.
- Extrahieren und Bewerten des Modells: Nach dem Vortraining nehmen wir das Modell und verwenden es, um die Leistung auf gekennzeichneten Datensätzen zu bewerten.
Die selbstüberwachenden Lerntechniken, die wir anwenden, beinhalten verschiedene Methoden, die Bildinstanzen nutzen. Zum Beispiel erzeugen wir mehrere augmentierte Ansichten desselben Bildes und lassen sie durch ein Modell laufen, um deren Merkmale zu lernen. Durch den Vergleich dieser Ansichten wird das Modell besser darin, die Schlüsselfeatures der Bilder zu identifizieren. Andere Methoden konzentrieren sich auf verschiedene Techniken, einschliesslich Maskierungsautoencodern, die dem Modell helfen, Darstellungen zu lernen, indem Teile eines Bildes verborgen werden.
Umgang mit fehlenden Informationen
Bei der Arbeit mit BenthicNet begegnen wir drei Arten von fehlenden Informationen:
- Fehlende Präzision: Einige Datensätze nutzen nicht die volle Tiefe der CATAMI-Kategorien, was zu unvollständigen Informationen führt.
- Fehlende Zweige oder Unterbäume: Nicht jede Art oder Geländetyp ist annotiert, was bedeutet, dass einige wichtige Details fehlen könnten.
- Fehlende Kategorien: Einige Proben könnten keine Annotationen für bestimmte Kategorien haben.
Um die ersten beiden Arten fehlender Informationen zu handhaben, verwenden wir eine Technik namens Maskierung. Das erlaubt uns, Teile der Daten, die nicht annotiert sind, nicht zu zählen. Wir wenden diese Maskierung auf verschiedenen Ebenen an und stellen sicher, dass alle Teile der hierarchischen Struktur während des Trainings berücksichtigt werden.
Bewertung der Modellleistung
Es ist wichtig zu bewerten, wie gut unsere Modelle abschneiden. Bei One-Hot-Klassifizierungsaufgaben (bei denen jedes Bild ein einzelnes Label hat) erstellen wir eine Basislinie, mit der wir vergleichen können. Diese Basislinie stellt dar, was passieren würde, wenn ein Modell zufällig rät. Es ist wichtig zu beachten, dass das Hinzufügen einer Hierarchie diese Basislinie nicht direkt verändert.
Bei hierarchischen Mehrfach-Label-Aufgaben bewerten wir, wie gut das Modell die Ausgaben vorhersagt, wobei wir die Struktur der Hierarchie berücksichtigen. Das beinhaltet, wie verschiedene Knoten in der Hierarchie einzeln und gemeinsam abschneiden. Unsere Bewertungen umfassen auch die Überprüfung, wie Modelle in Bezug auf Ungleichgewichte in den Daten abschneiden, was oft zu verzerrten Ergebnissen führen kann.
Ergebnisse
In unseren Experimenten fanden wir heraus, dass Modelle, die mit selbstüberwachendem Lernen auf dem BenthicNet-Datensatz vortrainiert wurden, besser abschnitten als solche, die auf allgemeineren Datensätzen wie ImageNet vortrainiert wurden. Dies war besonders bei kleineren Datensätzen der Fall, was in Studien zu lokalen oder regionalen benthischen Umgebungen häufig vorkommt. Darüber hinaus bedeutete die hierarchische Natur unserer Klassifizierungen, dass Modelle tiefere, spezifischere Kategorien identifizieren konnten, wenn sie richtig vortrainiert wurden.
Ergebnisse zur One-Hot-Klassifizierung
Bei unseren One-Hot-Klassifizierungsaufgaben konzentrierten wir uns auf die Substratkategorie, die zwischen verschiedenen Arten von Meeresbodenmaterialien wie Felsen und Sand unterscheidet. Wir verglichen die Ergebnisse verschiedener Modelle, einschliesslich solcher, die auf ImageNet trainiert wurden, und solche, die selbstüberwachende Techniken verwendeten. Unsere Ergebnisse zeigen, dass obwohl ImageNet-Modelle bei grösseren Datensätzen gut abschneiden, sie mit kleineren, spezifischeren Datensätzen wie denen in der benthischen Forschung Schwierigkeiten haben.
Ergebnisse zur hierarchischen Mehrfach-Klassifizierung
Im hierarchischen Kontext beobachteten wir, welche Kategorien für die Modelle am herausforderndsten waren. Trainierte Modelle schnitten bei höheren Kategorien gut ab, hatten aber Schwierigkeiten, zwischen spezifischeren, niedrigeren Kategorien zu unterscheiden. Dieser Leistungsabfall deutet darauf hin, dass Modelle beim Treffen von Vorhersagen weniger sicher werden, je tiefer sie in die hierarchische Struktur vordringen.
Verständnis der Modellleistung
Unsere Bewertung umfasste auch eine tiefere Analyse dessen, was jedes Modell auf verschiedenen Hierarchieebenen lernt. Einige Modelle zeigten, dass sie bestimmte Merkmale erkennen konnten, aber möglicherweise nicht in der Lage sind, in niedrigeren hierarchischen Ebenen zuversichtliche Vorhersagen zu treffen. Zum Beispiel, selbst wenn ein Modell die Anwesenheit von Korallen erkennen könnte, würde es oft nicht den genauen Typ von Koralle angeben, was auf einen weiteren Schulungsbedarf hinweist.
Fazit
Diese Arbeit hebt die Effektivität selbstüberwachender Lernmethoden zur Klassifizierung von Unterwasserbildern hervor, insbesondere in komplexen Situationen mit unvollständigen Daten. Wir fanden heraus, dass Modelle, die auf relevanten Datensätzen vortrainiert wurden, bei spezifischen Aufgaben besser abschneiden können als solche, die auf allgemeineren Datensätzen trainiert wurden. Es bleiben jedoch Herausforderungen, insbesondere in Bezug auf hierarchische Ungleichgewichte und die Variabilität von Annotationen. Zukünftige Bemühungen werden sich darauf konzentrieren, zusätzliche Kategorien innerhalb des CATAMI-Rahmens zu erkunden und unsere Methoden zur Handhabung fehlender Informationen zu verfeinern. Diese Arbeit trägt wertvolle Erkenntnisse zur automatisierten Unterwasserklassifizierung bei, mit Implikationen für andere Bereiche, die vor ähnlichen Datenherausforderungen stehen.
Titel: Hierarchical Multi-Label Classification with Missing Information for Benthic Habitat Imagery
Zusammenfassung: In this work, we apply state-of-the-art self-supervised learning techniques on a large dataset of seafloor imagery, \textit{BenthicNet}, and study their performance for a complex hierarchical multi-label (HML) classification downstream task. In particular, we demonstrate the capacity to conduct HML training in scenarios where there exist multiple levels of missing annotation information, an important scenario for handling heterogeneous real-world data collected by multiple research groups with differing data collection protocols. We find that, when using smaller one-hot image label datasets typical of local or regional scale benthic science projects, models pre-trained with self-supervision on a larger collection of in-domain benthic data outperform models pre-trained on ImageNet. In the HML setting, we find the model can attain a deeper and more precise classification if it is pre-trained with self-supervision on in-domain data. We hope this work can establish a benchmark for future models in the field of automated underwater image annotation tasks and can guide work in other domains with hierarchical annotations of mixed resolution.
Autoren: Isaac Xu, Benjamin Misiuk, Scott C. Lowe, Martin Gillis, Craig J. Brown, Thomas Trappenberg
Letzte Aktualisierung: 2024-09-10 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2409.06618
Quell-PDF: https://arxiv.org/pdf/2409.06618
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://orcid.org/0000-0003-4443-0582
- https://orcid.org/0000-0001-5822-4574
- https://orcid.org/0000-0002-5237-3867
- https://orcid.org/0000-0002-6144-8963
- https://github.com/DalhousieAI/benthicnet
- https://github.com/DalhousieAI/ssl-bentho
- https://www.ofibecome.org/
- https://squidle.org/
- https://www.catlinseaviewsurvey.com/
- https://www.ofi.ca/
- https://ace-net.ca/
- https://alliancecan.ca/