Fortschritte bei der Identifizierung von Pilzen
Innovative Methoden verbessern die Klassifizierung von giftigen Pilzen mithilfe von Deep Learning.
― 6 min Lesedauer
Inhaltsverzeichnis
Die Identifizierung verschiedener Pilzarten, vor allem von giftigen, ist eine knifflige Angelegenheit. Man muss kleine Unterschiede zwischen den Arten ganz genau erkennen. Dieser Prozess wird als feingranulare visuelle Kategorisierung (FGVC) bezeichnet. Die Herausforderung entsteht durch einen grossen Datensatz mit vielen Arten und sichtbaren Unterschieden, die manchmal schwer zu erkennen sind. Faktoren wie das Alter des Pilzes, die Jahreszeit und lokale Bedingungen können beeinflussen, wie ein Pilz auf Bildern aussieht.
Datensatz
Der Datensatz, der für diese Aufgabe verwendet wird, heisst Dänischer Pilzdatensatz. Er enthält ein Trainingsset mit über 356.000 Bildern von Pilzen aus 1.604 verschiedenen Arten. Der Validierungs- und Testdatensatz hat etwa 60.000 Bilder, die mehr als 2.700 Pilzarten abdecken. Einige Arten im Testset waren im Trainingsset nicht vertreten, daher wurden sie als "unbekannt" gekennzeichnet.
Der Datensatz bietet sowohl Vollbildbilder als auch kleinere sowie zusätzliche Informationen über jedes Bild, wie wann und wo die Pilze gefunden wurden und worauf sie gewachsen sind. Diese zusätzlichen Informationen sind wichtig, weil sie dem Modell helfen können, mehr über den Kontext, in dem Pilze wachsen, zu lernen. Es gibt jedoch ein Problem mit dem Klassenungleichgewicht, was bedeutet, dass einige Arten viel mehr Bilder haben als andere. Das macht es schwieriger, weniger häufige Pilze richtig zu identifizieren.
Verwandte Arbeiten
Frühere Arbeiten in diesem Bereich haben fortgeschrittene Modelle wie Swin Transformer und MetaFormer verwendet. Trotz dieser Bemühungen zeigen die Ergebnisse vergangener Wettbewerbe, wie den FungiCLEF 2023, dass viele Teilnehmer Schwierigkeiten hatten, ihre Genauigkeit über die Jahre zu verbessern. Das Gewinnerteam des letzten Jahres hat Metadaten und eine Technik namens Seesaw Loss verwendet, um das Klassenungleichgewicht anzugehen und eine starke Leistung zu erzielen, aber es gibt immer noch Raum für Verbesserungen.
Ansatz
Um die Herausforderung der Identifizierung von Pilzen anzugehen, haben wir ein System entwickelt, das zwei Methoden kombiniert. Wir haben untersucht, wie man Metadaten als Teil der Eingaben des Modells einbeziehen und das Modell effektiv trainieren kann. Ausserdem haben wir uns darauf konzentriert, wie man mit unbekannten Klassen umgeht, indem wir sie während des Trainings einbezogen haben.
Wir haben uns auf zwei Haupttechniken verlassen: die Verwendung von vorab berechneten Bildmerkmalen, die wir von trainierten Modellen erhalten haben, und das Experimentieren mit verschiedenen Methoden zur Bewertung der Leistung des Modells. Wir wollten einen Weg finden, unseren Trainingsprozess schneller und ressourcenschonender zu gestalten, was uns zur Cloud-Computing führte.
Datenvorbereitung
Wir haben eine Datenvorbereitungspipeline erstellt, die den Prozess der Arbeit mit Bildern und Metadaten beschleunigte. Die Bilder wurden mit ihren Metadaten kombiniert und so gespeichert, dass ein schnellerer Zugriff möglich war. Wir haben spezialisierte Techniken verwendet, um Metadaten in Formate zu verwandeln, die für das Modell geeignet waren.
Um sicherzustellen, dass unser Modell von unbekannten Klassen lernen kann, haben wir den Validierungsdatensatz in Abschnitte unterteilt, um die Leistung unseres Modells auf ungesehenen Daten richtig beurteilen zu können.
Einbettungen für Transferlernen
Einbettungen sind kompakte Darstellungen von Bildern, die helfen, wichtige Merkmale festzuhalten. Wir haben mit zwei Modellen für die Generierung dieser Einbettungen experimentiert: DINOv2 und ResNet. DINOv2 lieferte reichhaltige und robuste Merkmale, während ResNet eine bekannte Architektur ist. Jedes Modell erzeugte unterschiedliche Darstellungen der Bilder.
Für unsere Wettbewerbsabgabe haben wir die von DINOv2 generierten Einbettungen verwendet, da sie eine bessere Leistung in Bezug auf Genauigkeit ermöglichten.
Modellentwicklung
Wir haben zwei Hauptstrategien zur Entwicklung unseres Modells erkundet. Der erste Ansatz war, ein ganzes Computer-Vision-Modell von Grund auf zu trainieren, was mehr Rechenressourcen erforderte. Der zweite Ansatz war, ein vortrainiertes Modell zu verwenden und nur den Klassifizierer-Kopf zu trainieren, was sich als effizienter erwies.
Die Verwendung von vorab berechneten Einbettungen half, die Komplexität unseres Modells zu reduzieren, und wir stellten fest, dass die extrahierten Merkmale auch ohne traditionelle Bildaugmentierungstechniken nützlich für die Klassifizierung waren.
Modelltraining
In unserer Trainingsphase verwendeten wir einen Standard-Multi-Layer Perceptron (MLP) für den Klassifizierer, während wir auch die Integration von Metadaten in unser Modell testeten. Diese Methode zielte darauf ab, die Fähigkeit des Modells zur genauen Klassifizierung von Pilzen zu verbessern. Wir implementierten eine Kreuzvalidierungsstrategie, um das Beste aus unseren Trainingsdaten herauszuholen.
Wir erfassten verschiedene Leistungskennzahlen, wie Verlust und Genauigkeit, während des Trainings, was uns half, zu bewerten, wie gut das Modell lernte.
Verlustfunktion und Klassengewichtung
Um das Ungleichgewicht in unserem Datensatz zu bekämpfen, verwendeten wir eine benutzerdefinierte Verlustfunktion. Diese wurde entwickelt, um dem Modell zu helfen, besser zwischen häufigen und seltenen Arten zu unterscheiden. Durch die Anwendung von gewichtetem Sampling versuchten wir, den Einfluss verschiedener Klassen auszugleichen, damit das Modell nicht nur auf die häufiger vorkommenden Klassen fokussiert.
Trainingsergebnisse
Unser bestes Modell war ein Ensemble-Ansatz, der die Ausgaben verschiedener Klassifizierungs Köpfe kombinierte. Das Modell, das auf DINOv2-Einbettungen trainiert wurde, zeigte starke Ergebnisse, erreichte hohe Genauigkeit und gute Werte in verschiedenen Bewertungskennzahlen.
Trotz der positiven Ergebnisse stellten wir fest, dass bestimmte Aspekte der Klassifizierung, insbesondere in Bezug auf giftige Pilze, weiter verbessert werden müssten.
Verwendung von DINOv2 vs. ResNet
Wir haben die Leistung der aus DINOv2 und ResNet generierten Einbettungen verglichen. Die Ergebnisse zeigten, dass DINOv2 viel klarere Trennungen in der Clusterung verschiedener Pilzarten lieferte, was zu einer besseren Leistung bei Klassifizierungsaufgaben führte.
Integration von Metadaten
Während wir mit der Verwendung von Metadaten experimentierten, um die Vorhersagen unseres Modells zu verbessern, stellten wir fest, dass die Komplexität, die sie einbrachten, keine signifikanten Verbesserungen brachte. Obwohl es leichte Vorteile gab, entschieden wir uns, Metadaten im finalen Modell nicht einzubeziehen.
Zukünftige Arbeit
Wir haben erkannt, dass die Verwendung von Einbettungen unsere Modellentwicklung beschleunigte, aber es gibt immer noch eine Leistungsdifferenz im Vergleich zu traditionellen Modellen. Eine Feinabstimmung von DINOv2 auf unserem spezifischen Datensatz könnte helfen, die Ergebnisse zu verbessern. Ausserdem könnte das Finden besserer Möglichkeiten zur Integration von Metadaten zu effektiveren Klassifizierungssystemen führen.
Fazit
Zusammenfassend haben wir die herausfordernde Aufgabe der Identifizierung giftiger Pilze angepackt, indem wir Transferlearning und fortgeschrittene Deep-Learning-Methoden verwendet haben. Der Dänische Pilzdatensatz stellte verschiedene Herausforderungen dar, darunter Klassenungleichgewicht und subtile Unterschiede zwischen den Arten. Durch verschiedene Experimente mit verschiedenen Modellen haben wir das Potenzial von DINOv2-Einbettungen in Kombination mit einem MLP für die Klassifizierung gezeigt.
Durch die Integration zusätzlicher Informationen haben wir Fortschritte bei der Verbesserung der Klassifizierungsleistung gemacht, obwohl wir Herausforderungen in Bezug auf den Informationsverlust mit unserem Einbettungsansatz hatten. Eine weitere Exploration der Modellfeinabstimmung und einer besseren Datenintegration ist entscheidend für weitere Fortschritte in diesem Bereich.
In unserer Arbeit haben wir zu sichereren Praktiken in der Mykologie beigetragen und Einblicke für weitere Anwendungen der Pilzklassifizierung gegeben.
Titel: Fine-Grained Classification for Poisonous Fungi Identification with Transfer Learning
Zusammenfassung: FungiCLEF 2024 addresses the fine-grained visual categorization (FGVC) of fungi species, with a focus on identifying poisonous species. This task is challenging due to the size and class imbalance of the dataset, subtle inter-class variations, and significant intra-class variability amongst samples. In this paper, we document our approach in tackling this challenge through the use of ensemble classifier heads on pre-computed image embeddings. Our team (DS@GT) demonstrate that state-of-the-art self-supervised vision models can be utilized as robust feature extractors for downstream application of computer vision tasks without the need for task-specific fine-tuning on the vision backbone. Our approach achieved the best Track 3 score (0.345), accuracy (78.4%) and macro-F1 (0.577) on the private test set in post competition evaluation. Our code is available at https://github.com/dsgt-kaggle-clef/fungiclef-2024.
Autoren: Christopher Chiu, Maximilian Heil, Teresa Kim, Anthony Miyaguchi
Letzte Aktualisierung: 2024-07-10 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.07492
Quell-PDF: https://arxiv.org/pdf/2407.07492
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.