Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Maschinelles Lernen

Fortschritte bei der Erkennung von Out-of-Distribution mit Diffusionsmodellen

Eine neue Methode verbessert die OOD-Erkennung mit Diffusionsmodellen und unbeschrifteten Daten.

― 6 min Lesedauer


Verbesserung derVerbesserung derOOD-Erkennung mit LMDKI-Systemen.von ungewöhnlichen Daten inNeue Methode verbessert die Erkennung
Inhaltsverzeichnis

In der Welt des maschinellen Lernens ist das Erkennen von Daten, die nicht zu einer bestimmten Gruppe gehören, bekannt als Out-of-Distribution (OOD) Erkennung, voll wichtig. Das bedeutet, Daten zu identifizieren, die anders sind als das, was ein System gelernt hat, zu erkennen. Zum Beispiel, wenn ein Arzt ein medizinisches KI-Programm verwendet, das für einen bestimmten Scan-Typ entwickelt wurde, aber einen anderen Typ eingibt, könnten die Ergebnisse nutzlos sein. Daher ist es entscheidend, dass KI-Systeme, besonders in sensiblen Bereichen wie Gesundheitswesen, erkennen, wenn Daten ausserhalb ihres Trainings liegen.

Traditionell wird OOD-Erkennung mit zwei Hauptdatentypen durchgeführt: gelabelte und ungelabelte Daten. Gelabelte Daten kommen mit bekannten Klassifikationen, während ungelabelte Daten keine spezifischen Tags oder Kategorien haben. Oft ist es schwer, gelabelte Daten zu bekommen, da es Zeit und Ressourcen braucht, um sie richtig zu kategorisieren. Hier kommen ungelabelte Daten ins Spiel. Das Ziel ist es, ein System zu schaffen, das aus diesen ungelabelten In-Domain-Daten lernt und effektiv zwischen In-Domain- und Out-of-Domain-Daten unterscheiden kann.

Die Rolle von Diffusionsmodellen

Diffusionsmodelle bekommen gerade viel Aufmerksamkeit wegen ihres Potenzials in diesem Bereich. Sie sind eine Art von Maschinenlernmodell, das lernt, wie man nach und nach Rauschen aus Bildern entfernt. Der Prozess beginnt mit einem Bild, das mit Rauschen gefüllt ist, und das Modell lernt, dieses rauschende Bild über mehrere Schritte wieder in ein klares Bild zurückzuverwandeln.

Diese Modelle können bei der OOD-Erkennung helfen, weil sie erkennen können, wenn etwas verändert wurde oder nicht zum gelernten Muster passt. Wenn ein Bild auf eine bestimmte Weise verzerrt ist und das Diffusionsmodell Schwierigkeiten hat, es zu rekonstruieren, kann das ein Zeichen dafür sein, dass das Bild out-of-domain ist.

Lift, Map, Detect (LMD) Methode

Wir stellen eine Methode namens Lift, Map, Detect (LMD) vor, um unbeaufsichtigte OOD-Erkennung mit Diffusionsmodellen durchzuführen. So funktioniert's:

  1. Das Bild Heben: Dieser Schritt beinhaltet, das originale Bild zu beschädigen. Wir können beispielsweise einen Teil des Bildes abdecken, um es unkenntlich zu machen. Damit heben wir das Bild eigentlich von seiner ursprünglichen Form weg.

  2. Das Bild abbilden: Danach verwenden wir das Diffusionsmodell, um das beschädigte Bild zu reparieren, indem wir die fehlenden Teile auffüllen. Wenn das originale Bild innerhalb der erwarteten Gruppe war, kann das Diffusionsmodell es relativ einfach wiederherstellen. Wenn das originale Bild jedoch zu einer anderen Gruppe gehört, hat das Modell Schwierigkeiten, es zu rekonstruieren, was zu einem grossen Unterschied zwischen dem originalen und dem rekonstruierten Bild führt.

  3. Erkennung von OOD-Bildern: Wir messen dann, wie unterschiedlich das rekonstruierte Bild vom originalen ist. Ein grosser Unterschied deutet darauf hin, dass das Bild wahrscheinlich out-of-domain ist. Indem wir uns verschiedene Beispiele anschauen, können wir herausfinden, welche Bilder nicht den erwarteten Mustern entsprechen.

Experimentierung

In unseren Experimenten vergleichen wir diese Methode mit mehreren älteren Techniken. Die Wirksamkeit von LMD zeigt sich durch ihre überlegene Leistung auf verschiedenen Datensätzen. Wir haben es mit mehreren Datensatzpaaren getestet, um zu sehen, wie gut es in-domain und out-of-domain Bilder unterscheiden kann.

Wir haben eine Metrik namens den Bereich unter der Receiver Operating Characteristic Kurve (ROC-AUC) verwendet, um zu bewerten, wie gut unsere Methode funktioniert hat. Nur mit ungelabelten Daten haben wir nur den Trainingssatz für In-Domain-Daten verwendet, um verschiedene Out-of-Domain-Datensätze zu bewerten.

Ergebnisse

Die Ergebnisse unserer Experimente zeigen, dass die LMD-Methode in den meisten Fällen besser abschnitt als ältere Techniken. Zum Beispiel, als wir Bilder vom CIFAR10-Datensatz mit denen vom SVHN-Datensatz verglichen haben, konnte unsere Methode out-of-domain Bilder mit einem auffälligen Verbesserung erkennen. Das zeigt die Zuverlässigkeit und Vielseitigkeit unseres Ansatzes über verschiedene Datensätze hinweg.

Ausserdem haben wir die Qualität der inpainted Bilder überprüft. Das Diffusionsmodell hat gute Arbeit geleistet, In-Domain-Bilder zu rekonstruieren, sodass sie den Originals ähnlich aussehen. Im Gegensatz dazu waren die Rekonstruktionen für Out-of-Domain-Bilder oft weniger kohärent und erkennbar, was darauf hinweist, dass sie nicht zur erwarteten Gruppe gehörten.

Die Bedeutung des Maskierens

Ein wichtiger Aspekt unserer Methode ist, wie wir die Bilder während des Hebevorgangs maskieren. Wir haben rausgefunden, dass die Grösse und das Muster der Maske die Leistung stark beeinflussen. Zum Beispiel, die Verwendung eines Schachbrettmusters erlaubte es uns sicherzustellen, dass genug Kontext im Bild verblieb, damit das Modell es effektiv rekonstruieren konnte. Ausserdem half ein alternierendes Maskenmuster, verschiedene Teile des Bildes über mehrere Versuche hinweg dem Rekonstruktionsprozess auszusetzen.

Dieser Ansatz garantiert, dass keine bedeutenden Merkmale in den originalen Bildern über mehrere Versuche hinweg immer maskiert werden. Die Schachbrettstrategie wird daher bevorzugt, weil sie es verschiedenen Teilen des Bildes ermöglicht, eine Rolle im Rekonstruktionsprozess zu spielen, was zu besseren Ergebnissen führt.

Mehrere Rekonstruktionsversuche

Um die Leistung der LMD-Methode weiter zu verbessern, haben wir die Idee eingeführt, mehrere Versuche zur Rekonstruktion der Bilder durchzuführen. Jeder Versuch kann unterschiedliche Ergebnisse liefern. Indem wir den Medianwert aus diesen Versuchen betrachten, können wir besser beurteilen, ob ein Bild in-domain oder out-of-domain ist. Das bedeutet, dass selbst wenn es Unterschiede in der Rekonstruktion von einem Versuch zum anderen gibt, gibt uns der Median eine zuverlässigere Messung.

Die Experimente haben gezeigt, dass je mehr Versuche wir gemacht haben, desto besser wurde unsere Erkennungsleistung, besonders die ersten Versuche führten zu den grössten Verbesserungen.

Metriken zur Bewertung

Wir haben verschiedene Metriken getestet, um zu bewerten, wie gut die rekonstruierten Bilder mit den Originalen übereinstimmen. Unter den Metriken, die wir überprüft haben, hat die Learned Perceptual Image Patch Similarity (LPIPS) besonders gut abgeschnitten. Überraschenderweise, während einfachere Methoden wie der Mean Squared Error (MSE) manchmal funktionierten, erfassten sie nicht immer die perceptuellen Unterschiede so gut wie LPIPS.

Durch verschiedene Tests zeigte LPIPS konstant starke Ergebnisse über Datensätze hinweg, was es zu einer zuverlässigen Wahl für die Messung der Qualität von Bildrekonstruktionen macht.

Fazit

Die LMD-Methode zeigt grosses Potenzial für die unbeaufsichtigte OOD-Erkennung mithilfe der Fähigkeiten von Diffusionsmodellen. Indem wir Bilder effektiv heben und abbilden, um sie basierend auf perceptuellen Unterschieden zu unterscheiden, können wir die OOD-Erkennung erheblich verbessern.

Ein Problem bleibt jedoch: Die Verarbeitungsgeschwindigkeit von Diffusionsmodellen kann aufgrund der vielen erforderlichen Iterationen zum Entrauschen langsam sein. Glücklicherweise arbeiten Forscher aktiv daran, diese Prozesse zu beschleunigen, was die LMD-Methode in Zukunft praktischer für Echtzeitanwendungen machen könnte.

Insgesamt präsentiert unsere Arbeit einen vielversprechenden Schritt nach vorn, um die Zuverlässigkeit von Systemen des maschinellen Lernens zu verbessern, besonders in kritischen Bereichen. Durch die Verwendung von ungelabelten Daten und innovativen Techniken können wir die Fähigkeit von KI-Systemen verbessern, zwischen dem, was sie wissen, und dem, was sie nicht wissen, zu unterscheiden.

Originalquelle

Titel: Unsupervised Out-of-Distribution Detection with Diffusion Inpainting

Zusammenfassung: Unsupervised out-of-distribution detection (OOD) seeks to identify out-of-domain data by learning only from unlabeled in-domain data. We present a novel approach for this task - Lift, Map, Detect (LMD) - that leverages recent advancement in diffusion models. Diffusion models are one type of generative models. At their core, they learn an iterative denoising process that gradually maps a noisy image closer to their training manifolds. LMD leverages this intuition for OOD detection. Specifically, LMD lifts an image off its original manifold by corrupting it, and maps it towards the in-domain manifold with a diffusion model. For an out-of-domain image, the mapped image would have a large distance away from its original manifold, and LMD would identify it as OOD accordingly. We show through extensive experiments that LMD achieves competitive performance across a broad variety of datasets. Code can be found at https://github.com/zhenzhel/lift_map_detect.

Autoren: Zhenzhen Liu, Jin Peng Zhou, Yufan Wang, Kilian Q. Weinberger

Letzte Aktualisierung: 2023-08-16 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2302.10326

Quell-PDF: https://arxiv.org/pdf/2302.10326

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel