Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Maschinelles Lernen# Computer Vision und Mustererkennung

Verbesserung der Erkennung von Out-of-Distribution mit dem NINCO-Datensatz

Ein neuer Datensatz hat das Ziel, OOD-Erkennungsbewertungen zu verfeinern, indem ID-Kontamination ausgeschlossen wird.

― 7 min Lesedauer


NINCO-Datensatz bringtNINCO-Datensatz bringtfrischen Wind in dieOOD-DetektionOOD-Detektionsmodellen.Genauigkeit bei der Bewertung vonNeuer Datensatz verbessert die
Inhaltsverzeichnis

Out-of-Distribution (OOD) Erkennung ist eine wichtige Aufgabe im Machine Learning. Es geht darum, Eingaben zu identifizieren, die nicht zu den erwarteten Daten passen, die für das Training verwendet wurden. Zum Beispiel, wenn ein Modell darauf trainiert ist, Katzen und Hunde zu erkennen, hilft ein OOD-Detektor zu warnen, wenn es ein anderes Tier sieht, wie ein Pferd.

Ein gängiger Benchmark zum Testen der OOD-Erkennung ist ImageNet, ein riesiges Datenset von Bildern. Allerdings gibt es einige Probleme bei der Bewertung der OOD-Erkennungsleistung auf ImageNet. Viele der bestehenden Tests haben Datensätze, die Bilder enthalten, die tatsächlich zu den Klassen gehören, auf die das Modell trainiert wurde. Das kann die Ergebnisse verzerren und zu falschen Schlussfolgerungen über die Leistung eines Modells führen.

Probleme mit den aktuellen Datensätzen

Wenn Forscher die OOD-Erkennungsleistung mit ImageNet testen, verlassen sie sich oft auf eine begrenzte Anzahl von OOD-Datensätzen. Leider können diese Datensätze eine erhebliche Anzahl von ID-Proben enthalten, was bedeutet, dass die Bilder Objekte aus den Klassen enthalten, auf die das Modell trainiert wurde. Diese Überschneidung kann zu irreführenden Ergebnissen führen, da ein Modell bestraft werden könnte, weil es ein ID-Objekt korrekt erkennt, während es tatsächlich gut darin ist, OOD-Eingaben zu erkennen.

Für viele gängige Datensätze, die zur OOD-Bewertung verwendet werden, können mehr als 50 % der Proben ID-Klassen enthalten. Das ist problematisch, weil es den Bewertungsprozess verzerrt. In den meisten Fällen, wenn der OOD-Testdatensatz viele ID-Proben hat, wird es nahezu unmöglich zu sagen, wie gut ein Modell tatsächlich in OOD-Fällen abschneidet.

Einführung eines neuen Datensatzes

Um diese Probleme zu lösen, wurde ein neuer Datensatz erstellt, bekannt als No ImageNet Class Objects (NINCO) Datensatz. Dieser Datensatz wurde speziell entwickelt, um die OOD-Erkennung genauer zu testen. Jedes Bild im NINCO-Datensatz wurde überprüft, um sicherzustellen, dass es keinen Inhalt aus den ImageNet-Klassen enthält. Das Ziel ist es, ein klareres Bild davon zu geben, wie gut Modelle echte OOD-Proben erkennen können, ohne durch ID-Inhalte verwirrt zu werden.

Der NINCO-Datensatz umfasst eine breite Palette von OOD-Klassen und ist in 64 Kategorien organisiert. Das hilft, die Stärken und Schwächen von OOD-Detektoren zu identifizieren. Neben dem NINCO-Datensatz sind synthetische "OOD-Unittests" enthalten, um bestehende OOD-Erkennungsmethoden herauszufordern.

Probleme mit den aktuellen Bewertungspraktiken

Die meisten Bewertungen gehen davon aus, dass jedes Testbild, das als OOD gekennzeichnet ist, keine Elemente aus den ID-Klassen enthält. Diese Annahme ist jedoch oft falsch. Viele Datensätze, die für Tests verwendet werden, weisen erhebliche Überschneidungen mit den Klassen auf, auf die die Modelle trainiert wurden. Diese Kontamination kann zu falschen Bewertungen der OOD-Leistung führen.

Wenn ein OOD-Detektor ein Bild mit ID-Inhalten bewertet, könnte er das ID-Objekt korrekt identifizieren oder erkennen. Das kann jedoch zu falsch positiven Bewertungen führen, sodass es scheint, als würde der Detektor schlecht abschneiden, obwohl er tatsächlich korrekt identifiziert. Eine effektivere Möglichkeit zur Bewertung von OOD-Detektoren besteht darin, sicherzustellen, dass Testdatensätze wirklich OOD sind, ohne ID-Kontamination.

Bewertung von OOD-Detektoren

In der Praxis bedeutet die Bewertung eines OOD-Detektors, wie gut er OOD-Eingaben abweist, während er ID-Eingaben durchlässt. Der Zweck von OOD-Detektoren ist es, Fehlklassifizierungen zu verhindern, die auftreten können, wenn ein Modell unbekannte Daten trifft. Je nach Anwendung kann dies menschliches Eingreifen oder andere sichere Massnahmen erfordern.

Ein effektiver OOD-Detektor sollte unter der Prämisse arbeiten, dass er Eingaben, die nicht zu den trainierten Klassen gehören, sicher ablehnen kann. Die Herausforderung besteht darin, dass Testbilder Objekte aus diesen Klassen enthalten, was zu einer fehlerhaften Bewertung der Fähigkeiten des Modells führen kann.

Analyse der ID-Kontamination

ID-Kontamination ist ein bedeutender Faktor, der die Genauigkeit der OOD-Bewertungen beeinflusst. Wenn man ein Modell bewertet und ein hoher Prozentsatz der Testbilder ID-Klassen enthält, können die Ergebnisse irreführend sein. Es wird kompliziert, zwischen OOD-Fällen zu unterscheiden, und viele Modelle scheinen schlecht abzuschneiden, obwohl sie tatsächlich recht effektiv sein könnten.

Wenn das Modell beispielsweise ein Objekt im Hintergrund eines Bildes identifiziert, das zu einer ID-Klasse gehört, könnte das Modell fälschlicherweise als inkorrekt eingestuft werden. Umgekehrt könnte ein weniger effektives Modell ein ID-Objekt völlig nicht erkennen und fälschlicherweise erfolgreicher erscheinen, weil es keine Fehlklassifikation vornimmt.

Um ein klareres Bild zu zeichnen, sollte die Bewertung von OOD-Detektoren saubere Datensätze priorisieren, die wirklich OOD-Proben widerspiegeln, ohne Ablenkung durch ID-Klassen.

Erstellung des NINCO-Datensatzes

Der NINCO-Datensatz hat einen gründlichen Reinigungsprozess durchlaufen. Um Genauigkeit zu gewährleisten, wurde der Datensatz sorgfältig zusammengestellt, indem Basis-Klassen aus verschiedenen zuverlässigen Quellen ausgewählt wurden. Jedes Bild wurde inspiziert, um zu bestätigen, dass es die Kriterien erfüllt, frei von ID-Kontamination zu sein.

Der NINCO-Datensatz enthält Bilder aus verschiedenen Umgebungen und Kategorien. Diese Vielfalt ermöglicht die Bewertung der Detektoren unter unterschiedlichen Szenarien. Viele der Bilder stammen aus dem Species-Datensatz, der für seine Genauigkeit bekannt ist, während einige aus anderen Datensätzen wie Places und Food-101 stammen.

Insgesamt umfasst der NINCO-Datensatz zahlreiche Bilder, die auf ID-Inhalt überprüft wurden, organisiert in 64 verschiedene OOD-Kategorien. Diese Aufmerksamkeit für Details stellt sicher, dass die Bewertungen auf genauen Darstellungen der OOD-Leistung basieren.

Bedeutung von synthetischen OOD-Unittests

Neben der Identifizierung herausfordernder OOD-Klassen führt das neue Bewertungsframework synthetische OOD-Unittests ein. Diese Tests bieten zusätzliche Herausforderungen, mit denen ein Modell in realen Anwendungen konfrontiert sein könnte. Sie sind darauf ausgelegt, spezifische Schwächen im Erkennungsprozess aufzudecken, die bei typischen Bewertungen möglicherweise nicht zum Vorschein kommen.

Synthetische Tests helfen zu bewerten, wie gut Detektoren mit unerwarteten Eingaben oder Fehlfunktionen umgehen. Zum Beispiel könnten Modelle mit einfachen Tests, die aus monochromen oder geräuschbehafteten Bildern bestehen, Schwierigkeiten haben, was in realen Anwendungen aufgrund von Problemen wie Kamerafehlern auftreten könnte.

Bewertung von Modellen mit NINCO und OOD-Unittests

Bei der Bewertung von OOD-Detektoren bietet der NINCO-Datensatz eine klarere Möglichkeit zu evaluieren, wie gut verschiedene Modelle abschneiden. Modelle werden gegen den Datensatz getestet, um ihre Leistung bei echten OOD-Eingaben zu verstehen.

Für jedes bewertete Modell wird angezeigt, wie effektiv sie OOD-Proben ablehnen, während sie ID-Proben durchlassen. Die Ergebnisse helfen den Forschern zu verstehen, was gut funktioniert und was nicht, und ermöglichen Verbesserungen bei den OOD-Erkennungsmethoden.

Bei diesen Bewertungen ist es wichtig zu betonen, dass nicht alle Modelle in verschiedenen Aufgaben gleichermassen effektiv sind. Einige schneiden mit bestimmten Arten von OOD-Eingaben aussergewöhnlich gut ab, während sie bei anderen Schwierigkeiten haben. Die Verwendung sowohl des NINCO-Datensatzes als auch der OOD-Unittests bietet einen umfassenden Überblick über die Stärken und Schwächen jedes Modells.

Schlussfolgerungen aus der Bewertung von OOD-Detektoren

Die Ergebnisse deuten darauf hin, dass viele OOD-Detektoren besser abschneiden können, als zuvor gedacht, wenn sie mit Datensätzen bewertet werden, die frei von ID-Kontamination sind. Der NINCO-Datensatz und die OOD-Unittests offenbaren bedeutende Einblicke in die Leistung verschiedener Modelle und unterstreichen die Notwendigkeit eines sauberen Testumfelds.

Da genauere Bewertungen in der Branche zum Standard werden, wird erwartet, dass sich die Entwicklung zuverlässiger OOD-Detektoren voranbringt. Dies ist entscheidend für die Verbesserung von Systemen in praktischen Situationen, in denen die Folgen von Fehlklassifikationen schwerwiegend sein können.

Zukünftige Richtungen

Wenn wir voranschreiten, wird die Bedeutung einer genauen OOD-Erkennung nur zunehmen. Der NINCO-Datensatz ist ein Schritt in Richtung Verfeinerung, wie die OOD-Leistung bewertet wird. Zukünftige Arbeiten könnten sich darauf konzentrieren, vielfältigere synthetische Unittests zu entwickeln, um eine breitere Palette von OOD-Szenarien abzudecken.

Darüber hinaus wird die kontinuierliche Überwachung der ID-Kontamination in bestehenden Datensätzen entscheidend sein. Da Machine-Learning-Modelle immer häufiger eingesetzt werden, wird die Zuverlässigkeit der OOD-Erkennung entscheidend sein, um ihre sichere und effektive Anwendung in realen Aufgaben zu gewährleisten.

Forscher werden weiterhin innovativ sein müssen, um Möglichkeiten zu finden, noch bessere Datensätze zur Bewertung von OOD zu erstellen. Dies wird eine Zusammenarbeit im gesamten Bereich erfordern, um Erkenntnisse und Ergebnisse auszutauschen, damit alle Modelle von genauen Benchmarks profitieren können.

Zusammenfassend hängt der Fortschritt der OOD-Erkennungsfähigkeiten von der Qualität der Bewertungsdatensätze ab, die in der Forschung verwendet werden. Indem saubere Datensätze wie der NINCO-Datensatz priorisiert und gut strukturierte synthetische Tests verwendet werden, steht das Feld vor bedeutendem Fortschritt bei der Erkennung von Out-of-Distribution-Eingaben.

Originalquelle

Titel: In or Out? Fixing ImageNet Out-of-Distribution Detection Evaluation

Zusammenfassung: Out-of-distribution (OOD) detection is the problem of identifying inputs which are unrelated to the in-distribution task. The OOD detection performance when the in-distribution (ID) is ImageNet-1K is commonly being tested on a small range of test OOD datasets. We find that most of the currently used test OOD datasets, including datasets from the open set recognition (OSR) literature, have severe issues: In some cases more than 50$\%$ of the dataset contains objects belonging to one of the ID classes. These erroneous samples heavily distort the evaluation of OOD detectors. As a solution, we introduce with NINCO a novel test OOD dataset, each sample checked to be ID free, which with its fine-grained range of OOD classes allows for a detailed analysis of an OOD detector's strengths and failure modes, particularly when paired with a number of synthetic "OOD unit-tests". We provide detailed evaluations across a large set of architectures and OOD detection methods on NINCO and the unit-tests, revealing new insights about model weaknesses and the effects of pretraining on OOD detection performance. We provide code and data at https://github.com/j-cb/NINCO.

Autoren: Julian Bitterwolf, Maximilian Müller, Matthias Hein

Letzte Aktualisierung: 2023-06-01 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2306.00826

Quell-PDF: https://arxiv.org/pdf/2306.00826

Lizenz: https://creativecommons.org/licenses/by-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel