Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Maschinelles Lernen# Künstliche Intelligenz

Bewertung von synthetischen Anomalien für bessere Erkennung

Ein neues Bewertungssystem verbessert die Qualität von synthetischen Anomalien im maschinellen Lernen.

― 7 min Lesedauer


Bewertung vonBewertung vonsynthetischen Anomalienzur ErkennungTraining zur Anomalieerkennung.Neue Bewertungsmethode verbessert das
Inhaltsverzeichnis

Anomalieerkennung geht darum, Dinge zu finden, die anders oder ungewöhnlich sind im Vergleich zu dem, was als normales Verhalten gilt. Das kann in verschiedenen Branchen wichtig sein, wie zum Beispiel beim Aufspüren von Fehlern in Produkten während der Herstellung, beim Erkennen ungewöhnlicher Muster im Wasserverbrauch, beim Überwachen von Ausfällen in Geräten wie Windturbinen oder beim Identifizieren von Betrugsfällen in Finanzsystemen. Diese Anomalien frühzeitig zu erkennen, kann Geld sparen und Schäden an Ressourcen verhindern.

Aber Anomalien zu finden ist nicht einfach. Sie sind oft selten, was es schwierig macht, echte Beispiele dafür zu sammeln. Damit ein Machine-Learning-Modell lernen kann, Anomalien zu erkennen, braucht es Beispiele sowohl für normale als auch für abnormale Fälle. In vielen Situationen gibt es nicht genug Beispiele von Anomalien, um ein Modell effektiv zu trainieren.

In Bereichen wie selbstfahrenden Autos können unerwartete Ereignisse wie Sensorfehler oder plötzliche Bewegungen von Fussgängern auftreten, aber sie sind selten und müssen dringend angesprochen werden. Ähnlich ist es im Finanzsektor, wo regelmässig neue Betrugstechniken auftauchen, was es erschwert, eine umfangreiche Sammlung von Anomalien zusammenzustellen. Diese Unvorhersehbarkeit macht es schwierig, einen umfassenden Datensatz für das Training von Modellen zusammenzustellen.

Die Rolle von Hilfsanomalien

Um die Herausforderungen des Sammelns von echten Anomalien zu überwinden, schauen Forscher nach hilfssynthetischen Anomalien. Das sind künstlich erschaffene Beispiele, die helfen können, die Modelle zu trainieren. Diese künstlichen Anomalien können jedoch problematisch sein. Sie könnten zu sehr wie normale Fälle aussehen oder unrealistisch sein, was zu schlechten Trainingsergebnissen führen kann. Wenn von geringer Qualität Anomalien für das Training verwendet werden, kann das die Fähigkeit des Modells beeinträchtigen, echte Anomalien genau zu identifizieren.

Aktuell gibt es keine Methoden, um die Qualität dieser synthetischen Anomalien zu messen. Unsere Arbeit geht dieses Problem an, indem wir ein Bewertungssystem einführen, das bewertet, wie nützlich eine Hilfsanomalie für das Training eines Modells ist.

Anomaliequalität definieren

Um die Qualität synthetischer Anomalien zu verstehen, stellen wir fest, dass qualitativ hochwertige Anomalien zwei Hauptkriterien erfüllen sollten:

  1. Sie sollten leicht als unterschiedlich von normalen Fällen zu erkennen sein.
  2. Sie sollten Merkmale aufweisen, die echten normalen Beispielen ähnlich sehen.

Den richtigen Ausgleich zu finden, um die Anomalien von normalen Fällen zu unterscheiden, ohne sie zu unrealistisch zu machen, stellt eine grosse Herausforderung dar. Wenn die synthetischen Anomalien zu vertraut mit normalen Beispielen erscheinen, liefern sie keine nützlichen Trainingssignale. Wenn sie jedoch zu unähnlich sind, profitieren sie möglicherweise nicht vom Lernprozess.

Unser Ansatz erkennt dieses Gleichgewicht, indem er die Unsicherheit modelliert, die mit den Vorhersagen eines Anomalieerkennungsgeräts verbunden ist. Indem wir sowohl schauen, wie ähnlich eine Anomalie normalen Beispielen ist als auch wie realistisch sie aussieht, können wir eine bessere Einschätzung ihrer Qualität geben.

Das bayesianische Framework

Wir nutzen einen bayesianischen Ansatz, um die Unsicherheit zu bewerten, die jeder Anomalie zugeordnet ist. Dieses Framework hilft zu verstehen, wie wahrscheinlich es ist, dass ein Beispiel eine Anomalie ist, basierend auf seiner Ähnlichkeit zu normalen Fällen.

In unserem Modell führen wir eine Punktzahlfunktion ein, die die Qualität einer Anomalie widerspiegelt, basierend darauf, wie wahrscheinlich es ist, dass sie als Abnormalität identifiziert wird. Diese Punktzahl soll qualitativ hochwertige Anomalien von solchen trennen, die nicht unterscheidbar oder unrealistisch sind.

Anomalien klassifizieren

Um die Anomalien weiter zu kategorisieren, definieren wir drei Typen basierend auf ihrer Beziehung zu normalen Beispielen:

  • Realistische Anomalien: Diese sehen genug anders aus als normale Beispiele, um als Anomalien erkannt zu werden, haben aber eine Ähnlichkeit, die sie plausibel macht.
  • Unrealistische Anomalien: Diese könnten Anomalien beschreiben, die zu extrem sind und nicht realistisch die Arten von Anomalien darstellen, denen man begegnen könnte.
  • Ununterscheidbare Anomalien: Diese sehen so ähnlich aus wie normale Fälle, dass sie nicht mit Sicherheit als Anomalien identifiziert werden können.

Mit dieser Klassifikation können wir dann eine Punktzahl entwickeln, die die Wahrscheinlichkeit bewertet, dass eine Anomalie genau identifiziert wird.

Implementierung der erwarteten Anomalieposterior

Wir schlagen eine neue Punktzahl namens "Erwartete Anomalieposterior" vor. Diese Punktzahl ermöglicht es uns, die gesamte Unsicherheit zu erfassen, die mit der Vorhersage verbunden ist, ob ein Beispiel eine Anomalie ist.

Zuerst betrachten wir die Wahrscheinlichkeit, dass irgendein Beispiel eine Anomalie ist, basierend auf seinen Merkmalen. Durch die Nutzung eines vorangegangenen Verständnisses darüber, wie Anomalien verteilt sind, können wir eine angepasste Punktzahl berechnen, die die spezifischen Eigenschaften einer Hilfsanomalie berücksichtigt.

Herausforderungen bei der Schätzung

Die genaue Berechnung der Punktzahl bringt Herausforderungen mit sich. Wenn man zum Beispiel eine grosse Gruppe von Beispielen betrachtet, haben traditionelle Methoden zur Schätzung, wie "normal" oder "anomal" ein gegebener Fall sein könnte, oft Probleme aufgrund der Komplexität der Daten. Viele Algorithmen können langsam sein, insbesondere wenn sie auf reichen Datensätzen wie Bildern angewendet werden.

Um diese Herausforderungen zu überwinden, verwenden wir eine einfachere Methode, die "Seltenheitsbewertung" genannt wird. Diese Methode bewertet, wie häufig oder selten ein Beispiel im Verhältnis zu den anderen im Datensatz ist. Ein Beispiel erhält eine höhere Punktzahl, wenn es unter den Trainingsdaten seltener auftaucht.

Schätzung von Wahrscheinlichkeit und Dichte

Zusätzlich zur Seltenheitsbewertung müssen wir auch die Wahrscheinlichkeit schätzen, dass jedes Beispiel eine Anomalie ist. Dies beinhaltet das Verständnis, wie die Daten verteilt sind und das Berücksichtigen von Wahrscheinlichkeiten in einem unausgewogenen Datensatz. In den meisten Fällen könnten traditionelle Methoden für diese Art von Schätzung nicht optimal abschneiden.

Um sicherzustellen, dass die Punktzahlen, die wir erreichen, mit den tatsächlichen Wahrscheinlichkeiten übereinstimmen, die wir vorhersagen, wenden wir eine Skalierungsmethode an, um die Rohanomaliepunkte anzupassen. Dies hilft sicherzustellen, dass die Vorhersagen des Anomalieerkennungsgeräts kohärent sind und die wahre Darstellung von Anomalien widerspiegeln.

Experimente und Ergebnisse

Um unseren Ansatz zu validieren, führten wir umfangreiche Experimente mit mehreren Datensätzen durch. Diese Datensätze umfassen weithin anerkannte Benchmark-Datensätze für Bild- und Tabellendaten.

Experimentelle Anordnung

Für jeden Datensatz stellen wir einen ausgewogenen Testdatensatz auf, in dem wir normale Beispiele mit einem Anteil verfügbarer Anomalien mischen. Wir erzeugen Synthetische Anomalien mit unterschiedlichen Methoden und bewerten sie mithilfe unseres vorgeschlagenen Bewertungssystems. Dabei kombinieren wir realistische, ununterscheidbare und unrealistische Anomalien.

Wir messen dann, wie effektiv die verschiedenen Methoden die Qualität dieser synthetischen Anomalien bewerten können und wie sich dies auf die Gesamtleistung von Anomalieerkennungssystemen auswirkt.

Überblick über die Ergebnisse

Unsere Ergebnisse zeigen, dass die Erwartete Anomalieposterior in den meisten Fällen andere bestehende Methoden übertrifft. Bei Verwendung hochwertiger synthetischer Anomalien verbessert unser Ansatz die Leistung der Anomalieerkennungsmodelle erheblich.

Die Experimente zeigten auch, dass das frühe Einbringen höher bewerteter Anomalien in den Trainingsprozess zu einer besseren Modellleistung führt. Im Gegensatz dazu verlangsamt das Einbringen von Anomalien niedrigerer Qualität tendenziell die Lernkurve und verringert die Genauigkeit.

Evaluationsmetriken

Wir verwendeten mehrere Metriken zur Bewertung unserer Ergebnisse, einschliesslich:

  • Fläche unter der Kurve (AUC): Diese Metrik hilft uns zu bewerten, wie gut das Modell qualitativ hochwertige Beispiele im Vergleich zu schlechten einstuft.
  • Lernkurven (LC): Diese bieten Einblicke, wie sich die Modellleistung im Laufe der Zeit entwickelt, während verschiedene Anomalien zum Trainingssatz hinzugefügt werden.

Insgesamt erzielte unsere Methode die besten Ergebnisse in diesen verschiedenen Evaluationsmetriken.

Fazit und zukünftige Arbeiten

Zusammenfassend präsentiert diese Arbeit einen neuartigen Ansatz zur Bewertung der Qualität synthetischer Anomalien für die Anomalieerkennung. Durch die Einführung der Punktzahl „Erwartete Anomalieposterior“ haben wir nun eine systematische Möglichkeit, zu bewerten, wie nützlich synthetische Beispiele für das Training sind.

Obwohl unsere Ergebnisse vielversprechend sind, gibt es noch Herausforderungen zu bewältigen. Einige der Kategorisierungen müssen möglicherweise basierend auf spezifischen Anforderungen des Domänens verfeinert werden. Während synthetische Anomalien weiterhin an Bedeutung in Trainingsdatensätzen gewinnen, könnte die Verbesserung unserer Bewertungsmethoden zu noch besseren Ergebnissen führen.

Darüber hinaus kann diese Forschung verschiedene Bereiche beeinflussen, in denen Anomalieerkennung entscheidend ist, und Organisationen helfen, genauere und effektivere Modelle zu entwickeln. Indem wir bessere Wege entwickeln, um synthetische Anomalien zu bewerten und zu nutzen, können wir möglicherweise transformieren, wie Machine Learning reale Probleme angeht.

Originalquelle

Titel: Uncertainty-aware Evaluation of Auxiliary Anomalies with the Expected Anomaly Posterior

Zusammenfassung: Anomaly detection is the task of identifying examples that do not behave as expected. Because anomalies are rare and unexpected events, collecting real anomalous examples is often challenging in several applications. In addition, learning an anomaly detector with limited (or no) anomalies often yields poor prediction performance. One option is to employ auxiliary synthetic anomalies to improve the model training. However, synthetic anomalies may be of poor quality: anomalies that are unrealistic or indistinguishable from normal samples may deteriorate the detector's performance. Unfortunately, no existing methods quantify the quality of auxiliary anomalies. We fill in this gap and propose the expected anomaly posterior (EAP), an uncertainty-based score function that measures the quality of auxiliary anomalies by quantifying the total uncertainty of an anomaly detector. Experimentally on 40 benchmark datasets of images and tabular data, we show that EAP outperforms 12 adapted data quality estimators in the majority of cases.

Autoren: Lorenzo Perini, Maja Rudolph, Sabrina Schmedding, Chen Qiu

Letzte Aktualisierung: 2024-05-22 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2405.13699

Quell-PDF: https://arxiv.org/pdf/2405.13699

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel