Verbesserung der Protokollanomalieerkennung mit Graphen

Inhaltsverzeichnis

Bedeutung der Protokollanalyse
Vorhandene Methoden zur Erkennung von Protokollanomalien
Der Bedarf an Anomaliebeschreibungen
Der Logs2Graphs-Ansatz
Vorteile von Logs2Graphs
Verwandte Arbeiten
Definitionen und Konzepte
Graphbasierte Erkennung von Protokollanomalien
Konstruktion von Graphen aus Protokollen
One-Class Digraph Inception Convolutional Networks (OCDiGCN)
Anomaliebeschreibung
Experimente
Ergebnisse und Beobachtungen
Fazit
Originalquelle
Referenz Links

Ereignisprotokolle sind wichtig für High-Tech-Systeme wie Cloud-Computer und Lithografiemaschinen. Sie helfen dabei, nachzuvollziehen, was in diesen Systemen passiert, weshalb die Erkennung von Protokollanomalien notwendig ist, um alles reibungslos am Laufen zu halten. Die meisten Methoden zur Auffindung von Problemen in Protokollen konzentrieren sich darauf, Ereignisse zu zählen oder die Reihenfolge der Ereignisse zu betrachten. Allerdings führt die alleinige Verwendung von Zählung oder Reihenfolge oft zu Fehlern bei der Identifizierung echter Probleme.

Um die Sache zu verbessern, stellen wir eine Methode namens Logs2Graphs vor, die Ereignisprotokolle in Graphen umwandelt. Diese Graphen sind gerichtete, was bedeutet, dass die Reihenfolge wichtig ist, und sie enthalten zusätzliche Details zu den Ereignissen. Wir nutzen eine spezielle Art von Netzwerk, das als Graph Neural Network bezeichnet wird, um Probleme in diesen Graphen zu finden. Diese neue Sichtweise auf Protokolle hilft dabei, Probleme genauer zu erkennen.

Bedeutung der Protokollanalyse

Systeme wie Cloud-Computer bestehen aus vielen Teilen und sind ziemlich komplex geworden. Deshalb ist es schwierig, diese Systeme manuell zu betreiben und zu warten. Protokolle werden routinemässig verwendet, um Informationen darüber zu sammeln, was in einem System passiert. Durch die Analyse dieser Protokolle können wir frühzeitig Fehler und Risiken erkennen. Diese frühzeitige Erkennung ist entscheidend, um grössere Probleme zu vermeiden.

Protokolle werden normalerweise in einer Mischung aus strukturierten und unstrukturierten Formaten geschrieben, sodass es schwierig sein kann, Probleme durch Protokollanalysen zu finden. Da sowohl Forscher als auch Industrie bessere Möglichkeiten suchen, um Probleme in Protokollen zu erkennen, wurden mehrere Methoden zur Erkennung von Protokollanomalien entwickelt.

Vorhandene Methoden zur Erkennung von Protokollanomalien

Aktuelle Methoden zur Erkennung von Problemen in Protokollen können in drei Haupttypen eingeteilt werden:

Quantitative Methoden: Diese Methoden, wie die Hauptkomponentenanalyse (PCA) und One-Class SVM (OCSVM), konzentrieren sich darauf, wie oft jedes Protokollevreignis auftritt. Oft erfassen sie jedoch nicht die Bedeutung der Ereignisse oder die Reihenfolge, in der sie auftreten.
Sequenzbasierte Methoden: Diese Ansätze, wie DeepLog und LogAnomaly, achten auf die Reihenfolge der Ereignisse. Obwohl sie den Fluss der Protokollevreignisse erfassen können, berücksichtigen sie nicht immer die gesamte Struktur.
Graphbasierte Methoden: Diese wandeln Protokolle in Graphen um, in denen die Beziehungen zwischen den Ereignissen dargestellt sind. Sie nutzen die Struktur der Protokolle und erfassen die Bedeutung der Ereignisse.

Graphbasierte Methoden haben einige Vorteile, wie die Fähigkeit, Probleme im Zusammenhang mit der Struktur der Ereignisse zu identifizieren, Kontext für erkannte Probleme bereitzustellen und das normale Verhalten von Protokollen in einem visuellen Format darzustellen. Viele vorhandene Graphmethoden verwandeln jedoch Protokolle in ungerichtete Graphen und verlieren dabei wichtige Informationsreihenfolgen.

Der Bedarf an Anomaliebeschreibungen

Da immer mehr Maschinen auf diese Algorithmen angewiesen sind, besteht die Notwendigkeit, zu erklären, wie Entscheidungen getroffen werden, insbesondere in sicherheitskritischen Bereichen. Erklärungen bereitzustellen ist nicht nur eine gute Praxis, sondern auch entscheidend für Verantwortung und Transparenz. Gute Erklärungen helfen, Probleme schnell zu diagnostizieren, und ermöglichen zeitnahe Eingriffe, wenn Probleme auftreten. Leider konzentrieren sich viele aktuelle Methoden zur Erkennung von Protokollanomalien nur auf die Erkennung von Problemen, ohne klare Erklärungen anzubieten.

Der Logs2Graphs-Ansatz

Um diese Herausforderungen anzugehen, stellen wir Logs2Graphs vor, eine Methode, die Anomalien in Protokollen mithilfe von Graphen erkennt. Es verwendet eine neue Art von Netzwerk namens One-Class Digraph Inception Convolutional Networks (OCDiGCN), das aus der Struktur gerichteter Graphen lernen kann.

Schritte in Logs2Graphs

Protokollanalyse: Die anfänglichen Rohprotokolldaten werden bereinigt und organisiert, sodass nur relevante Ereignisse übrig bleiben.
Protokollgruppierung: Nachrichten werden basierend auf Identifikatoren in Protokollgruppen gruppiert, um handhabbare Abschnitte zu erstellen.
Graphkonstruktion: Jede Gruppe von Protokollen wird in einen Graphen umgewandelt, wobei Knoten die Protokollevreignisse darstellen und Kanten zeigen, wie die Ereignisse aufeinander folgen. Dies trägt dazu bei, sowohl die Sequenz- als auch die Strukturinformation zu erfassen.
Graphdarstellung Lernen und Anomalieerkennung: Wir verwenden OCRiGCN, um aus diesen Graphen zu lernen und zu identifizieren, welche Anomalien basierend auf gelernten Mustern vorliegen.
Erklärung: Für jede erkannte Anomalie heben wir wichtige Knoten hervor, die zur Erkennung geführt haben, um die Ursachen besser zu verstehen.

Vorteile von Logs2Graphs

Die Logs2Graphs-Methode hat mehrere Vorteile:

Höhere Genauigkeit: Durch die Verwendung von gerichteten Graphen erfasst sie sequenzielle Beziehungen besser als traditionelle Methoden.
Integriertes Lernen: Sie kombiniert das Lernen, wie der Graph dargestellt wird, und die Erkennung von Problemen in einem Schritt, was sie effizienter macht.
Klare Erklärungen: Sie identifiziert bedeutende Knoten im Graphen, um Anomalien zu erklären, die als Leitfaden für nachfolgende Untersuchungen dienen können.

Definitionen und Konzepte

Um zu verstehen, wie man Protokolldaten in Graphenform analysiert, sind einige grundlegende Definitionen erforderlich:

Ereignisprotokolle: Das sind Aufzeichnungen, die Systemzustände und Ereignisse erfassen, oft mit Zeitstempeln und Protokollnachrichten.
Graphen: Ein Graph besteht aus Knoten (die Protokollevreignisse darstellen) und Kanten (die die Beziehungen zwischen den Ereignissen zeigen).

Ereignisprotokolle in der Praxis

Protokolle werden normalerweise in einem zentralisierten Format gespeichert und enthalten viele Protokollnachrichten. Jede Nachricht hat einen Zeitstempel, einen Ereignistyp und zusätzliche Details, die als Parameter bezeichnet werden.

Zur Gruppierung von Nachrichten können Identifikatoren oder feste Fenster verwendet werden, was die Erstellung einer Ereigniszählermatrix ermöglicht. Diese Matrix hilft dabei, Protokollanomalien zu identifizieren, also Nachrichten oder Gruppen, die sich von dem unterscheiden, was als normal angesehen wird.

Graphbasierte Erkennung von Protokollanomalien

Wir schlagen vor, dass Protokollgruppen als Graphen betrachtet werden können, die Anomalien aufdecken können.

Problemdefinition

Das Ziel der Erkennung von Protokollanomalien mithilfe von Graphen ist es, solche zu finden, die sich signifikant von der Mehrheit unterscheiden. Die wichtigsten Arten von Anomalien sind:

Quantitative Anomalien: Wo die Häufigkeit bestimmter Ereignisse unerwartet hoch oder niedrig ist.
Sequentielle Anomalien: Wo Ereignisse in einer Weise auftreten, die die erwartete Reihenfolge verletzt.

Graphenbasierte Erkennungsmethoden können beide Arten erfassen und strukturelle Probleme aufdecken.

Konstruktion von Graphen aus Protokollen

Der Prozess der Umwandlung von Protokollen in Graphen umfasst mehrere Schritte:

Knoten: Jedes Ereignis bildet einen einzigartigen Knoten.
Kanten: Gerichtete Kanten werden basierend auf der Reihenfolge der Ereignisse erstellt, wobei Gewichte vergeben werden, die darauf basieren, wie oft ein Ereignis ein anderes folgt.
Attribute: Jeder Knoten wird mit zusätzlichen Daten, wie semantischen Einbettungen, angereichert, um tiefere Bedeutungen zu erhalten.

Das Ergebnis ist ein attributierter, gerichteter und gewichteter Graph, der entscheidend dafür ist, Probleme genau zu identifizieren.

Semantische Einbettung

Um bedeutungsvollere Knotenattribute zu erstellen, berücksichtigen semantische Einbettungen den Text der Protokollnachrichten.

Vorverarbeitung: Entfernen von Nicht-Zeichen-Elementen und Fokus auf die Kernwörter.
Worteinbettung: Nutzung von vortrainierten Modellen, die es ermöglichen, jedes Wort als Vektor darzustellen.
Satzembedding: Eine gewichtete Summe von Worteinbettungen erfasst die Bedeutung verschiedener Wörter in einem Protokollevreignis.

Durch die Kombination dieser Techniken kann jedes Protokollevreignis auf eine Weise dargestellt werden, die sowohl seine semantische Bedeutung als auch seine strukturelle Rolle im gesamten Graphen erfasst.

One-Class Digraph Inception Convolutional Networks (OCDiGCN)

OCDiGCN ist ein Modell, das graphenbasiertes Lernen mit Anomalieerkennung integriert.

So funktioniert OCDiGCN

Knotenrepräsentationslernen: Es nutzt Graphstrukturen und lernt, wie Knoten effektiv dargestellt werden.
Graphdarstellung: Das Modell aggregiert Knotenrepräsentationen, um eine einzige Graphdarstellung zu erstellen.
Anomalieerkennung: Dieses Modell wendet ein Klassifizierungsziel an, das die Identifizierung von Anomalien basierend auf ihrer Darstellung in einem gelernten Raum ermöglicht.

Anomaliebeschreibung

Für jede erkannte Anomalie identifiziert das Modell wichtige Knoten, die wesentlich zur Erkennung beigetragen haben.

Wichtigkeitspunktzahl: Dies quantifiziert, wie viel jeder Knoten zur finalen Anomaliepunktzahl beiträgt.
Visualisierung: Das Hervorheben signifikanter Knoten liefert klare Hinweise zum Nachverfolgen von Problemen, was den Erkennungsprozess transparent macht.

Experimente

Wir haben die Leistung von Logs2Graphs in verschiedenen Szenarien getestet, einschliesslich Vergleiche mit traditionellen Methoden und anderen fortgeschrittenen Techniken.

Datensätze

Fünf Benchmark-Datensätze wurden verwendet, da sie in diesem Bereich gut bekannt sind und ausreichend Details zur Bewertung von Protokollanomalieerkennungsmethoden enthalten.

HDFS-Protokolle: Aus einem Hadoop-Cluster gesammelt und für Anomalien gekennzeichnet.
Hadoop-Protokolle: Aus einem anderen Setup generiert, ebenfalls gekennzeichnet.
BGL, Spirit und Thunderbird: Aus Supercomputersystemen gesammelt und manuell gekennzeichnet.

Bewertungsmetriken

Wir bewerteten die Leistung anhand von zwei Hauptmetriken:

ROC AUC: Misst die Fläche unter der Kurve der wahren positiven und falschen positiven Raten.
Durchschnittliche Präzision: Gibt einen einzelnen Wert an, der die Präzision des Modells über verschiedene Schwellen zusammenfasst.

Diese Metriken helfen zu bewerten, wie gut jede Methode Anomalien identifiziert.

Ergebnisse und Beobachtungen

Genauigkeitsvergleich

Logs2Graphs zeigte hervorragende Leistungen und übertraf oft traditionelle Methoden sowie andere moderne Techniken.

Es schnitt in ROC AUC in drei von fünf Datensätzen konstant am besten ab.
Die Methode glänzt mit komplexen Datensätzen, die zahlreiche Vorlagen enthalten.

Gerichtete vs. Ungerichtete Graphen

Wir verglichen die Effektivität der Verwendung gerichteter Graphen mit ungerichteten Graphen. Unsere Ergebnisse zeigten, dass gerichtete Graphen in der Anomalieerkennung besser abschneiden, wahrscheinlich aufgrund ihrer Fähigkeit, die Ereignisreihenfolge zu erfassen.

Bedeutung semantischer Attribute

Als wir semantische Einbettungen durch einfachere Darstellungen ersetzten, litt die Leistung von Logs2Graphs, was bestätigte, dass das Erfassen der Bedeutung von Protokollevreignissen entscheidend für eine effektive Erkennung ist.

Robustheitstest

Wir haben auch untersucht, wie gut Logs2Graphs mit Szenarien umgeht, in denen einige Trainingsdaten mit Anomalien kontaminiert waren. Die Ergebnisse zeigten einen Rückgang der Genauigkeit, je mehr Kontaminationen auftraten, was den Bedarf an sauberen Trainingsdatensätzen verdeutlicht.

Fazit

In dieser Arbeit haben wir Logs2Graphs vorgestellt, eine innovative und effektive Methode zur Erkennung von Anomalien in Protokollen unter Verwendung graphenbasierter Ansätze. Durch die Umwandlung von Protokollen in gerichtete, attributierte Graphen und den Einsatz eines einzigartigen neuronalen Netzwerkmodells haben wir die Erkennungsgenauigkeit erheblich verbessert und klare Erklärungen für Anomalien bereitgestellt.

Unsere Experimente mit Benchmark-Datensätzen haben gezeigt, dass Logs2Graphs wettbewerbsfähig ist und oft bestehende Methoden in Bezug auf die Leistung übertrifft. Diese Arbeit verbessert das Verständnis der Protokollanalyse und ebnet den Weg für die Entwicklung fortschrittlicher Anomalieerkennungssysteme in verschiedenen kritischen Anwendungen.

Weitere Arbeiten werden sich mit der Verfeinerung des Graphkonstruktionsprozesses, der Verbesserung der Robustheit gegen Kontamination und der Erkundung zusätzlicher Datensätze für umfassende Tests befassen.

Verbesserung der Protokollanomalieerkennung mit Graphen

Logs2Graphs verbessert die Erkennungsgenauigkeit mit graphbasierten Methoden für Ereignisprotokolle.

Bedeutung der Protokollanalyse

Vorhandene Methoden zur Erkennung von Protokollanomalien

Der Bedarf an Anomaliebeschreibungen

Der Logs2Graphs-Ansatz

Schritte in Logs2Graphs

Vorteile von Logs2Graphs

Verwandte Arbeiten

Definitionen und Konzepte

Ereignisprotokolle in der Praxis

Graphbasierte Erkennung von Protokollanomalien

Problemdefinition

Konstruktion von Graphen aus Protokollen

Semantische Einbettung

One-Class Digraph Inception Convolutional Networks (OCDiGCN)

So funktioniert OCDiGCN

Anomaliebeschreibung

Experimente

Datensätze

Bewertungsmetriken

Ergebnisse und Beobachtungen

Genauigkeitsvergleich

Gerichtete vs. Ungerichtete Graphen

Bedeutung semantischer Attribute

Robustheitstest

Fazit

Referenz Links

Referenzierte Themen

Verbesserung der Protokollanomalieerkennung mit Graphen

Logs2Graphs verbessert die Erkennungsgenauigkeit mit graphbasierten Methoden für Ereignisprotokolle.

#Bedeutung der Protokollanalyse

#Vorhandene Methoden zur Erkennung von Protokollanomalien

#Der Bedarf an Anomaliebeschreibungen

#Der Logs2Graphs-Ansatz

#Schritte in Logs2Graphs

#Vorteile von Logs2Graphs

#Verwandte Arbeiten

#Definitionen und Konzepte

#Ereignisprotokolle in der Praxis

#Graphbasierte Erkennung von Protokollanomalien

#Problemdefinition

#Konstruktion von Graphen aus Protokollen

#Semantische Einbettung

#One-Class Digraph Inception Convolutional Networks (OCDiGCN)

#So funktioniert OCDiGCN

#Anomaliebeschreibung

#Experimente

#Datensätze

#Bewertungsmetriken

#Ergebnisse und Beobachtungen

#Genauigkeitsvergleich

#Gerichtete vs. Ungerichtete Graphen

#Bedeutung semantischer Attribute

#Robustheitstest

#Fazit

Referenz Links

Referenzierte Themen

Bedeutung der Protokollanalyse

Vorhandene Methoden zur Erkennung von Protokollanomalien

Der Bedarf an Anomaliebeschreibungen

Der Logs2Graphs-Ansatz

Schritte in Logs2Graphs

Vorteile von Logs2Graphs

Verwandte Arbeiten

Definitionen und Konzepte

Ereignisprotokolle in der Praxis

Graphbasierte Erkennung von Protokollanomalien

Problemdefinition

Konstruktion von Graphen aus Protokollen

Semantische Einbettung

One-Class Digraph Inception Convolutional Networks (OCDiGCN)

So funktioniert OCDiGCN

Anomaliebeschreibung

Experimente

Datensätze

Bewertungsmetriken

Ergebnisse und Beobachtungen

Genauigkeitsvergleich

Gerichtete vs. Ungerichtete Graphen

Bedeutung semantischer Attribute

Robustheitstest

Fazit