Améliorer la détection d'anomalies dans les logs avec des graphes
Logs2Graphs améliore la précision de détection en utilisant des méthodes basées sur des graphes pour les journaux d'événements.
― 12 min lire
Table des matières
- Importance de l'analyse des journaux
- Méthodes existantes de détection d'anomalies dans les journaux
- Le besoin d'explication des anomalies
- L'approche Logs2Graphs
- Avantages de Logs2Graphs
- Travaux connexes
- Définitions et concepts
- Détection d'anomalies dans les journaux basée sur les graphes
- Construction de graphes à partir de journaux
- Réseaux de convolution d'inception de digraphe à une classe (OCDiGCN)
- Explication des anomalies
- Expérimentations
- Résultats et observations
- Conclusion
- Source originale
- Liens de référence
Les journaux d'événements sont super importants pour des systèmes high-tech comme les ordinateurs cloud et les machines de lithographie. Ils aident à suivre ce qui se passe dans ces systèmes, rendant la Détection d'anomalies dans les journaux nécessaire pour que tout fonctionne bien. La plupart des méthodes pour trouver des soucis dans les journaux se concentrent sur le comptage des événements ou sur l'ordre des événements. Mais se limiter à ça peut mener à des erreurs pour identifier les vrais problèmes.
Pour améliorer ça, on présente une méthode appelée Logs2Graphs, qui transforme les journaux d'événements en graphes. Ces graphes sont orientés, ce qui veut dire que l'ordre compte, et ils incluent des détails supplémentaires sur les événements. On utilise un type de réseau spécial appelé un réseau de neurones Graphiques pour détecter les problèmes dans ces graphes. Cette nouvelle façon de voir les journaux aide à détecter les soucis de manière plus précise.
Importance de l'analyse des journaux
Les systèmes comme les ordinateurs cloud contiennent plein de pièces et sont devenus super complexes. À cause de ça, faire fonctionner et entretenir ces systèmes manuellement est difficile. Les journaux sont régulièrement utilisés pour recueillir des infos sur ce qui se passe dans un système. En analysant ces journaux, on peut identifier les défauts et les risques tôt. Cette détection précoce est cruciale pour éviter de plus gros soucis.
Les journaux sont généralement écrits dans un mélange de formats structurés et non structurés, donc trouver des problèmes à travers une analyse des journaux peut être dur. Comme les chercheurs et les industries veulent de meilleures manières de déceler les soucis dans les journaux, plusieurs méthodes de détection d'anomalies dans les journaux ont été développées.
Méthodes existantes de détection d'anomalies dans les journaux
Les méthodes actuelles pour détecter des problèmes dans les journaux peuvent être classées en trois grands types :
Méthodes basées sur le quantitatif : Ces méthodes, comme l'analyse en composantes principales (PCA) et le One-Class SVM (OCSVM), se concentrent sur le comptage de combien de fois chaque événement de journal arrive. Cependant, elles ratent souvent le sens des événements ou l'ordre dans lequel ils se trouvent.
Méthodes basées sur la séquence : Ces approches, comme DeepLog et LogAnomaly, font attention à l'ordre des événements. Bien qu'elles capturent le flux des événements de journal, elles ne considèrent pas toujours la structure globale.
Méthodes basées sur les graphes : Celles-ci transforment les journaux en graphes où les relations entre les événements sont représentées. Elles utilisent la structure des journaux et capturent le sens des événements.
Les méthodes basées sur les graphes ont quelques avantages, comme la capacité à identifier des problèmes liés à la structure des événements, à fournir un contexte pour les problèmes détectés, et à montrer le comportement normal des journaux sous un format visuel. Cependant, beaucoup de méthodes graphiques existantes transforment les journaux en graphes non orientés, perdant ainsi des infos importantes sur l'ordre.
Le besoin d'explication des anomalies
Avec de plus en plus de machines qui dépendent de ces algorithmes, il y a besoin d'expliquer comment les décisions sont prises, surtout dans des domaines critiques pour la sécurité. Fournir des explications n'est pas juste une bonne pratique ; c'est essentiel pour la responsabilité et la transparence. De bonnes explications aident à diagnostiquer rapidement les problèmes et permettent des interventions en temps utile lorsque des soucis surviennent. Malheureusement, beaucoup de méthodes actuelles de détection d'anomalies dans les journaux se concentrent uniquement sur la détection des problèmes sans offrir d'explications claires.
L'approche Logs2Graphs
Pour relever ces défis, on introduit Logs2Graphs, une méthode qui détecte les anomalies dans les journaux en utilisant des graphes. Ça utilise un nouveau type de réseau appelé One-Class Digraph Inception Convolutional Networks (OCDiGCN) qui peut apprendre à partir de la structure de graphes orientés.
Étapes dans Logs2Graphs
Analyse des journaux : Les données brutes des journaux sont nettoyées et organisées afin que seuls les événements pertinents restent.
Regroupement des journaux : Les messages sont regroupés en groupes de journaux basés sur des identifiants pour créer des sections gérables.
Construction de graphes : Chaque groupe de journaux est transformé en un graphe où les Nœuds représentent les événements de journal et les arêtes montrent comment les événements se suivent. Cela contribue à capturer à la fois l'information de séquence et de structure.
Apprentissage de la représentation des graphes et détection d'anomalies : On utilise OCRiGCN pour apprendre à partir de ces graphes, identifiant lesquels sont des anomalies en fonction des motifs appris.
Explication : Pour chaque anomalie détectée, on met en lumière les nœuds importants qui ont conduit à la détection, aidant à mieux comprendre les causes.
Avantages de Logs2Graphs
La méthode Logs2Graphs a plusieurs avantages :
Plus de précision : En utilisant des graphes orientés, elle capture mieux les relations séquentielles que les méthodes traditionnelles.
Apprentissage intégré : Elle combine l'apprentissage de la représentation du graphe et la détection des problèmes en un seul pas, rendant le processus plus efficace.
Explications claires : Elle identifie des nœuds significatifs dans le graphe pour expliquer les anomalies, ce qui peut guider les enquêtes de suivi.
Travaux connexes
Dans le domaine de l'analyse des journaux, diverses méthodes se concentrent sur différents aspects des données de journaux. Les techniques traditionnelles de détection d'anomalies dans les journaux ne parviennent souvent pas à capturer efficacement à la fois la structure et le sens des événements de journaux. Plus récemment, certaines méthodes ont commencé à utiliser l'apprentissage de représentation de graphes pour améliorer les capacités de détection. Les réseaux de neurones graphiques sont devenus un outil puissant pour apprendre à partir de structures de graphes, mais la plupart des applications existantes n'ont pas exploité ce pouvoir pour l'analyse des journaux efficacement.
Définitions et concepts
Comprendre comment analyser les données de journaux sous forme de graphes nécessite quelques définitions de base :
Journaux d'événements : Ce sont des enregistrements qui capturent les états et événements d'un système, incluant souvent des horodatages et des messages de journal.
Graphes : Un graphe est constitué de nœuds (représentant les événements de journal) et d'arêtes (qui montrent les relations entre les événements).
Journaux d'événements en pratique
Les journaux sont généralement stockés dans un format centralisé et contiennent de nombreux messages de journal. Chaque message a un horodatage, un type d'événement et des détails supplémentaires appelés paramètres.
Pour regrouper les messages, on peut utiliser des identifiants ou des fenêtres fixes, permettant de créer une matrice de compte d'événements. Cette matrice aide à identifier les anomalies dans les journaux, qui sont des messages ou groupes qui diffèrent de ce qui est considéré comme normal.
Détection d'anomalies dans les journaux basée sur les graphes
On propose que les groupes de journaux peuvent être vus comme des graphes qui peuvent révéler des anomalies.
Définition du problème
L'objectif de la détection d'anomalies dans les journaux en utilisant des graphes est de trouver ceux qui sont significativement différents de la majorité. Les principaux types d'anomalies incluent :
Anomalies quantitatives : Où la fréquence de certains événements est anormalement élevée ou basse.
Anomalies séquentielles : Où les événements se produisent d'une manière qui viole l'ordre attendu.
Les méthodes de détection par graphes peuvent capturer les deux types et révéler des problèmes structurels.
Construction de graphes à partir de journaux
Le processus de transformation des journaux en graphes implique plusieurs étapes :
Nœuds : Chaque événement forme un nœud unique.
Arêtes : Des arêtes orientées sont créées en fonction de l'ordre des événements, avec des poids attribués en fonction de la fréquence à laquelle un événement suit un autre.
Attributs : Chaque nœud est enrichi avec des données supplémentaires, comme des embeddings sémantiques, pour fournir un sens plus profond.
Cela donne un graphe attribué, orienté et pondéré, ce qui est crucial pour identifier les problèmes de manière précise.
Embedding sémantique
Pour créer des attributs de nœud plus significatifs, les embeddings sémantiques prennent en compte le texte des messages de journal.
Prétraitement : Enlever les éléments non caractériques et se concentrer sur les mots clés.
Embedding de mots : Utiliser des modèles pré-entraînés qui permettent de représenter chaque mot sous forme de vecteur.
Embedding de phrase : Une somme pondérée des embeddings de mots capture l'importance des différents mots dans un événement de journal.
En combinant ces techniques, chaque événement de journal peut être représenté d'une manière qui capture à la fois sa signification sémantique et son rôle structurel dans le graphe global.
Réseaux de convolution d'inception de digraphe à une classe (OCDiGCN)
OCDiGCN est un modèle qui intègre l'apprentissage de représentation de graphes avec la détection d'anomalies.
Comment fonctionne OCDiGCN
Apprentissage de représentation de nœuds : Il utilise des structures de graphes et apprend à représenter efficacement les nœuds.
Représentation de graphes : Le modèle agrège les représentations de nœuds pour créer une représentation unique du graphe.
Détection d'anomalies : Ce modèle applique un objectif de classification qui permet d'identifier les anomalies en fonction de leur représentation dans un espace appris.
Explication des anomalies
Pour chaque anomalie détectée, le modèle identifie des nœuds importants qui contribuent significativement à la détection.
Score d'importance : Cela quantifie à quel point chaque nœud contribue au score final d'anomalie.
Visualisation : Mettre en évidence les nœuds significatifs fournit des orientations claires pour des suivis, rendant le processus de détection transparent.
Expérimentations
On a testé les performances de Logs2Graphs dans divers scénarios, y compris des comparaisons avec des méthodes traditionnelles et d'autres techniques avancées.
Ensembles de données
Cinq ensembles de données de référence ont été utilisés car ils sont bien connus dans ce domaine et contiennent suffisamment de détails pour évaluer les méthodes de détection d'anomalies dans les journaux.
- Journaux HDFS : Collectés à partir d'un cluster Hadoop et étiquetés pour des anomalies.
- Journaux Hadoop : Généres à partir d'une autre configuration, également étiquetés.
- BGL, Spirit, et Thunderbird : Collectés à partir de systèmes de supercalcul et étiquetés manuellement.
Métriques d'évaluation
On a évalué la performance en utilisant deux métriques principales :
- ROC AUC : Mesure l'aire sous la courbe des taux de vrais positifs et de faux positifs.
- Précision moyenne : Fournit une valeur unique résumant la précision du modèle à différents seuils.
Ces métriques aident à évaluer à quel point chaque méthode identifie les anomalies.
Résultats et observations
Comparaison des précisions
Logs2Graphs a montré d'excellentes performances, surpassant souvent les méthodes traditionnelles et d'autres techniques à la pointe.
- Il a constamment obtenu les meilleures performances en ROC AUC sur trois des cinq ensembles de données.
- La méthode excelle avec des ensembles de données complexes contenant de nombreux modèles.
Graphes orientés vs non orientés
On a comparé l'efficacité de l'utilisation de graphes orientés contre des graphes non orientés. Nos résultats ont montré que les graphes orientés dépassent les non orientés dans la détection d'anomalies, probablement à cause de leur capacité à capturer la séquence des événements.
Importance des attributs sémantiques
Quand on a remplacé les embeddings sémantiques par des représentations plus simples, les performances de Logs2Graphs ont chuté, confirmant que capturer le sens des événements de journaux est crucial pour une détection efficace.
Test de robustesse
On a aussi regardé comment Logs2Graphs gérait les scénarios où certaines données d'entraînement étaient contaminées par des anomalies. Les résultats ont montré une baisse de la précision à mesure que la contamination augmentait, soulignant la nécessité d'ensembles de données d'entraînement propres.
Conclusion
Dans ce travail, on a introduit Logs2Graphs, une méthode innovante et efficace pour détecter les anomalies dans les journaux en utilisant des approches basées sur des graphes. En transformant les journaux en graphes orientés et attribués et en utilisant un modèle de réseau neuronal unique, on a considérablement amélioré la précision de détection et fourni des explications claires pour les anomalies.
Nos expérimentations sur des ensembles de données de référence ont démontré que Logs2Graphs est compétitif et dépasse souvent les méthodes existantes en termes de performance. Ce travail améliore la compréhension de l'analyse des journaux et prépare le terrain pour le développement de systèmes avancés de détection d'anomalies dans diverses applications critiques.
Un travail futur impliquera de peaufiner le processus de construction de graphes, d'améliorer la robustesse face à la contamination, et d'explorer des ensembles de données supplémentaires pour des tests complets.
Titre: Graph Neural Networks based Log Anomaly Detection and Explanation
Résumé: Event logs are widely used to record the status of high-tech systems, making log anomaly detection important for monitoring those systems. Most existing log anomaly detection methods take a log event count matrix or log event sequences as input, exploiting quantitative and/or sequential relationships between log events to detect anomalies. Unfortunately, only considering quantitative or sequential relationships may result in low detection accuracy. To alleviate this problem, we propose a graph-based method for unsupervised log anomaly detection, dubbed Logs2Graphs, which first converts event logs into attributed, directed, and weighted graphs, and then leverages graph neural networks to perform graph-level anomaly detection. Specifically, we introduce One-Class Digraph Inception Convolutional Networks, abbreviated as OCDiGCN, a novel graph neural network model for detecting graph-level anomalies in a collection of attributed, directed, and weighted graphs. By coupling the graph representation and anomaly detection steps, OCDiGCN can learn a representation that is especially suited for anomaly detection, resulting in a high detection accuracy. Importantly, for each identified anomaly, we additionally provide a small subset of nodes that play a crucial role in OCDiGCN's prediction as explanations, which can offer valuable cues for subsequent root cause diagnosis. Experiments on five benchmark datasets show that Logs2Graphs performs at least on par with state-of-the-art log anomaly detection methods on simple datasets while largely outperforming state-of-the-art log anomaly detection methods on complicated datasets.
Auteurs: Zhong Li, Jiayang Shi, Matthijs van Leeuwen
Dernière mise à jour: 2024-01-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.00527
Source PDF: https://arxiv.org/pdf/2307.00527
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.