Améliorer la détection d'anomalies dans les logs avec des graphes

Table des matières

Importance de l'analyse des journaux
Méthodes existantes de détection d'anomalies dans les journaux
Le besoin d'explication des anomalies
L'approche Logs2Graphs
Avantages de Logs2Graphs
Travaux connexes
Définitions et concepts
Détection d'anomalies dans les journaux basée sur les graphes
Construction de graphes à partir de journaux
Réseaux de convolution d'inception de digraphe à une classe (OCDiGCN)
Explication des anomalies
Expérimentations
Résultats et observations
Conclusion
Source originale
Liens de référence

Les journaux d'événements sont super importants pour des systèmes high-tech comme les ordinateurs cloud et les machines de lithographie. Ils aident à suivre ce qui se passe dans ces systèmes, rendant la Détection d'anomalies dans les journaux nécessaire pour que tout fonctionne bien. La plupart des méthodes pour trouver des soucis dans les journaux se concentrent sur le comptage des événements ou sur l'ordre des événements. Mais se limiter à ça peut mener à des erreurs pour identifier les vrais problèmes.

Pour améliorer ça, on présente une méthode appelée Logs2Graphs, qui transforme les journaux d'événements en graphes. Ces graphes sont orientés, ce qui veut dire que l'ordre compte, et ils incluent des détails supplémentaires sur les événements. On utilise un type de réseau spécial appelé un réseau de neurones Graphiques pour détecter les problèmes dans ces graphes. Cette nouvelle façon de voir les journaux aide à détecter les soucis de manière plus précise.

Importance de l'analyse des journaux

Les systèmes comme les ordinateurs cloud contiennent plein de pièces et sont devenus super complexes. À cause de ça, faire fonctionner et entretenir ces systèmes manuellement est difficile. Les journaux sont régulièrement utilisés pour recueillir des infos sur ce qui se passe dans un système. En analysant ces journaux, on peut identifier les défauts et les risques tôt. Cette détection précoce est cruciale pour éviter de plus gros soucis.

Les journaux sont généralement écrits dans un mélange de formats structurés et non structurés, donc trouver des problèmes à travers une analyse des journaux peut être dur. Comme les chercheurs et les industries veulent de meilleures manières de déceler les soucis dans les journaux, plusieurs méthodes de détection d'anomalies dans les journaux ont été développées.

Méthodes existantes de détection d'anomalies dans les journaux

Les méthodes actuelles pour détecter des problèmes dans les journaux peuvent être classées en trois grands types :

Méthodes basées sur le quantitatif : Ces méthodes, comme l'analyse en composantes principales (PCA) et le One-Class SVM (OCSVM), se concentrent sur le comptage de combien de fois chaque événement de journal arrive. Cependant, elles ratent souvent le sens des événements ou l'ordre dans lequel ils se trouvent.
Méthodes basées sur la séquence : Ces approches, comme DeepLog et LogAnomaly, font attention à l'ordre des événements. Bien qu'elles capturent le flux des événements de journal, elles ne considèrent pas toujours la structure globale.
Méthodes basées sur les graphes : Celles-ci transforment les journaux en graphes où les relations entre les événements sont représentées. Elles utilisent la structure des journaux et capturent le sens des événements.

Les méthodes basées sur les graphes ont quelques avantages, comme la capacité à identifier des problèmes liés à la structure des événements, à fournir un contexte pour les problèmes détectés, et à montrer le comportement normal des journaux sous un format visuel. Cependant, beaucoup de méthodes graphiques existantes transforment les journaux en graphes non orientés, perdant ainsi des infos importantes sur l'ordre.

Le besoin d'explication des anomalies

Avec de plus en plus de machines qui dépendent de ces algorithmes, il y a besoin d'expliquer comment les décisions sont prises, surtout dans des domaines critiques pour la sécurité. Fournir des explications n'est pas juste une bonne pratique ; c'est essentiel pour la responsabilité et la transparence. De bonnes explications aident à diagnostiquer rapidement les problèmes et permettent des interventions en temps utile lorsque des soucis surviennent. Malheureusement, beaucoup de méthodes actuelles de détection d'anomalies dans les journaux se concentrent uniquement sur la détection des problèmes sans offrir d'explications claires.

L'approche Logs2Graphs

Pour relever ces défis, on introduit Logs2Graphs, une méthode qui détecte les anomalies dans les journaux en utilisant des graphes. Ça utilise un nouveau type de réseau appelé One-Class Digraph Inception Convolutional Networks (OCDiGCN) qui peut apprendre à partir de la structure de graphes orientés.

Étapes dans Logs2Graphs

Analyse des journaux : Les données brutes des journaux sont nettoyées et organisées afin que seuls les événements pertinents restent.
Regroupement des journaux : Les messages sont regroupés en groupes de journaux basés sur des identifiants pour créer des sections gérables.
Construction de graphes : Chaque groupe de journaux est transformé en un graphe où les Nœuds représentent les événements de journal et les arêtes montrent comment les événements se suivent. Cela contribue à capturer à la fois l'information de séquence et de structure.
Apprentissage de la représentation des graphes et détection d'anomalies : On utilise OCRiGCN pour apprendre à partir de ces graphes, identifiant lesquels sont des anomalies en fonction des motifs appris.
Explication : Pour chaque anomalie détectée, on met en lumière les nœuds importants qui ont conduit à la détection, aidant à mieux comprendre les causes.

Avantages de Logs2Graphs

La méthode Logs2Graphs a plusieurs avantages :

Plus de précision : En utilisant des graphes orientés, elle capture mieux les relations séquentielles que les méthodes traditionnelles.
Apprentissage intégré : Elle combine l'apprentissage de la représentation du graphe et la détection des problèmes en un seul pas, rendant le processus plus efficace.
Explications claires : Elle identifie des nœuds significatifs dans le graphe pour expliquer les anomalies, ce qui peut guider les enquêtes de suivi.

Travaux connexes

Dans le domaine de l'analyse des journaux, diverses méthodes se concentrent sur différents aspects des données de journaux. Les techniques traditionnelles de détection d'anomalies dans les journaux ne parviennent souvent pas à capturer efficacement à la fois la structure et le sens des événements de journaux. Plus récemment, certaines méthodes ont commencé à utiliser l'apprentissage de représentation de graphes pour améliorer les capacités de détection. Les réseaux de neurones graphiques sont devenus un outil puissant pour apprendre à partir de structures de graphes, mais la plupart des applications existantes n'ont pas exploité ce pouvoir pour l'analyse des journaux efficacement.

Définitions et concepts

Comprendre comment analyser les données de journaux sous forme de graphes nécessite quelques définitions de base :

Journaux d'événements : Ce sont des enregistrements qui capturent les états et événements d'un système, incluant souvent des horodatages et des messages de journal.
Graphes : Un graphe est constitué de nœuds (représentant les événements de journal) et d'arêtes (qui montrent les relations entre les événements).

Journaux d'événements en pratique

Les journaux sont généralement stockés dans un format centralisé et contiennent de nombreux messages de journal. Chaque message a un horodatage, un type d'événement et des détails supplémentaires appelés paramètres.

Pour regrouper les messages, on peut utiliser des identifiants ou des fenêtres fixes, permettant de créer une matrice de compte d'événements. Cette matrice aide à identifier les anomalies dans les journaux, qui sont des messages ou groupes qui diffèrent de ce qui est considéré comme normal.

Détection d'anomalies dans les journaux basée sur les graphes

On propose que les groupes de journaux peuvent être vus comme des graphes qui peuvent révéler des anomalies.

Définition du problème

L'objectif de la détection d'anomalies dans les journaux en utilisant des graphes est de trouver ceux qui sont significativement différents de la majorité. Les principaux types d'anomalies incluent :

Anomalies quantitatives : Où la fréquence de certains événements est anormalement élevée ou basse.
Anomalies séquentielles : Où les événements se produisent d'une manière qui viole l'ordre attendu.

Les méthodes de détection par graphes peuvent capturer les deux types et révéler des problèmes structurels.

Construction de graphes à partir de journaux

Le processus de transformation des journaux en graphes implique plusieurs étapes :

Nœuds : Chaque événement forme un nœud unique.
Arêtes : Des arêtes orientées sont créées en fonction de l'ordre des événements, avec des poids attribués en fonction de la fréquence à laquelle un événement suit un autre.
Attributs : Chaque nœud est enrichi avec des données supplémentaires, comme des embeddings sémantiques, pour fournir un sens plus profond.

Cela donne un graphe attribué, orienté et pondéré, ce qui est crucial pour identifier les problèmes de manière précise.

Embedding sémantique

Pour créer des attributs de nœud plus significatifs, les embeddings sémantiques prennent en compte le texte des messages de journal.

Prétraitement : Enlever les éléments non caractériques et se concentrer sur les mots clés.
Embedding de mots : Utiliser des modèles pré-entraînés qui permettent de représenter chaque mot sous forme de vecteur.
Embedding de phrase : Une somme pondérée des embeddings de mots capture l'importance des différents mots dans un événement de journal.

En combinant ces techniques, chaque événement de journal peut être représenté d'une manière qui capture à la fois sa signification sémantique et son rôle structurel dans le graphe global.

Réseaux de convolution d'inception de digraphe à une classe (OCDiGCN)

OCDiGCN est un modèle qui intègre l'apprentissage de représentation de graphes avec la détection d'anomalies.

Comment fonctionne OCDiGCN

Apprentissage de représentation de nœuds : Il utilise des structures de graphes et apprend à représenter efficacement les nœuds.
Représentation de graphes : Le modèle agrège les représentations de nœuds pour créer une représentation unique du graphe.
Détection d'anomalies : Ce modèle applique un objectif de classification qui permet d'identifier les anomalies en fonction de leur représentation dans un espace appris.

Explication des anomalies

Pour chaque anomalie détectée, le modèle identifie des nœuds importants qui contribuent significativement à la détection.

Score d'importance : Cela quantifie à quel point chaque nœud contribue au score final d'anomalie.
Visualisation : Mettre en évidence les nœuds significatifs fournit des orientations claires pour des suivis, rendant le processus de détection transparent.

Expérimentations

On a testé les performances de Logs2Graphs dans divers scénarios, y compris des comparaisons avec des méthodes traditionnelles et d'autres techniques avancées.

Ensembles de données

Cinq ensembles de données de référence ont été utilisés car ils sont bien connus dans ce domaine et contiennent suffisamment de détails pour évaluer les méthodes de détection d'anomalies dans les journaux.

Journaux HDFS : Collectés à partir d'un cluster Hadoop et étiquetés pour des anomalies.
Journaux Hadoop : Généres à partir d'une autre configuration, également étiquetés.
BGL, Spirit, et Thunderbird : Collectés à partir de systèmes de supercalcul et étiquetés manuellement.

Métriques d'évaluation

On a évalué la performance en utilisant deux métriques principales :

ROC AUC : Mesure l'aire sous la courbe des taux de vrais positifs et de faux positifs.
Précision moyenne : Fournit une valeur unique résumant la précision du modèle à différents seuils.

Ces métriques aident à évaluer à quel point chaque méthode identifie les anomalies.

Résultats et observations

Comparaison des précisions

Logs2Graphs a montré d'excellentes performances, surpassant souvent les méthodes traditionnelles et d'autres techniques à la pointe.

Il a constamment obtenu les meilleures performances en ROC AUC sur trois des cinq ensembles de données.
La méthode excelle avec des ensembles de données complexes contenant de nombreux modèles.

Graphes orientés vs non orientés

On a comparé l'efficacité de l'utilisation de graphes orientés contre des graphes non orientés. Nos résultats ont montré que les graphes orientés dépassent les non orientés dans la détection d'anomalies, probablement à cause de leur capacité à capturer la séquence des événements.

Importance des attributs sémantiques

Quand on a remplacé les embeddings sémantiques par des représentations plus simples, les performances de Logs2Graphs ont chuté, confirmant que capturer le sens des événements de journaux est crucial pour une détection efficace.

Test de robustesse

On a aussi regardé comment Logs2Graphs gérait les scénarios où certaines données d'entraînement étaient contaminées par des anomalies. Les résultats ont montré une baisse de la précision à mesure que la contamination augmentait, soulignant la nécessité d'ensembles de données d'entraînement propres.

Conclusion

Dans ce travail, on a introduit Logs2Graphs, une méthode innovante et efficace pour détecter les anomalies dans les journaux en utilisant des approches basées sur des graphes. En transformant les journaux en graphes orientés et attribués et en utilisant un modèle de réseau neuronal unique, on a considérablement amélioré la précision de détection et fourni des explications claires pour les anomalies.

Nos expérimentations sur des ensembles de données de référence ont démontré que Logs2Graphs est compétitif et dépasse souvent les méthodes existantes en termes de performance. Ce travail améliore la compréhension de l'analyse des journaux et prépare le terrain pour le développement de systèmes avancés de détection d'anomalies dans diverses applications critiques.

Un travail futur impliquera de peaufiner le processus de construction de graphes, d'améliorer la robustesse face à la contamination, et d'explorer des ensembles de données supplémentaires pour des tests complets.

Améliorer la détection d'anomalies dans les logs avec des graphes

Logs2Graphs améliore la précision de détection en utilisant des méthodes basées sur des graphes pour les journaux d'événements.

Importance de l'analyse des journaux

Méthodes existantes de détection d'anomalies dans les journaux

Le besoin d'explication des anomalies

L'approche Logs2Graphs

Étapes dans Logs2Graphs

Avantages de Logs2Graphs

Travaux connexes

Définitions et concepts

Journaux d'événements en pratique

Détection d'anomalies dans les journaux basée sur les graphes

Définition du problème

Construction de graphes à partir de journaux

Embedding sémantique

Réseaux de convolution d'inception de digraphe à une classe (OCDiGCN)

Comment fonctionne OCDiGCN

Explication des anomalies

Expérimentations

Ensembles de données

Métriques d'évaluation

Résultats et observations

Comparaison des précisions

Graphes orientés vs non orientés

Importance des attributs sémantiques

Test de robustesse

Conclusion

Liens de référence

Sujets référencés

Améliorer la détection d'anomalies dans les logs avec des graphes

Logs2Graphs améliore la précision de détection en utilisant des méthodes basées sur des graphes pour les journaux d'événements.

#Importance de l'analyse des journaux

#Méthodes existantes de détection d'anomalies dans les journaux

#Le besoin d'explication des anomalies

#L'approche Logs2Graphs

#Étapes dans Logs2Graphs

#Avantages de Logs2Graphs

#Travaux connexes

#Définitions et concepts

#Journaux d'événements en pratique

#Détection d'anomalies dans les journaux basée sur les graphes

#Définition du problème

#Construction de graphes à partir de journaux

#Embedding sémantique

#Réseaux de convolution d'inception de digraphe à une classe (OCDiGCN)

#Comment fonctionne OCDiGCN

#Explication des anomalies

#Expérimentations

#Ensembles de données

#Métriques d'évaluation

#Résultats et observations

#Comparaison des précisions

#Graphes orientés vs non orientés

#Importance des attributs sémantiques

#Test de robustesse

#Conclusion

Liens de référence

Sujets référencés

Importance de l'analyse des journaux

Méthodes existantes de détection d'anomalies dans les journaux

Le besoin d'explication des anomalies

L'approche Logs2Graphs

Étapes dans Logs2Graphs

Avantages de Logs2Graphs

Travaux connexes

Définitions et concepts

Journaux d'événements en pratique

Détection d'anomalies dans les journaux basée sur les graphes

Définition du problème

Construction de graphes à partir de journaux

Embedding sémantique

Réseaux de convolution d'inception de digraphe à une classe (OCDiGCN)

Comment fonctionne OCDiGCN

Explication des anomalies

Expérimentations

Ensembles de données

Métriques d'évaluation

Résultats et observations

Comparaison des précisions

Graphes orientés vs non orientés

Importance des attributs sémantiques

Test de robustesse

Conclusion