Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Réseaux sociaux et d'information

Avancées dans la détection des anomalies au niveau des graphes non supervisée

Nouveau cadre améliore la détection des motifs inhabituels dans les graphiques.

― 7 min lire


Nouvelle approche pour laNouvelle approche pour ladétection d'anomaliesdans les graphescomplexes.motifs dans des données graphiquesLe cadre améliore la détection des
Table des matières

La détection d'anomalies au niveau des graphes devient super importante dans plein de domaines comme les réseaux sociaux, la bioinformatique et la sécurité des réseaux. Ce type de détection regarde toute la structure d'un graphe pour identifier des motifs ou des comportements inhabituels. Contrairement aux méthodes classiques qui vérifient des points de données individuels, la détection d'anomalies au niveau des graphes se concentre sur les connexions et la disposition globale du graphe.

Une des approches prometteuses dans ce domaine s'appelle la détection d'anomalies au niveau des graphes sans supervision (UGAD). Ce truc ne dépend pas de données étiquetées, ce qui le rend utile pour différentes situations du monde réel. Même s'il y a eu plusieurs efforts pour améliorer UGAD, il y a encore des problèmes à régler.

Défis de la détection d'anomalies au niveau des graphes

La plupart des méthodes actuelles utilisent des réseaux de neurones graphiques traditionnels (GNN) qui analysent juste les relations entre paires de nœuds. Cependant, les données du monde réel ont souvent des interactions plus complexes qui impliquent des groupes de nœuds. Par exemple, dans un réseau social, les relations entre groupes d'utilisateurs peuvent avoir un impact significatif sur le comportement de ces groupes, qu'il soit normal ou anormal.

De plus, beaucoup de techniques existantes négligent les propriétés globales qui sont communes dans les graphes du monde réel, comme la hiérarchie et la distribution en loi de puissance. Ces propriétés sont essentielles pour comprendre la structure des graphes et peuvent affecter de manière significative la détection des anomalies.

Cadre proposé

Pour relever ces défis, une nouvelle approche connue sous le nom d'Apprentissage contrastif hyperbolique dual pour la détection d'anomalies au niveau des graphes sans supervision (HC-GLAD) a été proposée. Ce cadre utilise l'apprentissage hypergraphique et la Géométrie hyperbolique pour améliorer la détection des anomalies dans les graphes.

Informations sur les groupes de nœuds

HC-GLAD se base sur un concept appelé Hypergraphes. Ces trucs permettent une représentation plus riche des relations en considérant non seulement des paires de nœuds, mais aussi des groupes de nœuds. En utilisant une structure connue sous le nom de "gold motifs", qui représente des relations triangulaires entre trois nœuds, HC-GLAD peut capturer des motifs de groupe essentiels qui sont souvent négligés. Ça donne une vue plus complète des interactions dans le graphe.

Géométrie hyperbolique

Pour prendre en compte les relations hiérarchiques, HC-GLAD utilise aussi la géométrie hyperbolique. Contrairement à la géométrie euclidienne traditionnelle, la géométrie hyperbolique peut mieux représenter des relations complexes dans des données qui ont une structure hiérarchique. C'est parce que l'espace hyperbolique permet naturellement des représentations plus compactes et informatives de relations, facilitant la capture des caractéristiques essentielles nécessaires pour une détection efficace des anomalies.

Processus d'apprentissage

Le processus d'apprentissage dans HC-GLAD est divisé en plusieurs étapes. D'abord, le cadre transforme les graphes originaux en versions augmentées qui mettent en avant à la fois l'information structurelle et d'attributs. Ensuite, des hypergraphes sont créés en utilisant les gold motifs pour améliorer la compréhension des connexions entre les groupes de nœuds.

Après ça, des embeddings (qui sont des représentations simplifiées de nœuds ou de graphes) sont générés dans l'espace hyperbolique. Ça permet au modèle de conserver les informations hiérarchiques critiques qui aident à distinguer entre des graphes normaux et anormaux.

Enfin, le modèle utilise une stratégie d'apprentissage contrastif qui se concentre sur le fait que les nœuds et les graphes similaires soient plus proches les uns des autres dans l'espace de représentation, tandis que ceux qui sont dissemblables sont écartés. Cet apprentissage contrastif à plusieurs niveaux renforce les motifs de relation observés dans les graphes.

Expériences et résultats

Pour évaluer les performances de HC-GLAD, des expériences approfondies ont été menées sur 12 jeux de données du monde réel, couvrant des domaines allant des petites molécules en bioinformatique aux réseaux sociaux. Les performances de HC-GLAD ont été comparées à plusieurs méthodes de référence couramment utilisées pour la détection d'anomalies au niveau des graphes.

Les résultats ont montré que HC-GLAD a dépassé de nombreuses méthodes existantes, se plaçant en première position sur cinq jeux de données et en deuxième position sur six autres. Ça démontre l'efficacité de l'utilisation des connexions entre groupes de nœuds et de la géométrie hyperbolique pour améliorer les capacités de détection des anomalies.

Performance comparative

La comparaison a montré que les modèles basés sur des noyaux de graphe avaient les performances les plus faibles, principalement parce qu'ils ne pouvaient pas capturer efficacement les relations complexes dans les données. Pendant ce temps, d'autres approches basées sur l'apprentissage contrastif ont eu un rendement modéré, indiquant qu'il y a du potentiel dans ce domaine pour une détection d'anomalies efficace.

Études d'ablation

Pour comprendre les contributions des différents composants de HC-GLAD, des études d'ablation ont été menées où des variations du modèle ont été testées sans les composants d'apprentissage hypergraphique et d'apprentissage hyperbolique. Les résultats ont montré que l'apprentissage hypergraphique et l'apprentissage hyperbolique ont un impact significatif sur la performance de la tâche de détection d'anomalies.

On a noté que la contribution de l'apprentissage hyperbolique semblait plus importante que celle de l'apprentissage hypergraphique sur plusieurs jeux de données, renforçant l'importance de modéliser correctement les relations complexes dans les données.

Analyse des hyperparamètres

Un aspect essentiel des modèles d'apprentissage automatique est comment leurs performances changent avec différents réglages d'hyperparamètres. Dans le cas de HC-GLAD, plusieurs paramètres ont été analysés, notamment des paramètres de compromis et des dimensions cachées des encodeurs.

Les résultats ont montré que les variations des paramètres de compromis avaient un impact relativement stable sur les performances, suggérant la robustesse du modèle. En revanche, les changements dans les dimensions cachées ont montré qu'un nombre plus élevé ne se traduisait pas toujours par de meilleures performances, révélant qu'il y a un point idéal pour une dimensionalité optimale.

Visualisation et interprétation

Pour mieux comprendre les performances de HC-GLAD, une technique de visualisation appelée T-SNE a été utilisée. Cette approche a aidé à tracer les embeddings appris des graphes, illustrant à quel point les graphes normaux et anormaux étaient bien séparés l'un de l'autre. Les graphiques résultants ont indiqué que le modèle proposé distinguait efficacement ces deux catégories en fonction des représentations apprises.

Conclusion

En résumé, HC-GLAD représente une avancée significative dans le domaine de la détection d'anomalies au niveau des graphes sans supervision en combinant efficacement l'apprentissage hypergraphique et la géométrie hyperbolique. Cette nouvelle approche permet une considération plus nuancée des relations complexes au sein des données de graphe, menant à une meilleure détection des motifs anormaux.

Malgré ses points forts, l'intégration de plusieurs paradigmes d'apprentissage signifie que HC-GLAD pourrait engendrer des demandes computationnelles accrues. Les travaux futurs viseront à créer des cadres plus efficaces qui conservent l'efficacité de ce modèle tout en minimisant les coûts computationnels.

Dans l'ensemble, HC-GLAD est sur le point de faire des contributions précieuses à la recherche et aux applications en cours dans la détection d'anomalies au niveau des graphes à travers divers domaines, pouvant potentiellement aider à l'identification de motifs cruciaux qui étaient précédemment difficiles à discerner.

Source originale

Titre: HC-GLAD: Dual Hyperbolic Contrastive Learning for Unsupervised Graph-Level Anomaly Detection

Résumé: Unsupervised graph-level anomaly detection (UGAD) has garnered increasing attention in recent years due to its significance. Most existing methods that rely on traditional GNNs mainly consider pairwise relationships between first-order neighbors, which is insufficient to capture the complex high-order dependencies often associated with anomalies. This limitation underscores the necessity of exploring high-order node interactions in UGAD. In addition, most previous works ignore the underlying properties (e.g., hierarchy and power-law structure) which are common in real-world graph datasets and therefore are indispensable factors in the UGAD task. In this paper, we propose a novel Dual Hyperbolic Contrastive Learning for Unsupervised Graph-Level Anomaly Detection (HC-GLAD in short). To exploit high-order node group information, we construct hypergraphs based on pre-designed gold motifs and subsequently perform hypergraph convolution. Furthermore, to preserve the hierarchy of real-world graphs, we introduce hyperbolic geometry into this field and conduct both graph and hypergraph embedding learning in hyperbolic space with the hyperboloid model. To the best of our knowledge, this is the first work to simultaneously apply hypergraph with node group information and hyperbolic geometry in this field. Extensive experiments on 13 real-world datasets of different fields demonstrate the superiority of HC-GLAD on the UGAD task. The code is available at https://github.com/Yali-F/HC-GLAD.

Auteurs: Yali Fu, Jindong Li, Jiahong Liu, Qianli Xing, Qi Wang, Irwin King

Dernière mise à jour: 2024-10-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.02057

Source PDF: https://arxiv.org/pdf/2407.02057

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires