Simple Science

La science de pointe expliquée simplement

# Informatique# Architecture des réseaux et de l'Internet

Suivi des menaces cybernétiques avec l'analyse dynamique des clusters

Une méthode pour analyser les données de télescope réseau afin d'identifier des activités informatiques coordonnées.

― 9 min lire


Cybersécurité parCybersécurité parl'analyse de clustersavancées.techniques d'analyse de donnéesIdentifier les menaces avec des
Table des matières

Dans le domaine de la cybersécurité, suivre les activités de plusieurs ordinateurs qui travaillent ensemble au fil du temps, c'est vraiment compliqué. Ça s'explique par le fait que les ordinateurs impliqués et leurs actions changent rapidement. Pour résoudre ce problème, on a créé une méthode pour repérer et suivre de nouveaux schémas dans le comportement de ces ordinateurs, avec un focus particulier sur les données provenant des télescopes de réseau.

Un télescope de réseau, c'est un système spécial qui collecte des infos sur le trafic Internet pas dirigé vers un service actif. Ce trafic peut donner des infos sur diverses activités cybernétiques notables. Notre approche se compose de trois étapes principales pour analyser ces données efficacement.

Notre Méthode

Étape 1 : Apprendre des Représentations des Hôtes

La première étape de notre approche consiste à créer des représentations simplifiées des ordinateurs basées sur le trafic qu'ils envoient. Ça se fait sans avoir besoin de labels ou d'infos préalables sur ce que signifie le trafic. En analysant les données du trafic, on peut générer des représentations compactes ou des "embeddings" de l'activité de chaque ordinateur.

Étape 2 : Regrouper des Hôtes Similaires

Une fois qu'on a ces représentations, on cherche des groupes d'ordinateurs qui montrent des comportements similaires. Ça se fait grâce à une méthode appelée clustering, qui nous aide à catégoriser les ordinateurs qui agissent de la même manière. À ce stade, on peut identifier divers groupes d'ordinateurs qui semblent répondre de manière similaire au trafic qu'ils reçoivent.

Étape 3 : Suivre les Changements dans le Temps

La dernière étape est de garder un œil sur comment ces groupes changent au fil du temps. Chaque jour, on analyse les nouvelles données de trafic, identifie les clusters, et voit lesquels restent les mêmes et quels nouveaux groupes apparaissent. En faisant ça, on peut repérer des schémas nouveaux qui pourraient signaler des menaces émergentes ou des changements de comportement.

Analyse du Trafic des Télescopes de Réseau

Pour valider notre méthode, on l'a appliquée à 20 jours de données d'un télescope de réseau. Pendant cette période, on a suivi plus de 8 000 ordinateurs différents. Notre analyse a montré qu'on pouvait identifier environ 50-70 groupes distincts d'ordinateurs chaque jour. Parmi eux, environ 60-70 % correspondaient à des schémas déjà connus, tandis qu'environ 10-20 groupes étaient identifiés comme nouveaux, indiquant de nouveaux comportements ou incidents.

Paysage des Menaces Numériques

Dans le monde de la cybersécurité, de nouvelles menaces apparaissent chaque jour. Une préoccupation majeure a été les Botnets, qui se composent de groupes d'ordinateurs compromis utilisés pour effectuer des activités malveillantes sous le contrôle de quelqu'un d'autre. Les botnets changent continuellement, améliorant leurs méthodes pour exploiter les dernières vulnérabilités. Par exemple, certains botnets se sont adaptés à des faiblesses spécifiques dans des logiciels pour améliorer leurs tactiques de propagation.

Pour lutter efficacement contre ces menaces évolutives, les experts en cybersécurité doivent comprendre comment ces botnets fonctionnent et comment identifier des schémas similaires parmi les ordinateurs impliqués. C'est là que notre méthode entre en jeu, utilisant des techniques d'Intelligence Artificielle pour reconnaître des groupes coordonnés d'ordinateurs, offrant ainsi une position proactive contre les menaces cybernétiques.

Le Rôle de l'Intelligence Artificielle dans la Cybersécurité

L'intelligence artificielle est devenue un outil essentiel pour identifier les activités coordonnées parmi les ordinateurs compromis. Beaucoup de chercheurs ont utilisé des méthodes traditionnelles d'extraction de caractéristiques à partir des données et appliqué des techniques d'apprentissage machine telles que les autoencodeurs et les réseaux de neurones pour analyser les jeux de données résultants. D'autres ont emprunté des idées de traitement du langage naturel pour analyser les séquences de paquets envoyés sur le réseau, traitant les paquets comme des mots dans un texte.

Malgré ces avancées, différencier entre les schémas connus et les activités entièrement nouvelles reste un défi. Par exemple, si on compare les résultats de clustering de deux jours différents, c'est complexe de déterminer quels groupes sont nouveaux et lesquels continuent des activités passées. C'est ce que notre analyse dynamique de cluster vise à résoudre.

Analyse Dynamique des Clusters (ADC)

L'analyse dynamique des clusters est une méthode utilisée pour surveiller et tracer comment les Regroupements d'ordinateurs évoluent dans le temps. Une technique populaire dans ce domaine s'appelle MONIC, qui aide à suivre les changements et transitions parmi les clusters. Notre objectif était d'adapter MONIC pour mieux correspondre aux caractéristiques des données des télescopes de réseau.

À la fin de chaque période d'analyse, on regroupe les ordinateurs en clusters. Ensuite, on observe comment ces clusters changent d'une période à l'autre, identifiant s'ils continuent d'exister, fusionnent avec d'autres, ou même disparaissent. Ça nous aide à comprendre la dynamique globale d'activité.

Pour mieux personnaliser ce processus selon nos besoins, on a fait quelques ajustements à MONIC, en tenant compte des variations uniques dans les activités des ordinateurs qu'on a observées.

Application Pratique et Résultats

On a appliqué notre méthode à 20 jours de données collectées d'un télescope de réseau spécifique. Au total, on a examiné plus de 100 millions de paquets envoyés par environ 785 000 ordinateurs différents. On a considéré tout ordinateur qui envoyait plus de cinq paquets par jour comme "actif," ce qui donne environ 130 000 ordinateurs actifs pendant toute la période.

Notre analyse quotidienne a révélé plusieurs schémas. Chaque jour, on a détecté 50-70 clusters d'ordinateurs coordonnés. Une grande partie de ces clusters restait liée à des activités connues antérieurement, tandis qu'un nombre plus petit émergeait comme nouveau, indiquant des changements ou de nouveaux incidents.

Éclairages des Résultats de Clustering

Les résultats de nos efforts de clustering nous ont permis de simplifier le travail manuel auquel les analystes en cybersécurité sont généralement confrontés lorsqu'ils essaient de comprendre les schémas de trafic. En identifiant des groupes d'ordinateurs montrant une coordination dans leur trafic, on a réduit le volume de données que les analystes devaient trier.

La qualité des clusters identifiés était généralement élevée. La plupart des clusters avaient un bon degré de séparation, facilitant ainsi les conclusions sur les comportements des ordinateurs impliqués. Cela a permis de détecter plus efficacement des anomalies et des menaces potentielles, améliorant les efforts globaux de cybersécurité.

Observation des Changements d'Activités

Un aspect notable de notre analyse dynamique des clusters était la façon dont on pouvait bien observer les changements d'activités. Chaque jour, l'analyse indiquerait si les clusters survivaient, disparaissaient, ou montraient de nouveaux schémas de comportement. La majorité des clusters survivaient d'un jour à l'autre, indiquant une activité malveillante constante, tandis qu'un plus petit nombre se déplaçaient vers d'autres catégories.

En gardant un œil sur comment les clusters changeaient au fil du temps, les analystes en cybersécurité pouvaient prioriser quels schémas examiner en fonction de leur potentiel d'importance et de nouveauté. Cette capacité à suivre les dynamiques évolutives aide à maintenir une approche proactive en cybersécurité.

Exemples Spécifiques d'Activités

Grâce à une revue manuelle de certains clusters identifiés, on a pu découvrir des détails supplémentaires sur la nature de leurs activités. Par exemple, on a observé un groupe ciblant des ports spécifiques liés à des vulnérabilités bien connues. Ça indiquait des activités de scan malveillant potentielles qui nécessitaient plus d'attention.

Dans un autre cas, on a identifié des expéditeurs qui semblaient faire partie d'un botnet ciblant un service vulnérable. En analysant le trafic, on a confirmé que ces ordinateurs montraient effectivement un comportement de scan coordonné qui correspondait aux caractéristiques connues des botnets.

Conclusion

En conclusion, notre méthode d'analyse dynamique des clusters offre des avantages significatifs dans le domaine de la cybersécurité. En identifiant et en suivant efficacement les activités coordonnées, on peut fournir des infos précieuses sur les menaces émergentes et les changements de comportement. Notre travail a réussi à réduire la charge analytique sur les professionnels de la sécurité, leur permettant de se concentrer sur les incidents les plus critiques.

En regardant vers l'avenir, on prévoit de peaufiner notre approche, en optimisant l'analyse dynamique pour une application en temps réel. En analysant continuellement le trafic, on vise à améliorer notre capacité à détecter et à répondre aux menaces plus efficacement, contribuant finalement à des mesures de cybersécurité plus solides.

Directions Futures

À mesure qu'on avance, on vise à améliorer notre méthodologie en incorporant des caractéristiques supplémentaires dans notre analyse. Ça inclut établir des critères clairs pour prioriser différents clusters et affiner les stratégies pour faire correspondre les clusters sur de plus longues périodes. L'objectif ultime est de déployer un système plus robuste qui puisse surveiller en continu le trafic réseau, identifiant et traitant les menaces potentielles en temps réel.

Les implications éthiques de notre recherche sont soigneusement considérées. Notre focus est uniquement sur l'amélioration de la cybersécurité grâce à des techniques de mesure passive, s'assurant qu'on n'interfère pas avec les entités observées. Alors qu'on continue de développer nos méthodologies, on reste engagé à faire progresser l'efficacité des pratiques de sécurité réseau, contribuant positivement à la lutte continue contre les menaces cybernétiques.

Source originale

Titre: Dynamic Cluster Analysis to Detect and Track Novelty in Network Telescopes

Résumé: In the context of cybersecurity, tracking the activities of coordinated hosts over time is a daunting task because both participants and their behaviours evolve at a fast pace. We address this scenario by solving a dynamic novelty discovery problem with the aim of both re-identifying patterns seen in the past and highlighting new patterns. We focus on traffic collected by Network Telescopes, a primary and noisy source for cybersecurity analysis. We propose a 3-stage pipeline: (i) we learn compact representations (embeddings) of hosts through their traffic in a self-supervised fashion; (ii) via clustering, we distinguish groups of hosts performing similar activities; (iii) we track the cluster temporal evolution to highlight novel patterns. We apply our methodology to 20 days of telescope traffic during which we observe more than 8 thousand active hosts. Our results show that we efficiently identify 50-70 well-shaped clusters per day, 60-70% of which we associate with already analysed cases, while we pinpoint 10-20 previously unseen clusters per day. These correspond to activity changes and new incidents, of which we document some. In short, our novelty discovery methodology enormously simplifies the manual analysis the security analysts have to conduct to gain insights to interpret novel coordinated activities.

Auteurs: Kai Huang, Luca Gioacchini, Marco Mellia, Luca Vassio

Dernière mise à jour: 2024-05-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.10545

Source PDF: https://arxiv.org/pdf/2405.10545

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires