Analyse du trafic réseau avec le jeu de données CESNET-TimeSeries24
Un ensemble de données complet pour l'analyse du trafic réseau et la détection d'anomalies.
Josef Koumar, Karel Hynek, Tomáš Čejka, Pavel Šiška
― 12 min lire
Table des matières
- Vue d'ensemble du jeu de données
- Importance de la surveillance du trafic
- Comment fonctionne la détection d'anomalies non supervisées
- Création du jeu de données CESNET-TimeSeries24
- Processus de collecte de données
- Anonymisation et considérations éthiques
- Agrégation des données de séries temporelles
- Étapes de filtrage et de prétraitement
- Gestion des week-ends et des jours fériés
- Structure et enregistrements du jeu de données
- Validation technique du jeu de données
- Activité des adresses IP
- Analyse des données transmises
- Identification des lacunes dans les séries temporelles
- Diversité des anomalies dans le jeu de données
- Exemple de détection d'anomalie
- Utilité du jeu de données pour la prévision
- Recommandations pour l'utilisation du jeu de données
- Directives de formation et de validation
- Procédures de prévision
- Comparaison de performance globale
- Faisabilité computationnelle
- Conclusion
- Source originale
- Liens de référence
Détecter des motifs inhabituels dans le Trafic réseau est super important pour garder les réseaux informatiques en sécurité contre les activités nuisibles. Une méthode courante pour ça, c'est de prédire le trafic futur à partir de données passées. Mais le problème, c'est qu'il n'y a pas beaucoup d'exemples réels de données réseaux disponibles pour ça. Ce manque peut mener à des résultats trop optimistes lors des tests des méthodes de détection. Pour aider avec ça, un nouveau jeu de données a été créé, qui contient des Données de séries temporelles d'un grand réseau, spécifiquement le réseau CESNET3 en République tchèque.
Vue d'ensemble du jeu de données
Le jeu de données CESNET-TimeSeries24 inclut des données de 40 semaines de trafic réseau avec plus de 275 000 adresses IP actives. Ce jeu de données offre une variété d'activités réseau, ce qui le rend adapté pour tester des méthodes de prédiction et de détection. Ça aide à comprendre à quel point ces modèles peuvent être efficaces lorsqu'ils sont appliqués dans des situations réelles.
Importance de la surveillance du trafic
Surveiller le trafic réseau est essentiel pour gérer les réseaux et assurer la sécurité des systèmes informatiques. Les systèmes de détection et de prévention d'intrusions peuvent protéger contre les utilisateurs négligents, les violations de règles ou les attaques délibérées. Mais l'utilisation croissante du chiffrement du trafic a rendu plus difficile la visualisation de ce qui se passe dans le réseau. Du coup, comprendre le trafic chiffré est crucial pour identifier les menaces potentielles.
Des études récentes se sont concentrées sur l'identification des risques de sécurité en classifiant le trafic chiffré grâce à l'apprentissage machine. Malgré ça, obtenir des jeux de données de menaces actuelles reste un gros défi. Les modèles basés sur l'apprentissage machine ne peuvent détecter que les attaques connues capturées dans des ensembles de données ou des menaces similaires. Donc, il devient nécessaire de mettre en œuvre des méthodes de Détection d'anomalies non supervisées pour identifier des attaques inconnues basées sur des changements de comportement.
Comment fonctionne la détection d'anomalies non supervisées
La détection d'anomalies non supervisées attribue des scores à des comportements inhabituels en se basant sur des motifs appris à partir de données passées. Une méthode largement utilisée pour cette détection est la prévision du trafic. Une alerte pour une anomalie se déclenche quand la différence entre le trafic prédit et le trafic réel dépasse une limite fixée. En plus de la détection d'anomalies, la prévision du trafic peut aussi bénéficier à la gestion du trafic, à l'allocation des ressources et à l'orchestration des services.
Le développement des méthodes de prévision a rapidement avancé ces dernières années, en partie grâce à l'utilisation réussie des réseaux de neurones. Néanmoins, on ne sait toujours pas à quel point ces méthodes améliorées performent pour la surveillance du trafic réseau, car les ensembles de données à long terme manquent encore. Une barrière majeure pour évaluer la performance est l'absence de jeux de données de référence accessibles au public. Beaucoup de jeux de données réels sont également indisponibles à cause de problèmes de confidentialité, ce qui conduit à utiliser des jeux de données synthétiques, qui peuvent ne pas refléter avec précision les scénarios réels.
Création du jeu de données CESNET-TimeSeries24
Pour relever ces défis, un nouveau jeu de données, CESNET-TimeSeries24, a été créé. Il est basé sur une étude à long terme des métriques de trafic réseau collectées sur 40 semaines à partir du réseau CESNET3. Le jeu de données comprend des motifs de trafic réseau variés provenant de divers appareils, garantissant qu'il représente un scénario du monde réel.
Ce jeu de données comprend 66 milliards de flux IP, soit environ 3,7 pétaoctets de données. Il couvre aussi différents types d'anomalies, ce qui en fait une ressource complète pour évaluer les méthodes de détection.
Processus de collecte de données
Le réseau CESNET3 fournit l'accès à Internet à de nombreuses institutions publiques et de recherche en République tchèque. Étant donné le volume élevé de données que les FAI traitent, les méthodes de surveillance basées sur des paquets traditionnels ne sont pas pratiques. Au lieu de cela, le réseau CESNET3 utilise un système de surveillance des flux IP qui collecte des métadonnées à partir des connexions.
Un enregistrement de flux IP capture les détails de communication entre deux appareils pendant une période spécifique. Cet enregistrement inclut des données essentielles telles que les adresses IP source et destination, les ports et le protocole utilisé. L'infrastructure de surveillance du trafic garantit que seules les données pertinentes sont collectées tout en préservant la confidentialité des utilisateurs.
Anonymisation et considérations éthiques
Étant donné l'importance de la confidentialité des utilisateurs dans la collecte de données, toutes les données de trafic réelles ont été automatiquement traitées pour supprimer toute information identifiable. Cette approche a inclus l'anonymisation des données avant de les analyser pour s'assurer que les identités des utilisateurs restent protégées.
La publication de ce jeu de données a été approuvée par un comité d'éthique. Les utilisateurs du réseau CESNET3 ont accepté le processus de surveillance, reconnaissant que leurs données seraient utilisées pour l'amélioration des services et la recherche, à condition qu'elles soient anonymisées.
Agrégation des données de séries temporelles
Le jeu de données a été créé en agrégeant les enregistrements de flux IP en points de données de séries temporelles. Chaque série temporelle capture le comportement des adresses IP sur des fenêtres temporelles définies, permettant une analyse plus simple de l'activité réseau.
Les points de données incluent divers métriques comme le nombre total de flux et la quantité de données transmises. D'autres métriques uniques suivent la diversité des adresses IP et ports de destination.
Étapes de filtrage et de prétraitement
Après avoir collecté le jeu de données brut, plusieurs étapes de prétraitement ont été effectuées. D'abord, toutes les adresses IP avec trop peu de trafic ont été supprimées, s'assurant que seules les adresses actives restent dans le jeu de données. Les données de séries temporelles ont également été agrégées en différents intervalles (10 minutes, une heure, et un jour), ce qui aide dans divers scénarios d'analyse.
Pour obtenir des insights plus larges, le trafic réseau a été regroupé par institutions et sous-réseaux institutionnels. Cette agrégation permet aux chercheurs d'observer les tendances et les comportements à différents niveaux du réseau.
Gestion des week-ends et des jours fériés
Inclure des informations sur les week-ends et les jours fériés est crucial lors de la prévision du trafic réseau. Le jeu de données fournit des enregistrements pour ces jours afin d'améliorer l'entraînement et l'évaluation des algorithmes de détection.
Structure et enregistrements du jeu de données
Le jeu de données CESNET-TimeSeries24 est structuré sous forme de fichiers CSV compressés. Chaque fichier représente les données de séries temporelles pour des adresses IP individuelles, des institutions, ou des groupes de sous-réseaux, clairement identifiés par leurs labels respectifs.
Pour gérer le nombre considérable d'enregistrements, les fichiers d'adresses IP sont organisés en sous-répertoires pour un accès plus facile. De plus, un fichier contient des informations sur les week-ends et les jours fériés, et un autre relie les adresses IP à leurs institutions correspondantes.
Validation technique du jeu de données
Assurer la fiabilité du jeu de données implique plusieurs processus de validation. Il est essentiel d'analyser les propriétés globales, de confirmer la présence d'anomalies, et d'évaluer son utilité pour la prévision.
Activité des adresses IP
Le jeu de données capture les motifs d'activité de plus de 275 000 adresses IP. Le nombre d'adresses actives fluctue selon les week-ends et les jours fériés, avec certaines périodes montrant plus d'activité en raison des périodes scolaires et d'autres facteurs. Identifier ces tendances est essentiel pour comprendre le comportement normal du réseau.
Analyse des données transmises
La quantité de données transmises varie aussi selon les week-ends et des événements spécifiques, comme les périodes d'examens. Observer ces tendances aide à modéliser le trafic attendu et à identifier des motifs inhabituels.
Identification des lacunes dans les séries temporelles
Les données de trafic réseau réelles ont souvent des lacunes lorsque les appareils n'envoient pas de données. Ces lacunes peuvent compliquer l'analyse et la prévision, donc comprendre leur distribution est nécessaire.
Le jeu de données montre qu'une proportion significative de ses séries temporelles contient des lacunes, surtout dans les fenêtres d'agrégation plus courtes. Cependant, ces lacunes diminuent à mesure que l'intervalle d'agrégation augmente, bien que même les plus longs intervalles aient encore des données manquantes.
Diversité des anomalies dans le jeu de données
Le jeu de données contient divers types d'anomalies que les chercheurs peuvent analyser. Cela inclut des anomalies ponctuelles, qui sont des points de données isolés qui divergent significativement du reste des données, et des anomalies collectives, où des séquences de points de données exhibent des motifs inhabituels.
Exemple de détection d'anomalie
Une analyse d'une anomalie identifiée, comme une attaque par déni de service (DoS), montre l'utilité du jeu de données. Les métriques pendant l'attaque indiquaient des motifs inhabituels, incluant un grand nombre de petits paquets et une direction de trafic constante vers une seule cible.
Utilité du jeu de données pour la prévision
Pour montrer l'applicabilité du jeu de données, on peut utiliser les données de séries temporelles pour la prévision du trafic réseau. En utilisant une méthode comme SARIMA (Moyenne Mobile Intégrée Autoregressive Saisonnier), les chercheurs peuvent faire des prédictions basées sur des données historiques.
Utiliser le jeu de données pour des prédictions implique de sélectionner une série temporelle spécifique et de définir une fenêtre de prévision. Différents intervalles peuvent être testés pour évaluer la performance du modèle.
Recommandations pour l'utilisation du jeu de données
Pour une évaluation efficace de la prévision du trafic réseau, il est essentiel de suivre des directives spécifiques. Les chercheurs devraient clairement indiquer quel jeu de données et quels intervalles d'agrégation ils utilisent. Une documentation adéquate des étapes de prétraitement est également cruciale pour assurer la comparabilité entre les différentes études.
Directives de formation et de validation
Lors de la formation de modèles sur le jeu de données, il est vital d'utiliser l'ensemble de la période disponible. Tous les processus de validation devraient être décrits en détail pour assurer la transparence dans l'évaluation de la performance du modèle.
Procédures de prévision
Pour la cohérence, les auteurs devraient clairement décrire leurs approches de prévision, y compris la durée des prévisions et les métriques d'évaluation utilisées. Cette pratique facilite la comparaison entre différentes études et aide à valider les résultats.
Comparaison de performance globale
Pour évaluer la performance à travers diverses séries temporelles, les chercheurs devraient utiliser des distributions statistiques ou des visualisations pour donner des insights sur l'efficacité globale de leurs modèles.
Faisabilité computationnelle
En plus de la précision, les demandes computationnelles des modèles doivent être évaluées. S'assurer que les modèles peuvent fonctionner efficacement sans surcharger les ressources est important pour un déploiement pratique.
Conclusion
Le jeu de données CESNET-TimeSeries24 est une ressource précieuse pour les chercheurs concentrés sur la détection d'anomalies dans le trafic réseau et la prévision. En fournissant des données réelles diversifiées et étendues, il permet des évaluations plus précises des modèles de prédiction. Ce jeu de données encourage des recherches et développements supplémentaires de méthodes robustes pour améliorer la sécurité des réseaux contre les menaces.
En suivant les lignes directrices recommandées pour l'utilisation des données, la validation et la formation des modèles, les chercheurs peuvent contribuer à une compréhension plus complète du comportement réseau et améliorer les méthodes utilisées pour prédire et détecter les anomalies dans le trafic réseau.
Titre: CESNET-TimeSeries24: Time Series Dataset for Network Traffic Anomaly Detection and Forecasting
Résumé: Anomaly detection in network traffic is crucial for maintaining the security of computer networks and identifying malicious activities. One of the primary approaches to anomaly detection are methods based on forecasting. Nevertheless, extensive real-world network datasets for forecasting and anomaly detection techniques are missing, potentially causing performance overestimation of anomaly detection algorithms. This manuscript addresses this gap by introducing a dataset comprising time series data of network entities' behavior, collected from the CESNET3 network. The dataset was created from 40 weeks of network traffic of 275 thousand active IP addresses. The ISP origin of the presented data ensures a high level of variability among network entities, which forms a unique and authentic challenge for forecasting and anomaly detection models. It provides valuable insights into the practical deployment of forecast-based anomaly detection approaches.
Auteurs: Josef Koumar, Karel Hynek, Tomáš Čejka, Pavel Šiška
Dernière mise à jour: 2024-09-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.18874
Source PDF: https://arxiv.org/pdf/2409.18874
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.nature.com/scientificdata
- https://www.cesnet.cz/en/gdpr
- https://github.com/CESNET/ipfixprobe
- https://github.com/CESNET/ipfixcol2
- https://www.timescale.com/
- https://zenodo.org/records/13382427
- https://doi.org/10.6084/m9.figshare.853801
- https://github.com/koumajos/CESNET-TimeSeries24-Example
- https://github.com/CESNET/Nemea-Framework
- https://github.com/CESNET/Nemea-Modules
- https://github.com/CESNET/Nemea-Supervisor
- https://www.python.org/downloads/release/python-390/
- https://github.com/koumajos/CESNET-TimeSeries24-CD
- https://www.nature.com/sdata/policies/editorial-and-publishing-policies#competing