Analizzare il traffico di rete con il dataset CESNET-TimeSeries24
Un dataset completo per l'analisi del traffico di rete e la rilevazione di anomalie.
Josef Koumar, Karel Hynek, Tomáš Čejka, Pavel Šiška
― 9 leggere min
Indice
- Panoramica del Dataset
- Importanza del Monitoraggio del Traffico
- Come Funziona il Rilevamento delle Anomalie Non Supervisionato
- Creazione del Dataset CESNET-TimeSeries24
- Processo di Raccolta Dati
- Anonimizzazione e Considerazioni Etiche
- Aggregazione dei Dati in Serie Temporali
- Passaggi di Filtraggio e Preprocessing
- Gestione dei Fine Settimana e delle Feste
- Struttura e Registrazioni del Dataset
- Validazione Tecnica del Dataset
- Attività degli Indirizzi IP
- Analisi dei Dati Trasferiti
- Identificazione delle Lacune nelle Serie Temporali
- Diversità delle Anomalie nel Dataset
- Esempio di Rilevamento delle Anomalie
- Usabilità del Dataset per la Previsione
- Raccomandazioni per Utilizzare il Dataset
- Linee Guida per Formazione e Validazione
- Procedure di Previsione
- Confronto delle Prestazioni Generali
- Fattibilità Computazionale
- Conclusione
- Fonte originale
- Link di riferimento
Rilevare schemi insoliti nel Traffico di rete è importante per mantenere i computer sicuri da attività dannose. Un modo comune per farlo è prevedere il traffico futuro basandosi sui dati passati. Tuttavia, non ci sono molti esempi reali di dati di rete disponibili per questo scopo. Questa mancanza può portare a risultati troppo ottimisti quando si testano i metodi di rilevamento. Per aiutarci in questo, è stato creato un nuovo dataset che contiene dati in serie temporali da una rete grande, in particolare la rete CESNET3 nella Repubblica Ceca.
Panoramica del Dataset
Il dataset CESNET-TimeSeries24 include dati di 40 settimane di traffico di rete con oltre 275.000 indirizzi IP attivi. Questo dataset offre una varietà di attività di rete, rendendolo adatto per testare metodi di previsione e rilevamento. Aiuta a capire quanto possano essere efficaci questi modelli quando applicati in situazioni reali.
Importanza del Monitoraggio del Traffico
Monitorare il traffico di rete è essenziale per gestire le reti e garantire la sicurezza dei sistemi informatici. I sistemi di rilevamento e prevenzione delle intrusioni possono aiutare a proteggere contro utenti distratti, violazioni di regole o attacchi deliberati. Tuttavia, l'uso sempre maggiore della crittografia del traffico ha reso più difficile vedere cosa sta accadendo nella rete. Questo significa che comprendere il traffico crittografato è fondamentale per identificare potenziali minacce.
Studi recenti si sono concentrati sull'identificazione dei rischi per la sicurezza classificando il traffico crittografato usando l'apprendimento automatico. Nonostante questo, ottenere set di dati attuali sulle minacce rimane una sfida significativa. I modelli basati sull'apprendimento automatico possono solo rilevare attacchi noti catturati in set di dati o minacce simili. Pertanto, diventa necessario implementare metodi di rilevamento delle anomalie non supervisionati per identificare attacchi sconosciuti basati su cambiamenti nel comportamento.
Come Funziona il Rilevamento delle Anomalie Non Supervisionato
Il rilevamento delle anomalie non supervisionato assegna punteggi a comportamenti insoliti basandosi su schemi appresi dai dati passati. Un metodo ampiamente usato per questo rilevamento è la previsione del traffico. Un avviso per un'anomalia viene attivato quando la differenza tra il traffico previsto e quello reale supera un limite stabilito. Oltre al rilevamento delle anomalie, la previsione del traffico può anche beneficiare la gestione del traffico, l'allocazione delle risorse e l'orchestrazione dei servizi.
Lo sviluppo di metodi di previsione è rapidamente avanzato negli ultimi anni, in parte grazie all'uso efficace delle reti neurali. Tuttavia, non è ancora chiaro quanto bene questi metodi migliorati funzionino per il monitoraggio del traffico di rete, poiché mancano ancora set di dati a lungo termine. Un ostacolo significativo nella valutazione delle prestazioni è l'assenza di set di dati di riferimento pubblicamente accessibili. Molti set di dati reali non sono disponibili a causa di problemi di privacy, portando all'uso di set di dati sintetici, che potrebbero non riflettere accuratamente scenari reali.
Creazione del Dataset CESNET-TimeSeries24
Per affrontare queste sfide, è stato creato un nuovo dataset, CESNET-TimeSeries24. È basato su uno studio a lungo termine delle metriche del traffico di rete raccolto in 40 settimane dalla rete CESNET3. Il dataset include schemi diversi di traffico di rete provenienti da vari dispositivi, assicurando che rappresenti uno scenario reale.
Questo dataset comprende 66 miliardi di flussi IP, per un totale di circa 3,7 petabyte di dati. Copre anche vari tipi di anomalie, rendendolo una risorsa completa per valutare i metodi di rilevamento.
Processo di Raccolta Dati
La rete CESNET3 fornisce accesso a internet a numerose istituzioni pubbliche e di ricerca nella Repubblica Ceca. A causa dell'alto volume di dati che i provider di servizi Internet gestiscono, i metodi di monitoraggio tradizionali basati su pacchetti non sono praticabili. Invece, la rete CESNET3 utilizza un sistema di monitoraggio del flusso IP che raccoglie metadati dalle connessioni.
Un record di flusso IP cattura i dettagli della comunicazione tra due dispositivi durante un intervallo di tempo specifico. Questo record include dati essenziali come indirizzi IP sorgente e di destinazione, porte e protocollo utilizzato. L'infrastruttura di monitoraggio del traffico assicura che vengano raccolti solo dati rilevanti, proteggendo la privacy degli utenti.
Anonimizzazione e Considerazioni Etiche
Data l'importanza della privacy degli utenti nella raccolta di dati, tutti i dati di traffico reali sono stati elaborati automaticamente per rimuovere eventuali informazioni identificabili. Questo approccio ha incluso l'anonimizzazione dei dati prima dell'analisi per garantire che l'identità degli utenti rimanesse protetta.
Il rilascio di questo dataset è stato approvato da un comitato etico. Gli utenti della rete CESNET3 hanno acconsentito al processo di monitoraggio, riconoscendo che i loro dati sarebbero stati utilizzati per migliorare i servizi e per la ricerca, a condizione che fossero anonimizzati.
Aggregazione dei Dati in Serie Temporali
Il dataset è stato creato aggregando i record di flusso IP in punti di dati in serie temporali. Ogni serie temporale cattura il comportamento degli indirizzi IP su finestre temporali definite, consentendo un'analisi più semplice dell'attività di rete.
I punti di dati includono varie metriche come il numero totale di flussi e la quantità di dati trasmessi. Altre metriche uniche tracciano la diversità degli indirizzi IP e delle porte di destinazione.
Passaggi di Filtraggio e Preprocessing
Dopo aver raccolto il dataset grezzo, sono stati eseguiti diversi passaggi di preprocessing. Prima di tutto, sono stati rimossi gli indirizzi IP con traffico troppo esiguo, assicurando che nel dataset rimanessero solo indirizzi attivi. I dati in serie temporali sono stati anche aggregati in diverse intervalli (10 minuti, un'ora e un giorno), il che aiuta in vari scenari di analisi.
Per ottenere intuizioni più ampie, il traffico di rete è stato raggruppato in base a istituzioni e sottoreti istituzionali. Questa aggregazione consente ai ricercatori di osservare tendenze e comportamenti a diversi livelli della rete.
Gestione dei Fine Settimana e delle Feste
Includere informazioni sui fine settimana e le festività è cruciale quando si prevede il traffico di rete. Il dataset fornisce registrazioni per questi giorni per migliorare la formazione e la valutazione degli algoritmi di rilevamento.
Struttura e Registrazioni del Dataset
Il dataset CESNET-TimeSeries24 è strutturato in file CSV compressi. Ogni file rappresenta i dati in serie temporali per singoli indirizzi IP, istituzioni o gruppi di sottoreti, chiaramente identificati dalle rispettive etichette.
Per gestire il numero considerevole di registrazioni, i file degli indirizzi IP sono organizzati in sottodirectory per un accesso più facile. Inoltre, un file contiene informazioni sui fine settimana e le festività, e un altro collega gli indirizzi IP con le rispettive istituzioni.
Validazione Tecnica del Dataset
Assicurarsi dell'affidabilità del dataset coinvolge diversi processi di validazione. È essenziale analizzare le proprietà generali, confermare la presenza di anomalie e valutare la sua usabilità per la previsione.
Attività degli Indirizzi IP
Il dataset cattura i modelli di attività di oltre 275.000 indirizzi IP. Il numero di indirizzi attivi fluttua in base a fine settimana e festività, con determinati periodi che mostrano maggiore attività a causa degli anni scolastici e altri fattori. Identificare queste tendenze è essenziale per comprendere il comportamento normale della rete.
Analisi dei Dati Trasferiti
La quantità di dati trasmessi variava anche con i fine settimana e eventi specifici, come i periodi di esami. Osservare queste tendenze aiuta a modellare il traffico previsto e identificare schemi insoliti.
Identificazione delle Lacune nelle Serie Temporali
I dati reali sul traffico di rete presentano spesso lacune quando i dispositivi non inviano dati. Queste lacune possono complicare l'analisi e la previsione, quindi è necessario comprendere la loro distribuzione.
Il dataset mostra che una percentuale significativa delle sue serie temporali contiene lacune, specialmente nelle finestre di aggregazione più brevi. Tuttavia, queste lacune diminuiscono man mano che l'intervallo di aggregazione aumenta, anche se anche gli intervalli più lunghi presentano ancora dati mancanti.
Diversità delle Anomalie nel Dataset
Il dataset contiene vari tipi di anomalie che i ricercatori possono analizzare. Queste includono anomalie puntuali, che sono punti di dati isolati che si discostano significativamente dal resto dei dati, e anomalie collettive, dove sequenze di punti di dati mostrano schemi insoliti.
Esempio di Rilevamento delle Anomalie
Un'analisi di un'anomalia identificata, come un attacco Denial of Service (DoS), mostra l'utilità del dataset. Le metriche durante l'attacco hanno indicato schemi insoliti, inclusi un numero elevato di pacchetti piccoli e una direzione di traffico costante verso un singolo obiettivo.
Usabilità del Dataset per la Previsione
Per mostrare l'applicabilità del dataset, si può utilizzare i dati in serie temporali per la previsione del traffico di rete. Impiegando un metodo come il SARIMA (Seasonal Autoregressive Integrated Moving Average), i ricercatori possono effettuare previsioni basate su dati storici.
Utilizzare il dataset per le previsioni implica selezionare una specifica serie temporale e definire una finestra di previsione. Diversi intervalli possono essere testati per valutare le prestazioni del modello.
Raccomandazioni per Utilizzare il Dataset
Per una valutazione efficace della previsione del traffico di rete, è fondamentale seguire linee guida specifiche. I ricercatori dovrebbero specificare chiaramente quale dataset e quali intervalli di aggregazione stanno utilizzando. Una documentazione adeguata dei passaggi di preprocessing è anche cruciale per garantire la comparabilità tra vari studi.
Linee Guida per Formazione e Validazione
Quando si formano modelli sul dataset, è vitale utilizzare l'intero intervallo di tempo disponibile. Qualsiasi processo di validazione dovrebbe essere descritto in modo dettagliato per garantire trasparenza nella valutazione delle prestazioni del modello.
Procedure di Previsione
Per coerenza, gli autori dovrebbero delineare chiaramente i loro approcci di previsione, inclusa la durata delle previsioni e le metriche di valutazione utilizzate. Questa pratica facilita il confronto tra diversi studi e aiuta a convalidare i risultati.
Confronto delle Prestazioni Generali
Per misurare le prestazioni tra diverse serie temporali, i ricercatori dovrebbero impiegare distribuzioni statistiche o visualizzazioni per fornire intuizioni sull'efficacia complessiva dei loro modelli.
Fattibilità Computazionale
Oltre all'accuratezza, è necessario valutare anche le richieste computazionali dei modelli. Assicurarsi che i modelli possano operare efficacemente senza sovraccaricare le risorse è importante per una distribuzione pratica.
Conclusione
Il dataset CESNET-TimeSeries24 è una risorsa preziosa per i ricercatori focalizzati sul rilevamento delle anomalie nel traffico di rete e sulla previsione. Offrendo dati reali diversi e ampi, consente valutazioni più accurate dei modelli di previsione. Questo dataset incoraggia ulteriori ricerche e lo sviluppo di metodi robusti per migliorare la sicurezza delle reti contro le minacce.
Seguendo le linee guida raccomandate per l'uso dei dati, la validazione e la formazione dei modelli, i ricercatori possono contribuire a una comprensione più completa del comportamento della rete e migliorare i metodi utilizzati per prevedere e rilevare anomalie nel traffico di rete.
Titolo: CESNET-TimeSeries24: Time Series Dataset for Network Traffic Anomaly Detection and Forecasting
Estratto: Anomaly detection in network traffic is crucial for maintaining the security of computer networks and identifying malicious activities. One of the primary approaches to anomaly detection are methods based on forecasting. Nevertheless, extensive real-world network datasets for forecasting and anomaly detection techniques are missing, potentially causing performance overestimation of anomaly detection algorithms. This manuscript addresses this gap by introducing a dataset comprising time series data of network entities' behavior, collected from the CESNET3 network. The dataset was created from 40 weeks of network traffic of 275 thousand active IP addresses. The ISP origin of the presented data ensures a high level of variability among network entities, which forms a unique and authentic challenge for forecasting and anomaly detection models. It provides valuable insights into the practical deployment of forecast-based anomaly detection approaches.
Autori: Josef Koumar, Karel Hynek, Tomáš Čejka, Pavel Šiška
Ultimo aggiornamento: 2024-09-27 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2409.18874
Fonte PDF: https://arxiv.org/pdf/2409.18874
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.nature.com/scientificdata
- https://www.cesnet.cz/en/gdpr
- https://github.com/CESNET/ipfixprobe
- https://github.com/CESNET/ipfixcol2
- https://www.timescale.com/
- https://zenodo.org/records/13382427
- https://doi.org/10.6084/m9.figshare.853801
- https://github.com/koumajos/CESNET-TimeSeries24-Example
- https://github.com/CESNET/Nemea-Framework
- https://github.com/CESNET/Nemea-Modules
- https://github.com/CESNET/Nemea-Supervisor
- https://www.python.org/downloads/release/python-390/
- https://github.com/koumajos/CESNET-TimeSeries24-CD
- https://www.nature.com/sdata/policies/editorial-and-publishing-policies#competing