Migliorare la rilevazione degli attacchi Living-Off-The-Land
Un nuovo approccio migliora il rilevamento di minacce cyber sottili utilizzando metodi di dati avanzati.
― 6 leggere min
Indice
La cybersecurity è una parte fondamentale della tecnologia moderna, e capire come gli attaccanti sfruttano i sistemi è essenziale per la difesa. Un metodo che usano è il "living-off-the-land", che significa che approfittano di strumenti legittimi già presenti nel sistema. Questo permette loro di integrarsi con le attività normali e di evitare di essere scoperti. In questo articolo, esploriamo come le attività malevole, in particolare l'uso di reverse shell, possano essere rilevate attraverso metodi avanzati che coinvolgono l'incremento dei dati usati per addestrare i modelli di Rilevamento.
Attacchi Living-Off-The-Land
Gli attacchi living-off-the-land implicano l’uso di software esistente su un dispositivo compromesso per portare a termine azioni dannose. Invece di caricare nuovo software malevolo, gli attaccanti manipolano applicazioni legittime per eseguire comandi dannosi. Questo rende le loro attività meno evidenti perché mimano i normali schemi d’uso del sistema.
Una reverse shell è una tecnica specifica usata in questi attacchi. Permette a un attaccante di accedere a un sistema remoto prendendo controllo di una macchina compromessa. L'attaccante invia comandi dal proprio dispositivo, reindirizzando l'operazione della shell attraverso una connessione di rete. Molte applicazioni comuni sui sistemi, sia Windows che Linux, possono abilitare questa funzionalità.
Gli attaccanti che usano questa tecnica variano nel livello di abilità, da hacker alle prime armi a gruppi avanzati sostenuti da governi. L'uso delle reverse shell ha attirato attenzione in conflitti recenti, come la situazione in corso tra Russia e Ucraina.
La Sfida del Rilevamento
Rilevare attività di reverse shell e altre tattiche living-off-the-land è una sfida. I comandi legittimi eseguiti dalle applicazioni possono mascherare quelli malevoli, rendendoli difficili da identificare senza un'analisi attenta dei log di sistema. Inoltre, le minacce possono usare metodi per nascondere le loro attività, portando a molti falsi allarmi nei sistemi di rilevamento.
Anche se il machine learning offre potenziali soluzioni per migliorare il rilevamento, i modelli esistenti possono avere difficoltà in ambienti pieni di attività legittime. Molti attacchi avvengono in un contesto raro, mescolato con comandi normali schiaccianti, risultando in detector inefficaci. Di conseguenza, gli operatori umani potrebbero dover setacciare numerosi falsi allarmi, il che è impraticabile in scenari reali.
Migliorare il Rilevamento con l'Incremento dei Dati
Per affrontare queste sfide, questa ricerca propone un nuovo metodo per creare set di dati realistici per addestrare modelli di machine learning. L'obiettivo è migliorare la capacità dei modelli di rilevamento di identificare con precisione i comandi di reverse shell.
Il metodo proposto introduce un framework di incremento dei dati. Questo approccio aumenta gli esempi di attività malevole nel contesto di log legittimi. Utilizzando informazioni su attacchi noti, i ricercatori generano set di dati che includono sia comandi reali che esempi malevoli creati con cura.
Il processo di incremento inizia con un set di dati di base raccolto da reti aziendali. Questo set di dati include una grande quantità di attività legittima tipicamente prodotta dai sistemi. Per migliorarlo, i modelli di attacco vengono iniettati nel set di dati, creando rappresentazioni diverse di potenziali minacce mantenendo una connessione alle operazioni normali.
Sperimentazione e Creazione del Set di Dati
I ricercatori hanno effettuato test approfonditi per scoprire quali modelli e tecniche funzionassero meglio sul set di dati aumentato. Si sono concentrati su 14 configurazioni diverse, considerando vari modelli e tecniche di estrazione delle caratteristiche.
Una parte significativa dello studio ha coinvolto la creazione di set di dati realistici aggregando dati della riga di comando registrati su sistemi Linux in tempo reale. I ricercatori hanno raccolto milioni di eventi in un breve lasso di tempo, filtrandoli e organizzandoli per assicurarsi che rappresentassero accuratamente il comportamento tipico del sistema.
I modelli di attacco usati per l'incremento vengono da metodi noti di sfruttamento delle reverse shell. Ogni modello include segnaposto che permettono variazioni nella struttura dei comandi, rendendo i comandi generati diversi ma funzionali.
Risultati sulle Prestazioni dei Modelli
Dopo aver creato il set di dati, i ricercatori hanno addestrato modelli di machine learning utilizzando varie configurazioni. Hanno analizzato l'efficacia di ogni combinazione per vedere quale configurazione producesse i migliori risultati nel rilevamento di attività malevoli.
Uno dei punti salienti della ricerca è stata la prestazione dei modelli di machine learning tradizionali, in particolare gli alberi decisionali Gradient Boosting (GBDT). Questo metodo ha mostrato una capacità notevole di differenziare tra comandi normali e malevoli, raggiungendo un'eccellente percentuale di veri positivi mantenendo un basso tasso di falsi positivi.
Inoltre, i ricercatori hanno notato che semplicemente iniettare comandi malevoli nel set di dati senza un adeguato incremento non portava a modelli di rilevamento efficaci. L'efficacia di usare una varietà di rappresentazioni di comandi malevoli era cruciale per migliorare le prestazioni predittive.
Robustezza dei Modelli
Oltre a migliorare il rilevamento attraverso l'incremento dei dati, la ricerca ha affrontato anche la robustezza dei modelli contro potenziali attacchi che gli avversari potrebbero impiegare. L'efficacia dei modelli di machine learning può indebolirsi se gli attaccanti manipolano i dati per sfuggire al rilevamento.
I ricercatori hanno ipotizzato una minaccia agnostica rispetto al modello in cui un attaccante potrebbe influenzare i dati di addestramento, introducendo intenzionalmente rumore per degradare le prestazioni dei modelli. Hanno simulato vari scenari per vedere quanto bene i loro modelli potessero resistere a tali attacchi.
Gli esperimenti hanno mostrato che mentre molti modelli rimanevano efficaci, alcuni erano più vulnerabili di altri. I modelli GBDT hanno dimostrato una maggiore resilienza contro il rumore avversario rispetto ad alcuni modelli di reti neurali, rendendoli una scelta robusta per questo compito.
Tecniche di Evasione e Lavoro Futuro
Esistono varie tecniche per evadere i sistemi di rilevamento, che i ricercatori hanno esplorato nei loro test. Hanno introdotto comandi benigni all'interno di quelli malevoli per vedere quanto bene i modelli potessero ancora identificare le minacce. I risultati hanno rivelato che utilizzare un addestramento avversario migliorava le capacità dei modelli di affrontare efficacemente queste manipolazioni.
La ricerca ha anche evidenziato limitazioni nel loro approccio attuale. Il set di dati e il modello potrebbero perdere alcune caratteristiche di tecniche sconosciute o non riconoscere azioni malevole incorporate in comandi più complessi. Il lavoro futuro potrebbe espandere questa ricerca per coprire altri sistemi operativi e metodologie.
Conclusione
Rilevare attacchi living-off-the-land usando reverse shell presenta una sfida significativa nella cybersecurity. Tuttavia, impiegando metodi avanzati di incremento dei dati e migliorando i set di dati di addestramento, i modelli di machine learning possono essere meglio equipaggiati per identificare queste minacce sottili.
Man mano che il panorama delle minacce cibernetiche continua a evolversi, la ricerca continua e i miglioramenti nelle tecniche di rilevamento saranno cruciali per difendere i sistemi contro avversari abili. Attraverso sforzi collaborativi e l'uso di conoscenze di dominio, possiamo migliorare i sistemi di rilevamento per un ambiente digitale più sicuro.
Titolo: Robust Synthetic Data-Driven Detection of Living-Off-the-Land Reverse Shells
Estratto: Living-off-the-land (LOTL) techniques pose a significant challenge to security operations, exploiting legitimate tools to execute malicious commands that evade traditional detection methods. To address this, we present a robust augmentation framework for cyber defense systems as Security Information and Event Management (SIEM) solutions, enabling the detection of LOTL attacks such as reverse shells through machine learning. Leveraging real-world threat intelligence and adversarial training, our framework synthesizes diverse malicious datasets while preserving the variability of legitimate activity, ensuring high accuracy and low false-positive rates. We validate our approach through extensive experiments on enterprise-scale datasets, achieving a 90\% improvement in detection rates over non-augmented baselines at an industry-grade False Positive Rate (FPR) of $10^{-5}$. We define black-box data-driven attacks that successfully evade unprotected models, and develop defenses to mitigate them, producing adversarially robust variants of ML models. Ethical considerations are central to this work; we discuss safeguards for synthetic data generation and the responsible release of pre-trained models across four best performing architectures, including both adversarially and regularly trained variants: https://huggingface.co/dtrizna/quasarnix. Furthermore, we provide a malicious LOTL dataset containing over 1 million augmented attack variants to enable reproducible research and community collaboration: https://huggingface.co/datasets/dtrizna/QuasarNix. This work offers a reproducible, scalable, and production-ready defense against evolving LOTL threats.
Autori: Dmitrijs Trizna, Luca Demetrio, Battista Biggio, Fabio Roli
Ultimo aggiornamento: 2024-12-16 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2402.18329
Fonte PDF: https://arxiv.org/pdf/2402.18329
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.