Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Crittografia e sicurezza# Intelligenza artificiale

Collegare i modelli di attacco informatico nei sistemi IoT

Analizzando le connessioni tra CAPEC e ATT&CK per migliorare le valutazioni del rischio.

Braden K Webb, Sumit Purohit, Rounak Meyur

― 7 leggere min


Mappatura degli attacchiMappatura degli attacchiinformatici nei sistemiIoTdel rischio delle minacce informatiche.Tecniche innovative per la valutazione
Indice

L'ascesa dell'Internet delle Cose (IoT) ha aggiunto un sacco di dispositivi alle nostre reti, rendendole più complesse e vulnerabili agli attacchi informatici. Questi attacchi possono sfruttare nuovi punti deboli nei sistemi, mettendo a rischio servizi vitali. Valutare i rischi in questi sistemi sta diventando sempre più difficile a causa della mancanza di conoscenze aggiornate sulla cybersecurity. Questa situazione crea una necessità urgente di valutazioni dei rischi più efficaci e tecniche per ridurre questi rischi.

In passato, gli sforzi per trovare debolezze nei sistemi si basavano su regole e programmi in linguaggi di base. Tuttavia, i nuovi progressi nei Large Language Models (LLM) ci offrono un modo nuovo per raccogliere informazioni sulle minacce informatiche. Questi modelli possono analizzare e riassumere i dati meglio dei metodi tradizionali. Possiamo usare questi modelli per organizzare informazioni su diversi metodi di attacco e le tecniche usate dagli aggressori.

Il nostro approccio utilizza strumenti avanzati per connettere informazioni su diversi tipi di minacce informatiche. Usando modelli che trasformano parole in dati numerici, possiamo creare relazioni tra metodi di attacco e strategie che gli aggressori impiegano. Introduciamo anche un nuovo metodo che combina il recupero dei dati con la generazione di linguaggio. Questo metodo ci aiuta a creare framework organizzati che collegano diversi tipi di schemi di attacco.

Per testare questo nuovo metodo, utilizziamo un piccolo set di dati che abbiamo accuratamente etichettato. Questo ci permette di confrontare il nostro approccio con metodi standard usati nella cybersecurity. L'obiettivo è sviluppare un sistema completo che possa aiutare a colmare le lacune nella conoscenza delle minacce informatiche.

L'Impatto dei Sistemi di Controllo Industriale

L'integrazione dell'IoT nei Sistemi di Controllo Industriale (ICS) ha migliorato il modo in cui le industrie operano rendendo i processi più efficienti e produttivi. Tuttavia, questa connettività aumentata apre anche le porte ad attacchi informatici. Questi attacchi possono compromettere la riservatezza, l'integrità e la disponibilità di servizi e dati. Possono assumere varie forme, tra cui malware, ransomware, attacchi DDoS e violazioni nella catena di approvvigionamento. Qualsiasi attacco può portare a seri rischi per infrastrutture cruciali, influenzando la sicurezza, l'economia e la salute pubblica.

Per capire meglio come gli aggressori sfruttano le vulnerabilità, possiamo fare riferimento a cataloghi consolidati di schemi di attacco. Ad esempio, il Common Attack Pattern Enumeration and Classification (CAPEC) offre un elenco pubblico di vari metodi di attacco informatico. Inoltre, il framework MITRE Adversarial Tactics, Techniques, and Common Knowledge (ATT&CK) fornisce preziose informazioni sui comportamenti avversari basati su esempi reali.

Sia CAPEC che ATT&CK servono come risorse critiche per le organizzazioni che cercano di proteggere i propri sistemi. Aiutano i team di cybersecurity a capire il potenziale comportamento degli aggressori, meglio prepararsi ai rischi e sviluppare strategie efficaci per combattere le minacce. Tuttavia, c'è una sfida nel connettere efficacemente queste due risorse preziose. Anche se ci sono alcuni legami per le minacce a livello aziendale, c'è una mancanza di connessioni per le minacce ICS o mobili.

Stabilire queste connessioni richiede una grande esperienza per confermare legami validi tra i due sistemi. Inoltre, poiché le informazioni vengono aggiornate regolarmente, le connessioni manuali possono risultare poco pratiche e richiedere molto tempo.

Il Ruolo dei Modelli Linguistici nella Cybersecurity

Le tecniche tradizionali di machine learning spesso richiedono input strutturati per fare previsioni accurate, ma gran parte dei dati riguardanti i metodi di attacco è non strutturata. Qui entrano in gioco i grandi modelli di linguaggio. Questi modelli possono convertire il testo in dati numerici, permettendoci di trattare informazioni testuali difficili come vettori matematici. Analizzando quanto siano simili o diversi questi vettori, possiamo identificare connessioni tra vari schemi di attacco.

La nostra ricerca si concentra sul miglioramento del processo di Mappatura delle connessioni tra CAPEC e ATT&CK. Usiamo vari framework per trovare un modo affidabile di collegare accuratamente i schemi di attacco. La nostra metodologia prevede due compiti chiave: primo, valutare diversi modelli per vedere quale funziona meglio per il collegamento delle conoscenze sugli attacchi informatici, e secondo, creare e confermare la mappatura tra questi due sistemi.

Questo sforzo mira a colmare le lacune nella conoscenza della cybersecurity e fornire una base solida per migliori valutazioni e pianificazioni dei rischi.

Metodi Esistenti e le Loro Limitazioni

In passato, i ricercatori hanno tentato di automatizzare il processo di allineamento delle conoscenze sulla cybersecurity tra diversi database. Anche se metodi come Random Forest e classificatori naive Bayes sono utili, possono affrontare limitazioni a causa della mancanza di dati accurati per l'addestramento. Alcuni ricercatori hanno utilizzato approcci basati su ontologie per automatizzare le valutazioni dei rischi, ma spesso non raggiungono i risultati desiderati.

Nel nostro lavoro, ci affidiamo a modelli linguistici avanzati per creare connessioni tra vari set di dati sulla cybersecurity. Le nostre ricerche precedenti e altri studi hanno dimostrato che modelli come BERT e Google T5 possono essere utilizzati efficacemente per automatizzare il processo di mappatura con alta precisione. Tuttavia, abbiamo notato che i modelli di linguaggio più recenti, che si concentrano sulla generazione di testo, sono notevolmente migliorati, specialmente in contesti con dati limitati.

Per trovare il miglior approccio per il nostro compito, abbiamo valutato modelli all'avanguardia e confrontato la loro efficacia nel completare compiti relativi alla conoscenza della cybersecurity. Attraverso i nostri metodi, intendiamo rendere il processo di mappatura più gestibile e accurato.

Creazione del Framework per la Mappatura

Per la nostra ricerca, consideriamo gli schemi di attacco CAPEC e le tecniche MITRE ATT&CK ICS. Il nostro obiettivo è determinare il modo migliore per creare connessioni tra questi due set di dati, assicurandoci che rappresentino accuratamente gli stessi comportamenti aggressivi.

Trasformando le descrizioni testuali in vettori numerici, possiamo analizzarli con tecniche di machine learning. Il nostro approccio prevede di utilizzare sia ricerche di nearest-neighbor per identificare possibili connessioni che mappature basate su RAG che affinano queste mappature per una maggiore accuratezza.

Per illustrare i nostri metodi, forniamo esempi di schemi di attacco dal CAPEC e tecniche corrispondenti dall'ATT&CK. Il nostro obiettivo è creare relazioni chiare che convalidino l'efficacia del nostro approccio di mappatura.

Valutazione dell'Accuratezza e dell'Efficacia

Data la mancanza di dati etichettati per convalidare i nostri risultati, riconosciamo la difficoltà di misurare accuratamente il successo dei nostri metodi di mappatura. Per affrontare questo problema, creiamo un piccolo set di dati di coppie etichettate da usare come verità di base per valutare la nostra metodologia di mappatura.

Definiamo diverse metriche importanti per analizzare la nostra accuratezza di mappatura:

  • Accuratezza: Il rapporto complessivo di mappature corrette su tutte le possibili mappature.
  • Richiamo: Il rapporto delle istanze rilevanti correttamente identificate su tutte le vere istanze rilevanti.
  • Precisione: Il rapporto delle istanze rilevanti mappate accuratamente rispetto al totale delle istanze recuperate.
  • F-score: L'equilibrio tra precisione e richiamo.

Oltre a queste metriche tradizionali, introduciamo metriche di copertura per misurare quanti schemi di attacco hanno mappature valide nel nostro sistema. Definiamo anche un rapporto di mappatura errata (FMR) per indicare quanto spesso le nostre tecniche di mappatura portano a connessioni errate. Punteggi FMR più bassi indicano prestazioni migliori.

Risultati e Scoperte

I nostri risultati indicano che la mappatura basata su RAG supera generalmente l'approccio nearest-neighbor. Il metodo RAG mostra una precisione e un richiamo più elevati, portando a previsioni di mappatura più accurate. Inoltre, l'uso di più vicini per la mappatura tende ad aumentare la copertura, anche se può anche aumentare i falsi positivi.

Tra i modelli testati, alcuni embedding come "instructor-large" e "text-embedding-ada-002" performano meglio di altri in entrambe le tecniche di mappatura. Al contrario, "E5-large-v2" sottoperforma costantemente in accuratezza.

Direzioni Future

Una sfida significativa rimane nella convalida delle metodologie di mappatura a causa dell'assenza di set di dati etichettati completi. Per affrontare ciò, gli sforzi guidati dalla comunità sono fondamentali per creare e mantenere un set di dati etichettato che definisca accuratamente le relazioni tra CAPEC e ATT&CK.

Il lavoro futuro si concentrerà ulteriormente sul perfezionamento dei nostri approcci di mappatura, possibilmente incorporando tecniche di convalida più avanzate e indicazioni di esperti per migliorare l'affidabilità e l'accuratezza. Inoltre, prevediamo di estendere la nostra ricerca per prevedere mappature tra altre fonti di conoscenza, fornendo una visione più esaustiva dei rischi informatici.

In conclusione, il nostro studio offre una valutazione approfondita dei metodi di mappatura tra diverse tassonomie nella cybersecurity. Sfruttando modelli di linguaggio avanzati, possiamo creare connessioni più efficaci tra le fonti di dati, aprendo la strada per migliori valutazioni dei rischi e strategie di mitigazione nel panorama in continua evoluzione delle minacce informatiche.

Fonte originale

Titolo: Cyber Knowledge Completion Using Large Language Models

Estratto: The integration of the Internet of Things (IoT) into Cyber-Physical Systems (CPSs) has expanded their cyber-attack surface, introducing new and sophisticated threats with potential to exploit emerging vulnerabilities. Assessing the risks of CPSs is increasingly difficult due to incomplete and outdated cybersecurity knowledge. This highlights the urgent need for better-informed risk assessments and mitigation strategies. While previous efforts have relied on rule-based natural language processing (NLP) tools to map vulnerabilities, weaknesses, and attack patterns, recent advancements in Large Language Models (LLMs) present a unique opportunity to enhance cyber-attack knowledge completion through improved reasoning, inference, and summarization capabilities. We apply embedding models to encapsulate information on attack patterns and adversarial techniques, generating mappings between them using vector embeddings. Additionally, we propose a Retrieval-Augmented Generation (RAG)-based approach that leverages pre-trained models to create structured mappings between different taxonomies of threat patterns. Further, we use a small hand-labeled dataset to compare the proposed RAG-based approach to a baseline standard binary classification model. Thus, the proposed approach provides a comprehensive framework to address the challenge of cyber-attack knowledge graph completion.

Autori: Braden K Webb, Sumit Purohit, Rounak Meyur

Ultimo aggiornamento: 2024-09-24 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2409.16176

Fonte PDF: https://arxiv.org/pdf/2409.16176

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili