Avanzare nell'Intelligence sulle Minacce Cyber con i Grafi di Attenzione
Un nuovo approccio alla ricerca sul comportamento del malware migliora l'analisi della cybersicurezza.
― 10 leggere min
Indice
- La Sfida dell'Analisi del Malware
- Rapporti sul Malware e le Loro Limitazioni
- Un Nuovo Approccio alla Ricerca dei Comportamenti del Malware
- Contributi della Nostra Ricerca
- Esempio del Mondo Reale
- L'importanza della Ricerca Basata su Grafi
- Valutazione dell'Efficacia
- Studi di Caso sugli Attacchi di Malware
- Efficienza del Metodo
- Conclusione
- Fonte originale
- Link di riferimento
Gli attacchi informatici stanno diventando un grosso problema nel mondo di oggi, causando oltre un trilione di dollari di perdite ogni anno. Una parte fondamentale per rispondere a questi attacchi è catturare i colpevoli e capire come funziona il loro malware. Questo processo è conosciuto come analisi forense degli attacchi. Gli esperti di cybersecurity devono analizzare i comportamenti del malware e identificare da dove proviene. Purtroppo, molti dei metodi attuali per analizzare il malware forniscono solo informazioni parziali. Questo è spesso dovuto ai modi astuti in cui il malware si traveste o nasconde le sue azioni malevole.
Per affrontare questa sfida, gli analisti di cybersecurity utilizzano spesso tecniche di ricerca testuale. Cercano rapporti esistenti sul malware che includono sintomi o comportamenti simili a quelli che stanno osservando. Questo perché il malware proveniente dalla stessa fonte ha spesso tratti comuni. In questo articolo, proponiamo un nuovo modo di cercare comportamenti del malware che si basa su un metodo chiamato isomorfismo di grafi attenzione. Questo metodo è incorporato nei modelli Transformer, che sono un tipo di intelligenza artificiale avanzata.
La Sfida dell'Analisi del Malware
Capire come si comporta il malware e da dove proviene è essenziale per la cybersecurity. L'analisi forense degli attacchi di solito inizia con un campione di malware trovato in natura. Gli analisti usano strumenti come IDA per esaminare il codice e impiegano tecniche di sandboxing per osservare come il malware si comporta in un ambiente controllato. Questo processo aiuta a individuare i danni causati e a prevenire futuri attacchi.
Tuttavia, i creatori di malware spesso includono caratteristiche che proteggono i loro programmi, rendendoli complicati da analizzare. Alcuni malware usano l'offuscamento, che cambia il proprio codice per mascherare il vero scopo, mentre le tecniche di occultamento nascondono azioni dannose fino a quando certe condizioni non vengono soddisfatte. Di conseguenza, gli analisti possono vedere solo una parte di ciò che il malware può fare.
A causa di queste sfide, gli esperti si affidano molto alla ricerca testuale per trovare rapporti correlati sul comportamento del malware. Questo processo è guidato dalle azioni specifiche che osservano, come il furto di dati o il sabotaggio del sistema. Il ragionamento è che molti attacchi informatici sono pianificati ed eseguiti in modi simili, specialmente quelli provenienti dallo stesso gruppo di aggressori. Così, studiando i rapporti esistenti, gli analisti possono fare congetture educate su nuovi malware basati su caratteristiche condivise.
Rapporti sul Malware e le Loro Limitazioni
Molte aziende di cybersecurity hanno pubblicato numerosi rapporti sull'analisi del malware. Questi rapporti potrebbero fornire preziose informazioni per future indagini, ma spesso sono difficili da utilizzare al loro pieno potenziale. Questo è principalmente perché questi rapporti non sono standardizzati; mancano di struttura e chiunque può presentarli.
Il problema centrale risiede in una sfida specializzata di ricerca testuale, nota come ricerca di intelligence sulle minacce informatiche (CTI). La ricerca CTI affronta due principali ostacoli: (1) è difficile creare modelli di apprendimento supervisionato perché non ci sono abbastanza set di dati etichettati, e (2) i modelli di lingua generale esistenti faticano a catturare i termini e i significati unici pertinenti al campo della cybersecurity. Anche piccole variazioni nella formulazione possono produrre enormi differenze nel significato che possono complicare l'analisi.
Ad esempio, il termine "file" potrebbe significare due cose molto diverse a seconda del contesto: potrebbe riferirsi a dati che vengono rubati o a un programma che viene sfruttato. Il metodo più comune per cercare rapporti sul malware è attraverso indicatori di compromesso (IoC), come gli hash dei file. Anche se questo metodo è preciso, non funziona bene contro il noto problema della mutazione del malware, dove il malware cambia spesso il proprio aspetto per evitare di essere scoperto.
Un altro metodo si basa sulla somiglianza del testo, suddividendosi in metodi basati su parole chiave e metodi di embedding delle frasi. I metodi basati su parole chiave si concentrano su termini specifici ma non riescono a catturare le relazioni tra questi termini. D'altro canto, gli embedding delle frasi spesso si distraggono con parole meno rilevanti, complicando ulteriormente l'analisi.
Un Nuovo Approccio alla Ricerca dei Comportamenti del Malware
Proponiamo un nuovo metodo per la ricerca CTI basato sull'isomorfismo di grafi, che è il concetto di identificare schemi nei grafi. Creando un ampio database di rapporti CTI passati provenienti da varie aziende di sicurezza, la nostra tecnica può catturare meglio i significati unici dei termini utilizzati nel dominio della cybersecurity.
Il database include anni di rapporti dettagliati che documentano vari comportamenti del malware. Dopo aver addestrato un modello di linguaggio mascherato, che è un tipo di Modello Transformer, abbiamo scoperto che questo modello può concentrarsi su parole cruciali e le loro interconnessioni in modo efficace.
Invece di fare affidamento su embedding pre-addestrati generali, che possono essere eccessivamente rumorosi a causa dell'immensità del linguaggio naturale, creiamo un grafico di attenzione. In questo grafico, ogni parola è rappresentata come un nodo, e colleghiamo quei nodi se i loro punteggi di attenzione sono sopra una certa soglia. Utilizziamo quindi questo grafico per determinare la somiglianza tra diversi rapporti CTI.
Contributi della Nostra Ricerca
La nostra ricerca presenta alcuni contributi chiave:
Raccolta Dati: Abbiamo raccolto un volume significativo di rapporti CTI da fonti fidate, creando una risorsa preziosa per future ricerche.
Nuovo Metodo di Ricerca: Abbiamo sviluppato un metodo di ricerca unico basato su grafi di attenzione, su misura per i termini e i significati specifici utilizzati nei rapporti CTI.
Valutazione delle Prestazioni: Confrontando il nostro metodo con tecniche esistenti come doc2vec (una tecnica di embedding delle frasi) e metodi di somiglianza basati su parole chiave, abbiamo scoperto che il nostro approccio ha costantemente superato queste alternative.
In uno studio di dieci incidenti di malware nel mondo reale, il nostro metodo è stato in grado di abbinare otto di quei casi alle fonti originali con precisione. Al contrario, le ricerche effettuate utilizzando Google hanno identificato correttamente solo tre di quelle origini.
Esempio del Mondo Reale
Uno degli incidenti reali che evidenzia l'importanza di tecniche di ricerca efficaci ha coinvolto un attacco informatico a una centrale nucleare in India. Questo attacco è avvenuto nel 2019 e ha coinvolto più fasi. Gli aggressori hanno prima ottenuto accesso a diversi computer sfruttando una vulnerabilità e poi hanno mantenuto un profilo basso mentre compromettevano ulteriori sistemi. Questo tipo di minaccia persistente avanzata (APT) può richiedere giorni o settimane per svilupparsi completamente, con il carico finale consegnato giorni dopo l'intrusione iniziale.
Dopo questo attacco, gli analisti hanno osservato comportamenti insoliti nei sistemi ma hanno avuto difficoltà a risalire a un gruppo specifico di aggressori. Hanno scoperto un file malware eseguibile utilizzato nei primi passi dell'attacco, che ha permesso loro di identificare alcuni comportamenti associati. Tuttavia, queste informazioni da sole non erano sufficienti per scoprire le origini o i motivi dell'attacco.
Tipicamente, gli analisti inizierebbero cercando l'hash del file su piattaforme come VirusTotal. In questo caso, non sono stati trovati abbinamenti poiché il malware non era stato inviato prima dell'attacco. Gli analisti hanno quindi cercato rapporti correlati utilizzando i comportamenti osservati ma hanno ottenuto risultati insoddisfacenti. Molti dei rapporti recuperati non sembravano pertinenti all'incidente.
Immagina se avessero usato la nostra tecnica di ricerca. Cercando i comportamenti osservati, avrebbero potuto recuperare diversi rapporti pertinenti da attacchi precedenti collegati allo stesso gruppo di minaccia. Queste informazioni li avrebbero indirizzati verso il gruppo Lazarus come un sospetto probabile, basato sulle somiglianze nei metodi e obiettivi degli attacchi.
L'importanza della Ricerca Basata su Grafi
La ricerca basata su grafi ha vantaggi significativi. Permette una comprensione più sfumata delle relazioni tra parole e concetti all'interno dei rapporti sul malware. Catturando queste informazioni, gli analisti possono stabilire connessioni che potrebbero sfuggire utilizzando metodi tradizionali. Questo è particolarmente utile quando il linguaggio usato nei rapporti varia o quando lievi differenze nella formulazione cambiano il significato dei comportamenti.
Il nostro approccio utilizza l'auto-attenzione dei modelli Transformer, che aiuta a identificare non solo connessioni dirette tra le parole ma anche relazioni più complesse. Questo significa che possiamo generare una rappresentazione più accurata dei comportamenti discussi in un dato rapporto, portando infine a risultati di ricerca migliorati.
Valutazione dell'Efficacia
Per misurare l'efficacia del nostro metodo di ricerca, abbiamo condotto una serie di esperimenti. Abbiamo valutato quanto bene il nostro metodo ha funzionato rispetto a quelli esistenti, tenendo conto di metriche come precisione e richiamo. Queste metriche aiutano a determinare quanti rapporti rilevanti sono stati recuperati e quanti rapporti irrilevanti sono stati inclusi nei risultati.
Le nostre valutazioni sono state condotte utilizzando due set di dati, che includevano anche dizionari comportamentali e descrizioni di casi reali di malware. Per ciascun comportamento, abbiamo preso in considerazione sia i casi di vero positivo che selezioni casuali di altri comportamenti per testare l'accuratezza del nostro metodo.
I risultati hanno mostrato che il nostro metodo ha superato significativamente le alternative esistenti. Ha ottenuto il punteggio F1 più alto, una misura dell'accuratezza di un test che bilancia sia precisione che richiamo.
Studi di Caso sugli Attacchi di Malware
In una serie di studi di caso, abbiamo esaminato come il nostro metodo di ricerca ha aiutato a identificare le origini di attacchi recenti. Abbiamo selezionato casualmente dieci attacchi notevoli e abbiamo usato il nostro metodo per cercare i loro comportamenti all'interno della nostra collezione di rapporti CTI.
I risultati sono stati rivelatori; il nostro metodo ha identificato con successo le origini corrette di otto di quegli attacchi, mentre metodi tradizionali come le ricerche Google hanno solo individuato tre. Questo dimostra come un metodo di ricerca più sfumato e mirato possa portare a una attribuzione più chiara degli attacchi a specifici attori o gruppi di minaccia.
Efficienza del Metodo
Oltre all'efficacia, abbiamo anche valutato l'efficienza del nostro metodo di ricerca. Abbiamo implementato varie ottimizzazioni progettate per migliorare le prestazioni e ridurre i tempi di ricerca. Questo includeva tecniche per memorizzare in cache i grafi e raggruppare le frasi per filtrare gli elementi non correlati.
Senza queste ottimizzazioni, le prime versioni del nostro sistema potevano richiedere ore per elaborare grandi set di dati. Tuttavia, grazie ai nostri miglioramenti, abbiamo ridotto significativamente i tempi di ricerca, rendendoli comparabili a metodi più semplici basati sul matching delle parole.
Conclusione
La nostra ricerca introduce un approccio innovativo alla ricerca di intelligence sulle minacce informatiche attraverso l'isomorfismo di grafi di attenzione. Catturando in modo efficace le uniche semantiche del linguaggio specifico della cybersecurity, abbiamo dimostrato che il nostro metodo può migliorare significativamente il recupero di rapporti rilevanti.
I nostri studi di caso dimostrano applicazioni nel mondo reale, evidenziando come il nostro metodo di ricerca possa migliorare il lavoro degli analisti di cybersecurity nell'identificare le origini del malware e comprendere i comportamenti degli attacchi. Con l'aumento della complessità delle minacce informatiche, l'adozione di metodi avanzati come il nostro potrebbe rivelarsi fondamentale per restare un passo avanti rispetto agli aggressori.
In futuro, intendiamo continuare a perfezionare il nostro approccio, espandere i nostri set di dati e esplorare ulteriormente il potenziale dei metodi basati su grafi nel campo della cybersecurity. Questa ricerca non è solo un esercizio accademico; ha implicazioni pratiche e può essere critica nella lotta contro il crimine informatico.
Titolo: Threat Behavior Textual Search by Attention Graph Isomorphism
Estratto: Cyber attacks cause over \$1 trillion loss every year. An important task for cyber security analysts is attack forensics. It entails understanding malware behaviors and attack origins. However, existing automated or manual malware analysis can only disclose a subset of behaviors due to inherent difficulties (e.g., malware cloaking and obfuscation). As such, analysts often resort to text search techniques to identify existing malware reports based on the symptoms they observe, exploiting the fact that malware samples share a lot of similarity, especially those from the same origin. In this paper, we propose a novel malware behavior search technique that is based on graph isomorphism at the attention layers of Transformer models. We also compose a large dataset collected from various agencies to facilitate such research. Our technique outperforms state-of-the-art methods, such as those based on sentence embeddings and keywords by 6-14%. In the case study of 10 real-world malwares, our technique can correctly attribute 8 of them to their ground truth origins while using Google only works for 3 cases.
Autori: Chanwoo Bae, Guanhong Tao, Zhuo Zhang, Xiangyu Zhang
Ultimo aggiornamento: 2024-04-18 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2404.10944
Fonte PDF: https://arxiv.org/pdf/2404.10944
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.