Rafforzare la sicurezza degli utenti con gli autoencoder
Gli autoencoder migliorano la rilevazione di comportamenti insoliti degli utenti nei log di Okta.
Jericho Cain, Hayden Beadles, Karthik Venkatesan
― 6 leggere min
Indice
- Il Problema con i Registri di Okta
- Entrano in Gioco gli Autoencoder
- Raccolta dei Dati Giusti
- Preparazione dei Dati
- Costruzione dell'Autoencoder
- Addestramento del Modello
- Cosa Succede Dopo l'Addestramento?
- Valutazione dei Risultati
- Il Potere delle Anomalie nella Località
- Prossimi Passi
- Conclusione
- Fonte originale
- Link di riferimento
Nel mondo digitale di oggi, tenere traccia delle attività degli utenti è fondamentale per la sicurezza. Una piattaforma che aiuta le aziende a fare questo è Okta, che gestisce l'accesso e l'autenticazione degli utenti. Tuttavia, gli strumenti integrati di Okta possono perdere alcune attività insolite perché si basano su regole fisse e dati limitati. Per rimediare a questo, introduciamo un trucco geniale chiamato Autoencoder, un tipo di IA che ci aiuta a individuare comportamenti strani nei Registri degli utenti.
Il Problema con i Registri di Okta
I registri di Okta vengono utilizzati per monitorare segnali di problemi come tentativi di hacking. I metodi tradizionali dipendono da regole impostate che possono guardare solo un numero ridotto di accessi recenti, solitamente intorno a 20. Questa visione limitata può causare problemi come non notare minacce reali o inviare falsi allarmi quando non c'è nulla di sbagliato.
Ad esempio, se un dipendente di solito accede da Chicago ma un giorno accede da Marte (scherzo!), un sistema basato su regole potrebbe non notare ciò se Marte non era nelle regole preimpostate. Inoltre, è difficile decidere come appare il "normale" quando il comportamento degli utenti può cambiare frequentemente. Quando un sistema è progettato per cercare schemi specifici, potrebbe trascurare le cose strane e bizzarre che possono accadere, come accedere da posti inaspettati o in orari strani.
Entrano in Gioco gli Autoencoder
Gli autoencoder sono strumenti di IA speciali che apprendono dall'attività degli utenti e possono aiutare a creare un quadro più chiaro di come appare il comportamento normale. Analizzano le informazioni sui login passati e poi possono individuare quando qualcosa non si adatta. Il processo implica semplificare i dati di registro in modo che l'autoencoder possa vedere quale comportamento è tipico e quale non lo è.
Per sfruttare al meglio un autoencoder, dobbiamo pulire i dati di registro, eliminando qualsiasi rumore in eccesso che potrebbe confonderlo. È un po' come un detective che deve chiudere la finestra per sentire meglio gli indizi in una stanza rumorosa.
Raccolta dei Dati Giusti
Per individuare comportamenti insoliti, utilizziamo vari punti dati dai registri di Okta, come quando gli utenti effettuano il login, da dove accedono e quali app stanno cercando di utilizzare. Osservando i modelli in questi dati nel tempo, l'autoencoder può imparare cosa è abituale per ogni utente.
Considera un utente che solitamente accede da casa durante l'orario di lavoro. Se all'improvviso prova ad accedere alle 3 del mattino da un caffè dall'altra parte del paese, questo dovrebbe far sollevare qualche sopracciglio. Un autoencoder può aiutare a mettere in evidenza queste stranezze analizzando i dati e determinando come appare il "normale".
Preparazione dei Dati
Prima di fornire i dati all'autoencoder, dobbiamo prepararli. Ciò comporta alcuni passaggi:
-
Selezione degli Eventi Rilevanti: Poiché ci sono tonnellate di eventi diversi nei registri di Okta, ci concentriamo su quelli che contano di più: principalmente i login degli utenti.
-
Raggruppamento delle Località: A volte, le località degli utenti possono essere un po' sparse. Lo semplifichiamo usando il geohashing, che raggruppa le aree in scatole più grandi. Invece di preoccuparci delle coordinate esatte, ci concentriamo sull'area generale. Questo semplifica molto le cose.
-
Categorizzazione delle App: Controlliamo le applicazioni a cui gli utenti accedono e le classifichiamo. Se un utente inizia improvvisamente ad accedere a un'app diversa che non ha mai usato prima, potrebbe essere un segno di problemi.
Costruzione dell'Autoencoder
L'autoencoder funziona con due parti principali: un encoder e un decoder. L'encoder prende i dati puliti e li comprime, mentre il decoder cerca di ricreare i dati originali. Sebbene speriamo in una buona ricostruzione, eventuali differenze significative potrebbero indicare che qualcosa di insolito sta accadendo.
Ecco una metafora divertente: immagina di cercare di mettere tutti i tuoi vestiti in una valigia. Potresti dover schiacciare, piegare e arrotolare le cose. L'autoencoder fa qualcosa di simile; lavora per semplificare i dati mantenendo intatti i pezzi importanti.
Addestramento del Modello
Una volta che l'autoencoder è pronto, lo addestriamo con i dati degli utenti. Eseguiamo più volte il modello, mostrandogli vari comportamenti di login e permettendogli di apprendere i modelli. Durante questo addestramento, possiamo dare un'occhiata a quanto bene fa controllando le sue prestazioni, proprio come un insegnante che valuta il test di uno studente.
-
Campionamento: Raccolgliamo dati da vari utenti campionando la loro cronologia di login. Ciò significa che non stiamo guardando tutti i dati contemporaneamente, ma piuttosto ottenendo un assaggio per comprendere il comportamento generale.
-
Iniezione di Anomalie: Aggiungiamo alcune anomalie di login finte nei dati di validazione per vedere quanto bene il modello riesce a individuarle. Ad esempio, se un utente accede da due località completamente diverse in un breve lasso di tempo, è probabile che ci sia qualcosa di sospetto.
Cosa Succede Dopo l'Addestramento?
Dopo l'addestramento, inseriamo nuovi dati dagli utenti per vedere cosa dice l'autoencoder. Esamina i registri e calcola un punteggio utilizzando ciò che ha appreso. Se il punteggio supera una certa soglia, la segnaliamo come un'anomalia. Se è troppo vicino alla norma, lo consideriamo comportamento tipico.
Valutazione dei Risultati
Una volta che il modello ha segnalato potenziali anomalie, misuriamo le sue prestazioni utilizzando alcune metriche. Ad esempio, calcoliamo quante delle anomalie segnalate erano realmente minacce versus comportamenti erroneamente etichettati. Questo ci dà un quadro più chiaro dell'accuratezza del modello.
-
Vero Positivo: Queste sono le vere minacce che l'autoencoder ha individuato.
-
Falso Positivo: Questi sono i momenti in cui ha lanciato l'allerta quando non c'era nulla di sbagliato.
L'obiettivo è avere un punteggio alto, il che significa che il modello identifica correttamente la maggior parte delle minacce senza allarmarsi troppo spesso.
Il Potere delle Anomalie nella Località
Nella fase di test, è emerso chiaramente che l'autoencoder era particolarmente bravo a individuare anomalie di localizzazione. Se qualcuno accedeva da una località troppo lontana e troppo rapidamente per poterci viaggiare, ciò veniva segnalato come sospetto. Questo è importante perché aiuta a identificare possibili furti di credenziali, dove qualcuno finge di essere l'utente legittimo.
Tuttavia, lo stesso successo non è stato osservato in tutte le caratteristiche, come i tempi degli eventi o i giorni della settimana. È emerso che modificare il nostro modo di guardare a quelle caratteristiche potrebbe migliorare le nostre possibilità di individuare problemi.
Prossimi Passi
I prossimi passi consistono nel perfezionare i metodi esistenti. Ad esempio, vogliamo includere più caratteristiche come il tipo di dispositivo utilizzato o il sistema operativo. È anche importante scalare questo modello per lavorare con più utenti e monitorare le sue prestazioni in tempo reale. Se un utente accede costantemente a un certo orario e poi cambia improvvisamente il proprio orario di login, è un punto da esplorare ulteriormente.
Conclusione
Utilizzare un autoencoder per monitorare il comportamento degli utenti nei registri di Okta può notevolmente aumentare la sicurezza. Questo metodo consente alle aziende di individuare attività sospette che altri sistemi basati su regole potrebbero perdere. Sebbene abbia mostrato una solida capacità di rilevare posizioni strane, c'è ancora margine di miglioramento con altre caratteristiche.
Alla fine, l'obiettivo è mantenere gli utenti al sicuro e protetti, rendendo l'esperienza di accesso il più fluida possibile. Con questi avanzamenti nell'IA e nel machine learning, stiamo alzando il livello nel campo della cybersecurity.
Quindi, ricordate: mentre può essere divertente immaginare di accedere da Marte, è molto più emozionante sapere che possiamo catturare comportamenti così bizzarri sul nostro pianeta natale.
Titolo: Anomaly Detection in OKTA Logs using Autoencoders
Estratto: Okta logs are used today to detect cybersecurity events using various rule-based models with restricted look back periods. These functions have limitations, such as a limited retrospective analysis, a predefined rule set, and susceptibility to generating false positives. To address this, we adopt unsupervised techniques, specifically employing autoencoders. To properly use an autoencoder, we need to transform and simplify the complexity of the log data we receive from our users. This transformed and filtered data is then fed into the autoencoder, and the output is evaluated.
Autori: Jericho Cain, Hayden Beadles, Karthik Venkatesan
Ultimo aggiornamento: 2024-11-11 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2411.07314
Fonte PDF: https://arxiv.org/pdf/2411.07314
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.