Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico# Intelligenza artificiale# Crittografia e sicurezza

Il Ruolo Critico della Casualità nella Sicurezza del Machine Learning

Esaminando come la casualità influisce sulle vulnerabilità dell'apprendimento automatico e la necessità di standard migliori.

― 8 leggere min


Vulnerabilità allaVulnerabilità allacasualità nei sistemi diMLnell'apprendimento automatico.Affrontare i rischi di scarsa casualità
Indice

La casualità gioca un ruolo importante in molte aree del machine learning (ML), inclusi il miglioramento dei modelli, la selezione dei dati e la garanzia di privacy e sicurezza. Tuttavia, ci sono preoccupazioni riguardo alla qualità della casualità in questi sistemi. Molti sistemi ML si affidano a Generatori di numeri casuali (RNG) per la casualità senza controllare attentamente quanto siano efficaci questi generatori. Una scarsa casualità può portare a vulnerabilità, facilitando il lavoro degli attaccanti nell'attaccare i sistemi ML.

Storicamente, gli attaccanti hanno approfittato della debolezza della casualità. Ad esempio, ci sono stati casi in cui agenzie governative hanno manomesso gli RNG per violare le protezioni crittografiche. Questo documento esamina come gli attaccanti potrebbero sfruttare le debolezze nella casualità per compromettere i sistemi ML, concentrandosi particolarmente su una tecnica chiamata smoothing randomizzato, comunemente usata per migliorare la sicurezza e l'affidabilità dei modelli ML.

Lo smoothing randomizzato di solito implica l'aggiunta di rumore gaussiano ai punti dati, il che aiuta a valutare se un modello può resistere a tentativi di fuorviarlo tramite esempi avversari. Questi esempi avversari sono input creati con cura per ingannare il modello facendogli fare previsioni errate. Il processo di aggiunta di rumore è inteso a fornire un buffer contro tali attacchi.

Questo documento presenta un nuovo tipo di attacco che prende di mira direttamente il generatore di numeri casuali. Manipolando la casualità su cui un modello si basa, un attaccante può creare false certificazioni sulla robustezza del modello. Questo significa che un modello può sembrare più sicuro di quanto non sia realmente, o meno sicuro in altri casi. Questa manipolazione non è facile da rilevare e può avere un impatto significativo sull'affidabilità del sistema ML.

L'importanza della casualità nel machine learning

La casualità è essenziale in vari aspetti del ML. Aiuta nella selezione degli utenti nell'apprendimento federato, contribuendo a garantire una rappresentazione diversificata dei partecipanti e riducendo i pregiudizi. Nell'ottimizzazione, algoritmi come lo Stochastic Gradient Descent (SGD) dipendono dalla casualità per prendere le migliori decisioni durante l'addestramento. La casualità è anche fondamentale nella selezione di campioni rappresentativi di dati per l'addestramento dei modelli e in metodi come le simulazioni Monte Carlo.

L'apprendimento attivo, dove l'algoritmo sceglie i campioni più informativi per l'etichettatura, si basa sulla casualità per minimizzare i costi. In termini di privacy, la casualità è vitale per la Privacy Differenziale, che cerca di aggiungere rumore ai dati in modo da proteggere la privacy individuale ma consentire comunque un'analisi accurata. Inoltre, la casualità è usata nella generazione di dati sintetici, che può espandere i set di addestramento e migliorare le capacità di generalizzazione dei modelli ML.

Nonostante la sua importanza, le vulnerabilità derivanti da standard di casualità deboli non sono state affrontate adeguatamente. C'è bisogno di indagare su come i cambiamenti ai generatori di numeri casuali possano influenzare i processi decisionali critici nel ML. Questo documento si concentra in particolare su una tecnica comune usata per comprendere l'incertezza, anche se non è principalmente riconosciuta come tale nella letteratura.

Attacchi basati sulla casualità

In questo articolo, vengono esplorati due tipi di attacchi sullo smoothing randomizzato. Il primo è un attacco di base che sostituisce una distribuzione gaussiana con un altro tipo di distribuzione di rumore, come la distribuzione di Laplace, per interrompere l'affidabilità delle stime di fiducia del modello. Anche se questo metodo iniziale è relativamente semplice e può essere rilevato, mostra la fattibilità di sfruttare la casualità.

Il secondo attacco è più sofisticato, modificando solo un bit nell'output del generatore di numeri casuali. Questo tipo di attacco di bit-flipping può portare a errori significativi nei giudizi riguardanti la fiducia di un modello, rendendo difficile per i difensori identificare quando è stato eseguito un attacco. Tali attacchi dimostrano l'inadeguatezza degli standard attuali e delle difese nel tutelare contro le minacce che prendono di mira la casualità utilizzata nel machine learning.

Tecnica di smoothing randomizzato

Lo smoothing randomizzato è una tecnica che analizza come i cambiamenti agli input possono influenzare le previsioni del modello campionando rumore attorno ai punti di input. L'obiettivo è creare una rete di sicurezza contro gli esempi avversari. Comporta l'aggiunta di rumore gaussiano isotropo ai punti dati per capire quanto disturbo un modello può tollerare senza cambiare le sue previsioni.

Sebbene lo smoothing randomizzato sia diventato un modo comune per garantire la robustezza di un modello, è stata prestata poca attenzione alla qualità del rumore gaussiano utilizzato. Ad esempio, campionare il rumore in modo inadeguato potrebbe portare a certificazioni improprie della sicurezza del modello contro gli attacchi avversari.

Questo articolo aumenta la consapevolezza su come gli attaccanti possano sfruttare i generatori di numeri casuali e propone che vengano adottate misure più robuste per migliorare gli standard di casualità nel machine learning.

Comprendere i meccanismi di attacco

Il primo metodo di attacco, pur essendo diretto, dimostra come la sostituzione di una distribuzione di rumore possa portare a risultati fuorvianti. Ad esempio, passare da una distribuzione gaussiana a una di Laplace può distorcere i livelli di fiducia stimati per le previsioni del modello, causando potenzialmente sovrastime o sottostime della robustezza.

Il secondo attacco, l'attacco di bit-flipping, opera alterando i bit in uscita dal generatore di numeri casuali. Cambiando solo un bit su ogni 64, un attaccante può ottenere una significativa misquantificazione dei livelli di fiducia nelle previsioni di un modello. Questa modifica è sotterranea e non attiva i meccanismi di rilevamento tradizionali, evidenziando la necessità di migliorare i test e gli standard per gli RNG.

L'importanza del testing della casualità

Gli standard attuali nel testing della casualità, come quelli consigliati dal National Institute of Standards and Technology (NIST), non coprono adeguatamente le sfide uniche affrontate nel machine learning. I test sono principalmente progettati per applicazioni crittografiche e potrebbero non catturare efficacemente i tipi di fallimenti nella casualità che si verificano nei sistemi ML. Le inadeguatezze di questi test offrono un'apertura per gli avversari che cercano di sfruttare la casualità negli ambienti ML.

Ad esempio, molti test sul rumore raccomandati dal NIST non riescono a catturare gli attacchi presentati qui, poiché si basano su parametri standard che non possono rilevare manipolazioni sottili nella casualità generata. Questo documento sostiene una rivalutazione e modernizzazione degli standard di testing della casualità per adattarli meglio alle esigenze delle applicazioni ML, in particolare quelle critiche per la sicurezza e la protezione.

Esplorare le difese contro gli attacchi alla casualità

In considerazione degli attacchi presentati, è cruciale considerare come i professionisti del machine learning possano difendersi dalle potenziali vulnerabilità associate alla casualità. Il primo passo è assicurarsi che qualsiasi framework di generazione di casualità venga scrutato attentamente per le vulnerabilità. Le organizzazioni dovrebbero migliorare la loro comprensione degli strumenti che utilizzano e delle potenziali debolezze che potrebbero trovarsi al loro interno.

Un modo per migliorare le difese è incorporare ulteriori test e controlli. Un testing della casualità più completo che si allinei con i requisiti specifici del machine learning potrebbe aiutare a rilevare quando la casualità è stata compromessa. Questo include lo sviluppo di valutazioni su misura per i tipi di distribuzioni di rumore comunemente utilizzate nei sistemi ML.

Un altro approccio potrebbe comportare l'implementazione di algoritmi più avanzati per generare numeri casuali che enfatizzino l'affidabilità rispetto alla velocità. Garantendo che la casualità utilizzata nei modelli sia robusta, potrebbe essere più facile prevenire sfruttamenti da parte degli attaccanti.

La richiesta di migliori standard nel ML

I risultati in questo articolo rivelano un significativo divario negli standard attuali per la casualità nel machine learning. Man mano che i modelli diventano sempre più complessi e si affidano maggiormente a elementi casuali, è essenziale stabilire linee guida e migliori pratiche più chiare.

Per raggiungere questo obiettivo, la comunità ML deve impegnarsi in discussioni aperte sui rischi associati alla casualità e su come sviluppare misure di sicurezza che affrontino specificamente questi rischi. Questo include definire cosa significhi casualità sicura nel contesto del ML e come dovrebbe essere valutata.

Inoltre, le organizzazioni dovrebbero essere incoraggiate a collaborare e condividere intuizioni sulle migliori pratiche per garantire una casualità sicura. Lavorando insieme, la comunità può creare una comprensione condivisa dell'importanza di robuste norme sulla casualità nel machine learning.

Conclusione: andare avanti

Sebbene la casualità sia vitale per il funzionamento del machine learning, le vulnerabilità poste da standard di casualità scarsi necessitano di maggiore attenzione. Come dimostrato negli esempi discussi, gli attaccanti possono manipolare la casualità per minare l'efficacia e l'affidabilità dei sistemi ML.

Per mitigare questi rischi, è cruciale rivalutare gli attuali standard di testing per la casualità nel machine learning, adottare nuove pratiche e sviluppare RNG più robusti. In questo modo, il campo può migliorare la sicurezza e la resilienza delle applicazioni di machine learning, assicurandosi che rimangano affidabili e sicure in vari contesti reali.

La ricerca in corso dovrebbe concentrarsi sull'esplorazione di nuovi vettori di attacco mirati alla casualità nel ML e cercare di stabilire difese più forti. Questo documento funge da invito all'azione per ricercatori, professionisti e organizzazioni affinché diano priorità all'integrità della casualità all'interno dei sistemi di machine learning, puntando a standard e pratiche migliori che possano resistere a minacce potenziali.

In conclusione, la casualità nel machine learning non dovrebbe essere una questione secondaria. Affrontare le vulnerabilità legate alla casualità è essenziale per garantire il futuro del machine learning e delle sue applicazioni.

Fonte originale

Titolo: Machine Learning needs Better Randomness Standards: Randomised Smoothing and PRNG-based attacks

Estratto: Randomness supports many critical functions in the field of machine learning (ML) including optimisation, data selection, privacy, and security. ML systems outsource the task of generating or harvesting randomness to the compiler, the cloud service provider or elsewhere in the toolchain. Yet there is a long history of attackers exploiting poor randomness, or even creating it -- as when the NSA put backdoors in random number generators to break cryptography. In this paper we consider whether attackers can compromise an ML system using only the randomness on which they commonly rely. We focus our effort on Randomised Smoothing, a popular approach to train certifiably robust models, and to certify specific input datapoints of an arbitrary model. We choose Randomised Smoothing since it is used for both security and safety -- to counteract adversarial examples and quantify uncertainty respectively. Under the hood, it relies on sampling Gaussian noise to explore the volume around a data point to certify that a model is not vulnerable to adversarial examples. We demonstrate an entirely novel attack, where an attacker backdoors the supplied randomness to falsely certify either an overestimate or an underestimate of robustness for up to 81 times. We demonstrate that such attacks are possible, that they require very small changes to randomness to succeed, and that they are hard to detect. As an example, we hide an attack in the random number generator and show that the randomness tests suggested by NIST fail to detect it. We advocate updating the NIST guidelines on random number testing to make them more appropriate for safety-critical and security-critical machine-learning applications.

Autori: Pranav Dahiya, Ilia Shumailov, Ross Anderson

Ultimo aggiornamento: 2024-02-10 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.14043

Fonte PDF: https://arxiv.org/pdf/2306.14043

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili