Valutare gli attacchi di evasione nel machine learning
Un nuovo modello svela i fattori chiave per il successo degli attacchi di evasione.
― 6 leggere min
Indice
Gli Attacchi di evasione sono una grande preoccupazione nei sistemi di machine learning. Questi attacchi avvengono quando qualcuno cerca di ingannare un modello di machine learning cambiando l'input in un modo che causa errori. Ad esempio, un attaccante potrebbe modificare un'immagine o un testo in modo che un modello lo classifichi male.
Un aspetto importante di questi attacchi è che a volte possono ingannare non solo il modello usato per creare l'input dell'attacco, ma anche altri modelli. Questa capacità di ingannare altri modelli è conosciuta come trasferibilità. Ciò significa che un attaccante può creare input dannosi usando un modello e poi usare quegli stessi input per ingannare un altro modello, spesso senza sapere nulla su come funziona quel secondo modello.
Tuttavia, la maggior parte degli studi che si occupano di questo problema non sono realistici. Spesso assumono che attaccanti e difensori condividano gli stessi dati o modelli, cosa che di solito non è vera. Questo documento si propone di fornire una comprensione migliore degli attacchi di evasione introducendo un nuovo approccio che considera questi fattori reali.
Il Modello DUMB dell'Attaccante
Per analizzare quanto bene questi attacchi possano trasferirsi da un modello all'altro, introduciamo il modello DUMB per gli attaccanti. DUMB sta per Fonti dei Dataset, Architettura del Modello e Bilanciamento della Verità di Base. Ognuno di questi fattori può influenzare significativamente il successo di un attacco.
Fonti dei Dataset: L'origine dei dati usati dall'attaccante può differire da quelli usati dalla vittima. Ad esempio, un attaccante potrebbe raccogliere dati da Google mentre la vittima usa dati da Bing. Se i dataset sono diversi, l'efficacia dell'attacco può diminuire.
Architettura del Modello: Gli attaccanti spesso usano modelli diversi. Alcuni modelli possono essere semplici, mentre altri possono essere complessi. Queste differenze possono anche influenzare quanto bene un attacco si trasferisce. In generale, se i modelli usati dall'attaccante e dalla vittima sono simili, è più probabile che l'attacco abbia successo.
Bilanciamento della Verità di Base: La distribuzione delle classi nei dati di addestramento può variare. Ad esempio, in un dataset destinato a identificare se una frase è odiosa o meno, potrebbero esserci molti più esempi non odiosi rispetto a quelli odiosi. Quando le distribuzioni delle classi non sono uguali, questo squilibrio può influenzare le prestazioni dell'attacco.
Tenendo conto di questi tre aspetti, il modello DUMB fornisce un quadro più realistico per comprendere gli attacchi di evasione.
Panoramica del Testbed
Per testare il nostro modello DUMB, abbiamo creato un testbed composto da vari compiti finalizzati a valutare la trasferibilità. Ci siamo concentrati su tre compiti di visione artificiale: distinguere tra biciclette e motociclette, gatti e cani, e uomini e donne. Per ciascuno di questi compiti, abbiamo raccolto immagini da due fonti: Bing e Google. Abbiamo anche creato quattro diversi livelli di bilanciamento per rappresentare come le classi potrebbero essere distribuite nei dataset del mondo reale.
I nostri esperimenti hanno coinvolto un totale di 13.000 test attraverso diversi attacchi. Abbiamo valutato sia attacchi di evasione popolari sia semplici trasformazioni di immagine per vedere quanto bene si trasferivano tra i diversi modelli.
Risultati Chiave
La nostra ampia sperimentazione ha portato a diverse conclusioni importanti su come funzionano gli attacchi di evasione in scenari reali.
Impatto delle Prestazioni del Modello
Una scoperta notevole è stata che i modelli ad alte prestazioni tendono ad essere più resistenti agli attacchi. Se un modello è molto bravo a distinguere tra classi, come identificare correttamente le biciclette, è più difficile per un attaccante ingannarlo. Al contrario, quando un modello ha difficoltà con un compito, diventa più vulnerabile agli attacchi. Questo suggerisce che gli attaccanti potrebbero trovare più facile avere successo contro modelli generalmente meno capaci.
Importanza delle Condizioni Corrette
Un'altra intuizione chiave è che quando le condizioni in cui viene progettato un attacco non corrispondono a quelle del modello target, l'efficacia dell'attacco diminuisce. Ad esempio, se un attaccante usa un dataset di Google per creare un attacco destinato a ingannare un modello addestrato sul dataset di Bing, l'attacco potrebbe non funzionare altrettanto bene.
Effetti dello Sbilanciamento delle Classi
Abbiamo anche osservato che lo sbilanciamento delle classi gioca un ruolo significativo in quanto bene gli attacchi possono trasferirsi. Ad esempio, quando gli attaccanti hanno preso di mira la classe minoritaria in un dataset altamente sbilanciato, come un dataset con pochissimi esempi odiosi rispetto a un gran numero di esempi non odiosi, gli attacchi sono stati spesso più efficaci. Questo evidenzia il fatto che quando le classi in un dataset sono distribuite in modo disuguale, gli attaccanti possono trovare alcuni obiettivi più facili da attaccare.
Diversi Tipi di Attacchi
I nostri test includevano sia attacchi matematici che non matematici. Gli attacchi matematici si basano su algoritmi che ottimizzano le modifiche agli input, mentre gli attacchi non matematici usano trasformazioni più semplici, come sfocature o cambi di colore.
Interessantemente, abbiamo scoperto che gli attacchi non matematici erano a volte sorprendentemente efficaci, specialmente quando le condizioni non erano favorevoli per gli attacchi matematici. Questo indica che tecniche semplici possono comunque rappresentare minacce reali, anche quando sono disponibili attacchi più complessi.
Sfide nella Realizzazione di Attacchi di Evasione
Nonostante le intuizioni ottenute, condurre attacchi di evasione in scenari reali comporta una serie di sfide.
Accesso ai Modelli delle Vittime: Nelle circostanze reali, gli attaccanti spesso non hanno accesso al modello della vittima o ai dati su cui è stato addestrato. Devono fare affidamento su proxy, il che può portare a incertezze su quanto saranno efficaci i loro attacchi.
Generazione dei Dati: Creare un dataset da usare per addestrare un modello sostitutivo può essere difficile, soprattutto se l'attaccante non è sicuro di come sia fatto il dato della vittima. La generazione di dati richiede molto sforzo e conoscenza del dominio.
Differenze nel Preprocessing: Modelli diversi possono utilizzare vari metodi di preprocessing, il che può complicare ulteriormente quanto bene gli attacchi si trasferiscono. Se un attaccante non è a conoscenza di come il modello della vittima elabora gli input, potrebbe minare i suoi tentativi di evasione.
Conclusione
In conclusione, gli attacchi di evasione pongono rischi significativi ai sistemi di machine learning, specialmente man mano che questi sistemi diventano più prevalenti in varie applicazioni. La nostra esplorazione del modello DUMB per gli attaccanti ha rivelato diversi fattori critici che influenzano la trasferibilità di questi attacchi. Considerando le fonti dei dataset, l'architettura del modello e il bilanciamento della verità di base, possiamo comprendere meglio le condizioni in cui gli attacchi possono avere successo o fallire.
La ricerca futura dovrebbe costruire sui nostri risultati per esaminare ulteriormente le sfumature della trasferibilità avversa. Comprendere come difendersi da questi attacchi è altrettanto cruciale, poiché i sistemi di machine learning diventano sempre più integrati nella vita quotidiana.
Titolo: Your Attack Is Too DUMB: Formalizing Attacker Scenarios for Adversarial Transferability
Estratto: Evasion attacks are a threat to machine learning models, where adversaries attempt to affect classifiers by injecting malicious samples. An alarming side-effect of evasion attacks is their ability to transfer among different models: this property is called transferability. Therefore, an attacker can produce adversarial samples on a custom model (surrogate) to conduct the attack on a victim's organization later. Although literature widely discusses how adversaries can transfer their attacks, their experimental settings are limited and far from reality. For instance, many experiments consider both attacker and defender sharing the same dataset, balance level (i.e., how the ground truth is distributed), and model architecture. In this work, we propose the DUMB attacker model. This framework allows analyzing if evasion attacks fail to transfer when the training conditions of surrogate and victim models differ. DUMB considers the following conditions: Dataset soUrces, Model architecture, and the Balance of the ground truth. We then propose a novel testbed to evaluate many state-of-the-art evasion attacks with DUMB; the testbed consists of three computer vision tasks with two distinct datasets each, four types of balance levels, and three model architectures. Our analysis, which generated 13K tests over 14 distinct attacks, led to numerous novel findings in the scope of transferable attacks with surrogate models. In particular, mismatches between attackers and victims in terms of dataset source, balance levels, and model architecture lead to non-negligible loss of attack performance.
Autori: Marco Alecci, Mauro Conti, Francesco Marchiori, Luca Martinelli, Luca Pajola
Ultimo aggiornamento: 2023-06-27 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.15363
Fonte PDF: https://arxiv.org/pdf/2306.15363
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.