Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Crittografia e sicurezza# Visione artificiale e riconoscimento di modelli# Apprendimento automatico

Avanzamenti negli attacchi backdoor su modelli pre-addestrati

TransTroj migliora gli attacchi backdoor, aumentando l'efficacia e la resistenza alla rilevazione.

― 7 leggere min


Nuovo metodo di attaccoNuovo metodo di attaccoBackdoor TransTrojartificiale.resilienti sui modelli di intelligenzaTransTroj presenta attacchi backdoor
Indice

I Modelli pre-addestrati (PTM) vengono spesso utilizzati in tante applicazioni. Tuttavia, se questi modelli non sono affidabili, possono essere attaccati tramite metodi Backdoor. Negli attacchi backdoor, i malintenzionati possono manomettere i PTM per cambiare come si comportano in determinati compiti. Di solito, il backdoor è nascosto e può essere attivato in situazioni specifiche, rendendolo più difficile da rilevare.

I metodi esistenti per attaccare i PTM hanno delle limitazioni. Spesso richiedono conoscenze sui compiti specifici che i modelli svolgeranno. Inoltre, i backdoor possono essere cancellati durante il processo di fine-tuning, dove i modelli si adattano ai nuovi dati. Questo documento discute una nuova tecnica chiamata TransTroj, che mira a rendere gli attacchi backdoor più efficaci e più difficili da eliminare. Si concentra sulla creazione di attacchi backdoor durevoli che funzionano in diversi compiti senza necessità di conoscenza preventiva.

Contesto

I PTM sono modelli addestrati su grandi set di dati, il che consente loro di performare bene in vari compiti. Una volta addestrati, questi modelli possono essere adattati per compiti specifici tramite fine-tuning con set di dati più piccoli. Purtroppo, usare PTM non affidabili può esporre gli utenti a rischi, poiché potrebbero contenere backdoor nascoste che consentono agli attaccanti di controllare come si comporta il modello.

Gli attacchi backdoor tradizionali richiedono dettagli specifici sui compiti per cui i modelli verranno utilizzati. Per esempio, l’attaccante potrebbe aver bisogno di sapere quali dati verranno forniti al modello o come è stato pre-addestrato. Questo rende gli attacchi esistenti meno pratici, dato che gli attaccanti spesso non hanno accesso a queste informazioni. Un approccio più ampio che non sia legato a compiti specifici sarebbe più efficace e costituirebbe una minaccia maggiore.

Alcuni metodi cercano di creare attacchi backdoor che potrebbero funzionare in vari compiti. Lo fanno allineando un trigger con le uscite del PTM per diversi compiti. Tuttavia, questi metodi affrontano comunque delle sfide. Possono facilmente perdere la loro efficacia durante il processo di fine-tuning perché la memoria del modello potrebbe sovrascrivere il backdoor. Inoltre, questi metodi non possono garantire che il backdoor funzioni per tutti i compiti potenziali.

Metodo Proposto: TransTroj

TransTroj punta a migliorare gli attacchi backdoor sui PTM affrontando le carenze menzionate sopra. Mira a creare un backdoor difficile da eliminare, che mantenga la sua efficacia in vari compiti e funzioni bene anche dopo il fine-tuning. Per raggiungere questo obiettivo, il documento introduce un concetto chiamato indistinguibilità dell’incorporamento. Questo significa che il modello non dovrebbe essere in grado di distinguere tra dati normali e dati che contengono un backdoor quando guarda le loro caratteristiche sottostanti.

Per implementare questo, gli autori suddividono il concetto di indistinguibilità dell’incorporamento in due parti: pre-indistinguibilità e post-indistinguibilità. La pre-indistinguibilità garantisce che, prima del fine-tuning, i campioni contaminati e puliti appaiano simili nello spazio delle caratteristiche. La post-indistinguibilità assicura che, dopo il fine-tuning, i campioni contaminati corrispondano ancora ai campioni della classe target.

Il metodo segue un processo in due fasi:

  1. Ottimizzazione del Trigger: Nella prima fase, il metodo crea un insieme di caratteristiche da campioni normali e lavora per far sembrare i campioni contaminati simili a essi. Questo viene fatto ottimizzando un trigger che può essere applicato ai campioni contaminati.

  2. Ottimizzazione del PTM: Nella seconda fase, il metodo fine-tune il PTM usando i campioni contaminati. Durante questo processo, l’obiettivo è mantenere le prestazioni sui campioni puliti simili a quelle di prima, assicurandosi allo stesso tempo che i campioni contaminati siano ancora efficaci.

Ogni fase è cruciale per garantire che il backdoor rimanga attivo ed efficace in diversi compiti.

Setup Sperimentale

Gli autori hanno valutato TransTroj utilizzando vari modelli pre-addestrati, tra cui ResNet, VGG, ViT e CLIP. Hanno condotto test su sei compiti diversi: CIFAR-10, CIFAR-100, GTSRB, Caltech 101, Caltech 256 e Oxford-IIIT Pet. Questa varietà aiuta a dimostrare quanto bene funzioni il metodo in diverse condizioni.

Raccolta Dati

Per prepararsi, gli autori hanno raccolto 10 immagini di riferimento per ciascuna classe target da internet. Hanno anche raccolto un set di dati più grande di 50.000 immagini da ImageNet, che ha servito come set di dati ombra usato per addestrare e testare.

Metriche di Valutazione

Gli autori hanno utilizzato tre metriche principali per valutare le prestazioni del loro metodo:

  1. Accuratezza Pulita (CA): Misura quanto bene il modello si comporta su dati normali, non contaminati.
  2. Tasso di Successo dell'Attacco (ASR): Indica la percentuale di volte in cui il modello con backdoor classifica erroneamente i campioni contaminati come classe target.
  3. Accuratezza con Backdoor (BA): Riflette quanto bene il modello con backdoor performa nei suoi compiti normali, indicando se può comunque raggiungere i suoi obiettivi originali pur avendo un backdoor.

Dettagli di Implementazione

L'impostazione dell'esperimento ha previsto il fine-tuning dei modelli per 20 epoche per valutare durata ed efficacia. Per modelli come ResNet e VGG, è stata utilizzata una velocità di apprendimento di 1e-4. Nel frattempo, per ViT e CLIP, la velocità di apprendimento è stata impostata a 1e-5.

Risultati e Discussione

I risultati hanno mostrato che TransTroj ha superato gli attacchi esistenti, come BadEncoder e NeuBA, in termini di tassi di successo degli attacchi su vari compiti. Ad esempio, BadEncoder spesso raggiungeva tassi inferiori al 10%, mentre TransTroj superava il 99% in molti casi.

Il metodo ha preservato efficacemente l'accuratezza pulita dei modelli downstream, con la differenza tra l'accuratezza con backdoor e quella pulita che di solito rimaneva sotto l'1%. Ci sono stati casi in cui le accuratezze con backdoor hanno persino superato le accuratezze pulite, indicando prestazioni robuste.

Durabilità dell'Attacco

Un aspetto critico dello studio era la durabilità del backdoor. I ricercatori hanno monitorato i tassi di successo dopo ogni epoca durante il processo di fine-tuning. TransTroj ha dimostrato stabilità, con solo lievi fluttuazioni. Al contrario, metodi come NeuBA hanno mostrato significativi cali di efficacia, indicando che il design di TransTroj rende molto più difficile eliminare il backdoor durante il fine-tuning.

Attacchi Multi-target

TransTroj può anche attaccare più classi contemporaneamente. Gli autori hanno mostrato che il metodo può mirare a più compiti downstream utilizzando efficacemente una singola classe target. I risultati confermano che può attivare backdoor in vari compiti, dimostrando la sua ampia applicabilità.

Analisi di Sensibilità

Gli autori hanno condotto studi aggiuntivi per analizzare come fattori particolari impattano le prestazioni di TransTroj. Hanno osservato l'influenza dei trigger ottimizzati e la dimensione del set di dati ombra. Un set di dati ombra più grande si è rivelato vantaggioso per raggiungere tassi di successo più elevati, mentre trigger più piccoli hanno portato a una diminuzione dell'efficacia.

Robustezza Contro le Difese

Lo studio ha anche esplorato quanto bene TransTroj possa resistere ai meccanismi di difesa mirati ad eliminare i backdoor. Un metodo popolare prevede la re-inizializzazione di parti del modello. Tuttavia, anche con alcuni strati re-inizializzati, l'attacco è rimasto efficace, dimostrando la sua durabilità.

Un altro metodo, il fine-pruning, mira a disattivare alcuni neuroni del modello per cancellare i backdoor. Tuttavia, TransTroj ha dimostrato resilienza anche quando una parte significativa dei canali era potata. Questo evidenzia la robustezza del metodo contro vari tentativi di eliminare i backdoor.

Conclusione

In conclusione, l'approccio TransTroj rappresenta un significativo avanzamento negli attacchi backdoor sui modelli pre-addestrati. Garantiscono durabilità e compatibilità attraverso molteplici compiti, costituendo una minaccia più sostanziale nelle applicazioni del mondo reale. L'ottimizzazione in due fasi e il focus sull'indistinguibilità dell'incorporamento offrono una base promettente per futuri studi e sviluppi in questo campo.

Lavori Futuri

Lo studio apre a vie per ulteriori esplorazioni. I futuri ricercatori potrebbero indagare metodi di incorporamento più raffinati o diverse strategie di ottimizzazione per migliorare l'efficacia degli attacchi backdoor. Inoltre, esplorare le difese contro tali attacchi robusti sarà fondamentale per sviluppare sistemi AI più sicuri.

Infine, man mano che i PTM diventano più prevalenti in varie applicazioni, comprendere le loro vulnerabilità sarà sempre più importante sia per i professionisti della sicurezza che per gli utenti.

Fonte originale

Titolo: Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability

Estratto: Pre-trained models (PTMs) are widely adopted across various downstream tasks in the machine learning supply chain. Adopting untrustworthy PTMs introduces significant security risks, where adversaries can poison the model supply chain by embedding hidden malicious behaviors (backdoors) into PTMs. However, existing backdoor attacks to PTMs can only achieve partially task-agnostic and the embedded backdoors are easily erased during the fine-tuning process. This makes it challenging for the backdoors to persist and propagate through the supply chain. In this paper, we propose a novel and severer backdoor attack, TransTroj, which enables the backdoors embedded in PTMs to efficiently transfer in the model supply chain. In particular, we first formalize this attack as an indistinguishability problem between poisoned and clean samples in the embedding space. We decompose embedding indistinguishability into pre- and post-indistinguishability, representing the similarity of the poisoned and reference embeddings before and after the attack. Then, we propose a two-stage optimization that separately optimizes triggers and victim PTMs to achieve embedding indistinguishability. We evaluate TransTroj on four PTMs and six downstream tasks. Experimental results show that our method significantly outperforms SOTA task-agnostic backdoor attacks -- achieving nearly 100\% attack success rate on most downstream tasks -- and demonstrates robustness under various system settings. Our findings underscore the urgent need to secure the model supply chain against such transferable backdoor attacks. The code is available at https://github.com/haowang-cqu/TransTroj .

Autori: Hao Wang, Shangwei Guo, Jialing He, Hangcheng Liu, Tianwei Zhang, Tao Xiang

Ultimo aggiornamento: 2024-10-16 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2401.15883

Fonte PDF: https://arxiv.org/pdf/2401.15883

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili