Simple Science

Scienza all'avanguardia spiegata semplicemente

# Matematica# Apprendimento automatico# Crittografia e sicurezza# Informatica distribuita, parallela e in cluster# Ottimizzazione e controllo

Un Nuovo Approccio all'Unlearning Federato

SFU permette la rimozione dei dati proteggendo la privacy nel machine learning.

― 6 leggere min


Rivedere i framework diRivedere i framework diapprendimento federatofocalizzato sulla privacy nell'IA.Nuovo metodo per la rimozione dei dati
Indice

Oggi, la privacy dei dati è super importante. La gente vuole essere sicura che le proprie informazioni siano al sicuro e di avere controllo su di esse. Questo è particolarmente vero quando ci sono dati sensibili, come le cartelle cliniche, in ballo. I metodi tradizionali di machine learning di solito richiedono di raccogliere tutti i dati in un posto, ma non è sempre possibile a causa di preoccupazioni sulla privacy. Il Federated Learning (FL) è un metodo che permette a più clienti di addestrare un modello di machine learning senza condividere i propri dati locali, rendendolo una buona opzione per proteggere la privacy.

Tuttavia, con le nuove leggi sulla privacy, le persone stanno guadagnando più diritti sui propri dati. Uno di questi diritti è la possibilità di far dimenticare i propri dati. Nel contesto del machine learning, questo significa che non solo i dati devono essere eliminati, ma anche gli effetti di quei dati su qualsiasi modello devono essere rimossi. Questo processo è conosciuto come "federated unlearning". L'obiettivo principale del federated unlearning è rimuovere l'influenza dei dati di un cliente specifico dal modello globale, mantenendo intatta l'accuratezza del modello.

Sfide del Federated Unlearning

Il federated unlearning presenta diverse sfide a causa della natura di come opera il federated learning:

  1. Accesso limitato ai dati: Il Server centrale non ha accesso diretto a tutti i dati dei clienti, il che rende difficile applicare metodi tradizionali di unlearning.

  2. Aggregazione del modello: Ogni modello del cliente si basa sull'aggregazione precedente dei modelli, quindi rimuovere il contributo di un cliente può influenzare il modello di tutti gli altri.

  3. Selezione dei clienti: Non tutti i clienti partecipano a ogni ciclo di addestramento, il che complica il tracciamento dei contributi.

Metodi Esistenti e le Loro Limitazioni

Molti metodi attuali di federated unlearning consistono nel riaddestrare il modello utilizzando solo i clienti rimanenti o nel memorizzare i dati storici degli aggiornamenti sul server. Il primo metodo può essere poco pratico poiché i clienti potrebbero non conservare gli stessi dati che avevano durante l'addestramento iniziale. Il secondo metodo può essere pesante in termini di storage e spesso non è fattibile in scenari con risorse server limitate.

Un’idea comune è quella di riaddestrare il modello globale da zero senza il cliente obiettivo. Ma, se i clienti cancellano i propri dati dopo l'addestramento, questo metodo non può funzionare in modo efficace. Un'altra idea è tenere traccia delle modifiche storiche apportate dal cliente obiettivo, ma questo può essere poco pratico se il server ha limitazioni di spazio.

Invece, introduciamo un nuovo metodo chiamato Subspace Based Federated Unlearning (SFU), che non richiede al server di memorizzare alcun dato storico.

Cos'è il Subspace Based Federated Unlearning (SFU)?

SFU è un metodo semplice ma efficace che consente al modello globale di adattarsi in uno spazio specifico per eliminare il contributo di un cliente obiettivo. Invece di fare affidamento sulla memorizzazione di dati storici, il server può raccogliere aggiornamenti di gradiente dal cliente obiettivo e calcolare una matrice di rappresentazione dagli altri clienti. Questo approccio utilizza il concetto di proiezione in uno spazio ortogonale, il che significa che funziona in modo da non influenzare negativamente le prestazioni del modello.

Gradiente Ascent in SFU

Nel SFU, il metodo funziona lasciando che il cliente obiettivo esegua un aggiornamento locale utilizzando il gradiente ascent. Questo significa che il cliente obiettivo cerca di aumentare la propria perdita empirica, che è un modo per "invertire" il contributo di dati che ha fornito in precedenza. Le modifiche fatte dal cliente obiettivo vengono proiettate in uno spazio ortogonale all'input degli altri clienti, garantendo che la qualità complessiva del modello rimanga alta.

Come Funziona SFU?

Nel metodo SFU, ci sono tre partecipanti principali:

  1. Cliente Obiettivo: Questo è il cliente il cui contributo deve essere rimosso.

  2. Clienti Rimanenti: Questi sono gli altri clienti le cui informazioni sui dati aiutano a costruire la matrice di rappresentazione.

  3. Server: Questo punto centrale raccoglie le informazioni e le elabora.

Il processo può essere suddiviso in diversi passaggi:

  1. Selezione dei Campioni: Ogni cliente rimanente sceglie un numero di campioni locali per creare una matrice di rappresentazione, che inviano al server dopo aver aggiunto fattori casuali per la protezione della privacy.

  2. Aggiornamento del gradiente dal Cliente Obiettivo: Il cliente obiettivo esegue alcuni cicli di gradiente ascent sui propri dati e invia queste informazioni aggiornate al server.

  3. Operazioni del Server: Il server raccoglie le matrici di rappresentazione dai clienti rimanenti e crea uno subspazio. Poi, proietta il gradiente del cliente obiettivo in questo spazio e aggiorna il modello globale di conseguenza.

Protezione della Privacy in SFU

Per affrontare le preoccupazioni sulla privacy durante il processo SFU, viene implementato un metodo che aggiunge rumore casuale alle matrici di rappresentazione inviate dai clienti. Questo assicura che anche se qualcuno intercetta la trasmissione, non possa derivare informazioni sensibili da essa.

Risultati Sperimentali

Sono stati condotti esperimenti utilizzando dataset popolari come MNIST, CIFAR10 e CIFAR100. L'obiettivo principale era valutare l'efficacia di SFU nell'eliminare i contributi di clienti specifici mantenendo l'accuratezza del modello globale.

Descrizione del Dataset

  • MNIST: Un dataset composto da 60.000 immagini di addestramento e 10.000 immagini di test di cifre scritte a mano.

  • CIFAR10: Contiene 60.000 immagini a colori suddivise in 10 categorie, ognuna delle quali misura 32x32 pixel.

  • CIFAR100: Simile a CIFAR10 ma consiste di 100 classi, con meno immagini per classe.

Metriche di Valutazione

L'efficienza di SFU è stata valutata sulla base di due aspetti principali:

  1. Rimozione dei Contributi del Cliente Obiettivo: Questo è stato fatto utilizzando trigger backdoor, che testano la vulnerabilità del modello a manipolazioni specifiche che indicherebbero che i dati del cliente obiettivo non sono stati eliminati correttamente.

  2. Recupero delle Prestazioni del Modello: Questo verifica come si comporta il modello dopo l'operazione di unlearning in termini di accuratezza sui dati di test puliti.

Panoramica dei Risultati

I risultati hanno mostrato che SFU rimuove efficacemente i contributi del cliente obiettivo con un impatto minimo sull'accuratezza del modello rispetto ai metodi tradizionali. Inoltre, si è dimostrato robusto su diversi dataset e livelli di eterogeneità dei dati.

Conclusione

Il Subspace Based Federated Unlearning (SFU) offre un nuovo approccio per gestire il diritto all'oblio nelle impostazioni di federated learning. Sfruttando l'approccio ortogonale, SFU consente la rimozione efficace dei contributi di clienti specifici senza impatti severi sulle prestazioni. Affronta anche le preoccupazioni sulla privacy durante il processo, rendendolo adatto per applicazioni nel mondo reale.

Con la crescente domanda di tecnologie per la protezione della privacy nel machine learning, SFU offre una soluzione pratica per affrontare queste sfide e contribuire a pratiche di gestione dei dati più sicure e responsabili.

Fonte originale

Titolo: Subspace based Federated Unlearning

Estratto: Federated learning (FL) enables multiple clients to train a machine learning model collaboratively without exchanging their local data. Federated unlearning is an inverse FL process that aims to remove a specified target client's contribution in FL to satisfy the user's right to be forgotten. Most existing federated unlearning algorithms require the server to store the history of the parameter updates, which is not applicable in scenarios where the server storage resource is constrained. In this paper, we propose a simple-yet-effective subspace based federated unlearning method, dubbed SFU, that lets the global model perform gradient ascent in the orthogonal space of input gradient spaces formed by other clients to eliminate the target client's contribution without requiring additional storage. Specifically, the server first collects the gradients generated from the target client after performing gradient ascent, and the input representation matrix is computed locally by the remaining clients. We also design a differential privacy method to protect the privacy of the representation matrix. Then the server merges those representation matrices to get the input gradient subspace and updates the global model in the orthogonal subspace of the input gradient subspace to complete the forgetting task with minimal model performance degradation. Experiments on MNIST, CIFAR10, and CIFAR100 show that SFU outperforms several state-of-the-art (SOTA) federated unlearning algorithms by a large margin in various settings.

Autori: Guanghao Li, Li Shen, Yan Sun, Yue Hu, Han Hu, Dacheng Tao

Ultimo aggiornamento: 2023-02-23 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2302.12448

Fonte PDF: https://arxiv.org/pdf/2302.12448

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili