Bilanciare la privacy e il machine learning: un nuovo approccio
Un metodo che combina il Split Learning con la crittografia omomorfa migliora la privacy nell'apprendimento automatico.
― 6 leggere min
Indice
Nel mondo di oggi, il machine learning sta diventando uno strumento fondamentale in vari settori, come la sanità, la finanza e la tecnologia. Però, con l'aumento del machine learning sorgono grandi preoccupazioni riguardo alla privacy dei dati degli utenti. Questo ha portato alla necessità di metodi che mettano al primo posto la privacy, pur consentendo un'apprendimento efficace dai dati. Un approccio promettente si chiama Split Learning, che permette a diverse parti di collaborare per addestrare modelli di machine learning senza condividere dati sensibili.
Cos'è lo Split Learning?
Lo Split Learning è una tecnica per addestrare modelli di machine learning che divide il modello in parti. Una parte gira sul lato client, dove ci sono i dati, e l'altra parte gira sul server. In questo setup, il client elabora i dati grezzi per generare qualcosa chiamato Mappe di Attivazione (AM). Queste mappe vengono poi inviate al server, che le utilizza per continuare ad addestrare il modello. Questo metodo aiuta a proteggere i dati grezzi del client perché quei dati non vengono mai condivisi direttamente con il server.
Preoccupazioni per la Privacy
Nonostante i suoi vantaggi, lo Split Learning non è privo di problemi. Ricerche precedenti hanno mostrato che ricostruendo le Mappe di Attivazione, informazioni sensibili sui dati del client possono essere trapelate. Inoltre, le tecniche attuali destinate a mitigare questi rischi per la privacy tendono a ridurre l'accuratezza del modello, il che è un grosso svantaggio per le applicazioni pratiche.
Miglioramenti Proposti
Per affrontare queste preoccupazioni, sono stati sviluppati nuovi protocolli che migliorano la privacy mantenendo l'accuratezza del modello. Il metodo proposto prevede l'uso di una tecnica nota come Criptografia Omomorfica (HE). Questo permette al client di crittografare le Mappe di Attivazione prima di inviarle al server. Facendo così, anche se le Mappe di Attivazione vengono intercettate, non rivelano alcuna informazione sui dati grezzi del client.
Come Funziona lo Split Learning con Criptografia Omomorfica
In questo nuovo approccio, il client applica prima la Criptografia Omomorfica alle Mappe di Attivazione generate dai dati grezzi. Le mappe crittografate, chiamate Mappe di Attivazione Crittografate (EAM), vengono poi inviate al server. Il server può eseguire calcoli usando queste mappe crittografate senza bisogno di decrittarle, il che protegge ulteriormente la privacy degli utenti.
Durante l'addestramento, il client e il server collaborano. Il client elabora i dati e genera EAM, mentre il server utilizza queste EAM per aggiornare il modello. Questo metodo non solo preserva la privacy degli utenti, ma mantiene anche alti livelli di accuratezza, con solo una leggera diminuzione rispetto all’addestramento su dati non crittografati.
Validazione Sperimentale
Per convalidare l'efficacia di questo approccio, sono stati condotti esperimenti usando due diversi set di dati ECG (elettrocardiogramma), MIT-BIH e PTB-XL. Questi set di dati sono ampiamente usati per addestrare modelli in applicazioni legate al cuore. L'obiettivo era valutare quanto bene il nuovo protocollo si comporta rispetto ai metodi tradizionali.
Descrizioni dei Dataset
Dataset MIT-BIH: Questo dataset include una raccolta di segnali del battito cardiaco, categorizzati in normali e vari tipi anormali. È spesso usato per valutare algoritmi per la rilevazione delle condizioni cardiache.
Dataset PTB-XL: Questo è attualmente il più grande dataset ECG open-source. Contiene una varietà di segnali cardiaci provenienti da numerosi pazienti, rendendolo adatto per addestrare modelli su larga scala.
Addestramento dei Modelli
Diverse modelli sono stati addestrati su entrambi i dataset usando il nuovo protocollo. Il processo di addestramento ha coinvolto diversi passaggi, tra cui la configurazione dell'architettura del modello, l'elaborazione dei dati e la valutazione dei risultati. L'attenzione era su quanto bene questi modelli potessero apprendere dai dati crittografati senza compromettere la privacy.
Architettura del Modello
I modelli sono stati costruiti usando un tipo di rete neurale nota come Reti Neurali Convoluzionali (CNN). Le CNN sono particolarmente adatte a gestire dati in serie temporale, il che è ideale per elaborare segnali ECG.
Addestramento del Modello Locale
Il primo passo nell'esperimento è stato addestrare un modello locale sul dataset MIT-BIH usando dati in chiaro. Ciò ha comportato l'esecuzione del modello sui dati grezzi per valutarne le prestazioni. Il modello locale è riuscito a raggiungere un'alta accuratezza nell'identificare diversi tipi di battiti cardiaci.
Addestramento dello Split Learning su Testo Chiaro
Successivamente, l'addestramento è stato condotto utilizzando l'approccio Split Learning su Mappe di Attivazione senza crittografia. Questo passaggio ha aiutato a stabilire un baseline per misurare quanto bene il modello si comporta quando utilizza questa tecnica. Sebbene l'accuratezza fosse ancora buona, è stato trovato che si sono verificati alcuni problemi di privacy a causa della natura intrinseca della condivisione delle Mappe di Attivazione.
Split Learning con Mappe di Attivazione Crittografate
Successivamente, gli esperimenti si sono spostati sull'uso delle Mappe di Attivazione Crittografate. Con l'introduzione della Criptografia Omomorfica, i modelli sono stati addestrati di nuovo, ma questa volta con dati crittografati. I risultati sono stati promettenti, poiché l'accuratezza dei modelli era solo leggermente inferiore rispetto all'uso di dati in chiaro, garantendo al contempo un maggiore livello di privacy.
Risultati degli Esperimenti
Gli esperimenti hanno fornito diversi spunti chiave riguardanti le prestazioni dei diversi approcci di addestramento. È stato notato che mentre l'uso di dati in chiaro ha portato a un'alta accuratezza, c'era un rischio associato di violazione della privacy. Al contrario, l'uso di dati crittografati tramite Criptografia Omomorfica ha comportato una leggera diminuzione dell'accuratezza ma ha offerto una protezione della privacy significativamente migliorata.
Confronto degli Approcci di Addestramento
- Addestramento in Chiaro: Ha raggiunto alta accuratezza, ma con preoccupazioni per la privacy.
- Split Learning su Testo Chiaro: Ha migliorato la privacy ma era comunque soggetto a perdite di dati.
- Split Learning con Mappe di Attivazione Crittografate: Ha mantenuto alte prestazioni del modello garantendo una migliore privacy.
Conclusione
Lo studio evidenzia la necessità di metodi che preservino la privacy nel machine learning, specialmente in settori sensibili come la sanità. Combinando lo Split Learning con la Criptografia Omomorfica, è possibile sviluppare modelli che rispettino la privacy degli utenti senza sacrificare l'accuratezza. Questo lavoro dimostra un passo significativo avanti per garantire che il machine learning possa essere impiegato in modo sicuro in applicazioni reali dove la privacy dei dati è fondamentale.
Lavori Futuri
Sebbene siano stati fatti progressi, c'è ancora lavoro da fare. Gli sforzi futuri si concentreranno sull'adattamento di questo approccio per ospitare più clienti ed esplorare tecniche più avanzate per mantenere alta l'accuratezza durante l'addestramento lavorando con dati crittografati. L'obiettivo è creare un framework robusto che possa essere applicato in vari settori affrontando in modo efficace le preoccupazioni sulla privacy.
Continuando a costruire su questi metodi, possiamo aprire la strada a un futuro in cui privacy dei dati e machine learning coesistono armoniosamente, permettendo innovazione senza compromettere i diritti degli individui.
Titolo: A More Secure Split: Enhancing the Security of Privacy-Preserving Split Learning
Estratto: Split learning (SL) is a new collaborative learning technique that allows participants, e.g. a client and a server, to train machine learning models without the client sharing raw data. In this setting, the client initially applies its part of the machine learning model on the raw data to generate Activation Maps (AMs) and then sends them to the server to continue the training process. Previous works in the field demonstrated that reconstructing AMs could result in privacy leakage of client data. In addition to that, existing mitigation techniques that overcome the privacy leakage of SL prove to be significantly worse in terms of accuracy. In this paper, we improve upon previous works by constructing a protocol based on U-shaped SL that can operate on homomorphically encrypted data. More precisely, in our approach, the client applies homomorphic encryption on the AMs before sending them to the server, thus protecting user privacy. This is an important improvement that reduces privacy leakage in comparison to other SL-based works. Finally, our results show that, with the optimum set of parameters, training with HE data in the U-shaped SL setting only reduces accuracy by 2.65% compared to training on plaintext. In addition, raw training data privacy is preserved.
Autori: Tanveer Khan, Khoa Nguyen, Antonis Michalas
Ultimo aggiornamento: 2023-09-15 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.08697
Fonte PDF: https://arxiv.org/pdf/2309.08697
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.springer.com/gp/computer-science/lncs
- https://ai.googleblog.com/2017/04/federated-learning-collaborative.html
- https://bit.ly/3KY8ByN
- https://pytorch.org/docs/stable/generated/torch.nn.Conv1d.html
- https://www.python.org/downloads/release/python-397/
- https://pytorch.org/get-started/previous-versions/
- https://github.com/OpenMined/TenSEAL
- https://anonymous.4open.science/r/split-learning-1D-HE-4BB0/README.md
- https://anonymous.4open.science/r/split-learning-1D-HE
- https://github.com/khoaguin/HESplitNet