Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico# Crittografia e sicurezza

Bilanciare privacy e giustizia con la privacy differenziale locale

Uno studio su come LDP influisce sulla giustizia nel machine learning.

― 6 leggere min


La privacy incontraLa privacy incontral'equità nell'MLgiustizia del machine learning.Esaminando il ruolo dell'LDP nella
Indice

Negli ultimi tempi, proteggere la privacy delle persone mentre si usa i loro dati è diventato super importante. La Local Differential Privacy (LDP) è un metodo che la gente usa per ottenere questo. Permette agli utenti di modificare i loro dati sui loro dispositivi prima di inviarli per analisi, aiutando a tenere le loro informazioni al sicuro. Però, man mano che le aziende raccolgono informazioni sempre più sensibili, potrebbe non essere sufficiente proteggere solo un pezzo di informazione. Quando diversi pezzi di informazione sono collegati, potrebbero comunque dare indizi su dati sensibili.

Questo articolo esplora come la raccolta di diversi pezzi di dati sensibili sotto LDP influisca sulla correttezza nell'apprendimento automatico (ML). La correttezza in questo contesto significa che diversi gruppi di persone sono trattati in modo equo. Viene anche presentato un nuovo modo per dividere il budget per la privacy tra i diversi attributi sensibili, che può aiutare a bilanciare privacy, Utilità e correttezza.

Contesto

La crescita del Big Data ha portato tanti vantaggi, ma ha sollevato anche domande sulla privacy e sulla correttezza nell'uso dei dati, specialmente nell'apprendimento automatico. Con così tanti dati disponibili, trovare modi per mantenere private le informazioni individuali è diventato difficile. I ricercatori hanno proposto diversi metodi per proteggere la privacy, e uno dei metodi più noti è la privacy differenziale.

La correttezza nell'ML è anche un tema caldo. Molti studi mostrano che le persone o i gruppi possono essere trattati ingiustamente in base a caratteristiche come razza, genere o stato economico. A causa di queste preoccupazioni, privacy e correttezza sono essenziali per l'applicazione pratica dell'apprendimento automatico.

Dichiarazione del Problema

Quando si usa l'ML, non è comune per le organizzazioni avere accesso a attributi sensibili, come la razza, a causa di leggi e regolamenti che limitano la raccolta di queste informazioni. Questo significa che spesso non possono misurare quanto siano equi i loro modelli, poiché mancano delle informazioni necessarie. Ma se gli utenti possono condividere i loro attributi sensibili usando metodi che garantiscono la Local Differential Privacy, potrebbe essere possibile creare modelli che non discriminano.

Tuttavia, semplicemente raccogliere un attributo sensibile con protezione della privacy potrebbe non essere sufficiente. A volte, altre variabili possono dare indizi su un attributo sensibile. Queste variabili proxy potrebbero anche richiedere protezione della privacy secondo la legge.

Contributi della Ricerca

Questo articolo mira a fornire uno studio dettagliato di come l'elaborazione di più punti di dati sensibili con LDP influisca sulla correttezza e sull'utilità nei compiti di classificazione binaria. Lo studio esamina vari metriche di Equità e valuta sette diversi metodi LDP.

La ricerca si concentra su tre principali contributi:

  1. Analizza come il pre-processing di dati multidimensionali con LDP influisce sulla correttezza e sull'utilità.
  2. Confronta l'impatto di vari protocolli LDP sulla correttezza e sull'utilità durante l'addestramento di classificatori binari.
  3. Presenta un nuovo metodo per dividere i budget di privacy, che porta generalmente a risultati migliori in termini di correttezza rispetto ai metodi esistenti.

Metodologia

Questo studio considera una situazione in cui un server raccoglie diversi attributi sensibili dagli utenti sotto garanzie LDP. Gli utenti forniranno anche dati non sensibili, che aiutano nell'addestramento di un modello di apprendimento automatico.

L'obiettivo è vedere come l'addestramento di un modello su dati sanitizzati sotto LDP si confronta con l'addestramento su dati originali in termini di correttezza e utilità. Ogni attributo sensibile dovrebbe essere raccolto in modo indipendente per garantire un forte livello di privacy.

L'articolo descrive anche come il budget per la privacy può essere suddiviso tra gli attributi sensibili, focalizzandosi su un nuovo metodo chiamato k-based che tiene conto delle diverse dimensioni dei domini degli attributi.

Metriche di Correttezza

L'articolo esamina diverse metriche per valutare la correttezza per vari gruppi demografici. Le metriche scelte includono:

  1. Disparate Impact (DI): Mostra il rapporto delle previsioni positive per i gruppi svantaggiati rispetto ai gruppi privilegiati. Un punteggio perfetto è uguale a 1.
  2. Statistical Parity Difference (SPD): Misura la differenza tra le proporzioni di previsioni positive per entrambi i gruppi. Un punteggio perfetto è uguale a 0.
  3. Equal Opportunity Difference (EOD): Si concentra sui tassi di veri positivi per entrambi i gruppi. Un punteggio perfetto è uguale a 0.
  4. Overall Accuracy Difference (OAD): Controlla il tasso di accuratezza complessivo tra diversi gruppi. Un punteggio perfetto è uguale a 0.

Local Differential Privacy (LDP)

LDP garantisce che i dati condivisi dagli utenti mantengano un certo livello di protezione della privacy. Vengono valutati diversi protocolli LDP all'avanguardia, inclusi Generalized Randomized Response, Binary Local Hashing e altri.

Generalized Randomized Response (GRR)

Questo protocollo consente agli individui di inviare i loro valori reali con una certa probabilità o di inviare un altro valore con la probabilità rimanente.

Binary Local Hashing (BLH)

Questo metodo utilizza funzioni hash per gestire set di dati più grandi mappando i valori di input in un dominio più piccolo e poi applicando il GRR.

Optimal Local Hashing (OLH)

Simile al BLH, l'OLH migliora su di esso consentendo output che non sono solo binari.

RAPPOR

Questo metodo utilizza One-Hot Encoding per interpretare l'input dell'utente come un vettore binario, consentendo di inviare bit randomizzati.

Optimal Unary Encoding (OUE)

L'OUE minimizza la varianza dell'approccio RAPPOR perturbando i bit in modo diverso.

Subset Selection (SS)

Questo metodo seleziona casualmente elementi dal dominio di input, dando una maggiore possibilità che il valore reale venga incluso nell'output.

Thresholding with Histogram Encoding (THE)

Questo protocollo codifica l'input dell'utente in un formato histogramma, randomizzando ogni bit in modo indipendente.

Valutazione Sperimentale

Gli esperimenti esaminano come il pre-processing dei dati con LDP impatti sulla correttezza e sull'utilità. Vengono analizzati diversi set di dati e vengono esplorati i compromessi privacy-utilità utilizzando protocolli LDP.

I risultati mostrano che l'applicazione di LDP porta a un leggero miglioramento della correttezza su vari set di dati, mentre ha un impatto minimo sull'utilità dei modelli.

Risultati

Impatto sulla Correttezza

I risultati indicano che la correttezza nei modelli ML tende a migliorare leggermente quando si usano metodi LDP. Diverse metriche di correttezza mostrano miglioramenti quando i protocolli LDP sono applicati rispetto all'uso di dati originali.

Impatto sull'Utilità

Le misurazioni di utilità mostrano che, sebbene ci sia una perdita in alcune metriche di utilità, essa è generalmente piccola. L'efficacia del metodo di suddivisione del budget di privacy basato su k è anche più favorevole quando gli attributi sensibili mostrano una dimensione del dominio più grande.

Conclusione

Questa ricerca dimostra che utilizzare la Local Differential Privacy per elaborare più attributi sensibili può influenzare positivamente la correttezza nell'apprendimento automatico senza compromettere gravemente l'utilità. I risultati sfidano le precedenti assunzioni che l'uso della privacy differenziale peggiora sempre la correttezza, fornendo spunti che possono aiutare i professionisti.

La ricerca futura continuerà a esaminare la relazione tra privacy, utilità e correttezza, così come come diversi algoritmi di apprendimento automatico possono essere ottimizzati con metodi LDP. C'è anche l'opportunità di esplorare l'impatto di questi metodi su altri tipi di dati e modelli.

Fonte originale

Titolo: (Local) Differential Privacy has NO Disparate Impact on Fairness

Estratto: In recent years, Local Differential Privacy (LDP), a robust privacy-preserving methodology, has gained widespread adoption in real-world applications. With LDP, users can perturb their data on their devices before sending it out for analysis. However, as the collection of multiple sensitive information becomes more prevalent across various industries, collecting a single sensitive attribute under LDP may not be sufficient. Correlated attributes in the data may still lead to inferences about the sensitive attribute. This paper empirically studies the impact of collecting multiple sensitive attributes under LDP on fairness. We propose a novel privacy budget allocation scheme that considers the varying domain size of sensitive attributes. This generally led to a better privacy-utility-fairness trade-off in our experiments than the state-of-art solution. Our results show that LDP leads to slightly improved fairness in learning problems without significantly affecting the performance of the models. We conduct extensive experiments evaluating three benchmark datasets using several group fairness metrics and seven state-of-the-art LDP protocols. Overall, this study challenges the common belief that differential privacy necessarily leads to worsened fairness in machine learning.

Autori: Héber H. Arcolezi, Karima Makhlouf, Catuscia Palamidessi

Ultimo aggiornamento: 2023-08-01 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2304.12845

Fonte PDF: https://arxiv.org/pdf/2304.12845

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili