Israele Rilascia Dati di Nascita del 2014 Proteggendo la Privacy
Un nuovo dataset offre informazioni sulle nascite proteggendo al contempo i dati personali.
― 5 leggere min
Indice
- Scopo della Pubblicazione del Database
- Misure di Privacy
- Elaborazione dei Dati
- Panoramica della Metodologia
- Coinvolgimento degli Stakeholder
- Garanzia di Qualità dei Dati
- Criteri di Accettazione
- Generazione di Dati Sintetici
- Valutazione dei Dati
- Budget per la Perdita di Privacy
- Fiducia e Trasparenza
- Rilascio Futuri
- Conclusione
- Fonte originale
- Link di riferimento
A febbraio 2024, il Ministero della Salute israeliano ha reso pubblico un database con informazioni sulle nascite avvenute nel 2014. Questo database è davvero prezioso per vari settori, tipo la ricerca e lo sviluppo delle politiche. Però, i dati sono stati gestiti con attenzione per proteggere la Privacy delle mamme e dei neonati coinvolti. È stato usato un metodo speciale per assicurarsi che le informazioni personali non potessero essere ricondotte a singoli individui.
Scopo della Pubblicazione del Database
Il database è stato progettato per essere utile alla ricerca scientifica e per aiutare a prendere decisioni nella salute pubblica. Rendendo le informazioni accessibili, i ricercatori, i politici e altri interessati possono utilizzarlo per ottenere informazioni sulle tendenze demografiche, le condizioni di salute e i fattori economici relativi ai dati sulle nascite.
Misure di Privacy
Per proteggere la privacy delle persone nel database, sono state adottate diverse misure. La pubblicazione di questi dati sensibili ha seguito regolamenti rigorosi per evitare qualsiasi potenziale danno alla privacy delle mamme e dei neonati. La metodologia per la pubblicazione è stata sviluppata in collaborazione con vari soggetti coinvolti, assicurandosi che le loro esigenze e preoccupazioni venissero prese in considerazione.
Elaborazione dei Dati
Il database consiste in registrazioni del Registro Nazionale delle Nascite in Israele. Include 167.000 voci, ma solo campi specifici di informazioni sono stati selezionati per la pubblicazione pubblica. I campi includevano dati che sarebbero stati preziosi per gli utenti mantenendo un certo livello di privacy per le persone coinvolte.
Il database è stato elaborato per essere adatto all'uso pubblico. Questo ha incluso una combinazione di trasformazione dei dati e una selezione di algoritmi per mantenere la privacy. Tecniche come la "privacy differenziale" sono state utilizzate, aiutando a controllare quanto i record individuali possano influenzare l'output durante l'analisi dei dati.
Panoramica della Metodologia
Gli autori hanno sviluppato un piano completo che prevedeva vari passaggi per pubblicare il database. La metodologia si è concentrata su come combinare varie tecniche per proteggere la privacy dei dati mantenendo il database utile per l'analisi. Il processo ha incluso la generazione di un database sintetico separato che riflette i dati originali ma non include dettagli personali.
Stakeholder
Coinvolgimento degliÈ stato essenziale coinvolgere vari soggetti coinvolti durante il processo. Questi soggetti includevano rappresentanti di piattaforme di ricerca sanitaria, team epidemiologici e ricercatori medici. Il loro feedback ha plasmato la direzione del progetto e ha aiutato a garantire che il prodotto finale soddisfacesse le esigenze di vari utenti.
Qualità dei Dati
Garanzia diAssicurarsi che i dati pubblicati fossero di alta qualità era una priorità. Sono stati stabiliti diversi criteri per valutare l'accuratezza e l'affidabilità delle informazioni. Questi criteri sono stati utilizzati per verificare che il database rilasciato corrispondesse strettamente all'originale in termini di proprietà statistiche, dando fiducia agli utenti sui dati.
Criteri di Accettazione
Sono stati stabiliti più criteri di accettazione per garantire la qualità e la privacy del database. Questi includevano criteri per valutare gli errori nelle query statistiche e confrontare i risultati con il database originale. Valutando questi criteri, si è garantito che i dati pubblicati fossero accurati e mantenessero gli standard di privacy desiderati.
Dati Sintetici
Generazione diDati sintetici sono stati creati come parte del processo di rilascio. Questo significa che il database finale non contiene record individuali reali ma è generato in base ai modelli nei dati originali. I dati sintetici forniscono un modo per analizzare tendenze e modelli senza rivelare alcuna informazione personale sulle mamme o sui neonati.
Valutazione dei Dati
Il database rilasciato è stato sottoposto a un'accurata valutazione utilizzando i criteri di accettazione stabiliti. Ogni criterio è stato attentamente valutato per garantire la qualità dei dati sintetici e la conformità agli standard di privacy. Questo processo di valutazione è stato essenziale per garantire che il database fosse realmente utile per la ricerca e il processo decisionale.
Budget per la Perdita di Privacy
Il team ha stabilito un budget per la perdita di privacy che stabilisce quanto i dati individuali possano influenzare l'intero database. Questo budget è cruciale per mantenere un equilibrio tra l'utilità dei dati e la protezione della privacy. La gestione efficace di questo budget è stata un aspetto chiave del successo del progetto.
Fiducia e Trasparenza
Era fondamentale promuovere fiducia nel rilascio dei dati. Il processo è stato progettato per garantire che il database soddisfacesse le aspettative fissate dagli stakeholder. Documentando ogni passaggio della metodologia e comunicando apertamente sui dati, il team mirava a stabilire fiducia e trasparenza nell'uso delle informazioni sensibili.
Rilascio Futuri
Il team prevede di continuare a perfezionare la metodologia ed esplorare ulteriori rilasci di dati in futuro. Il feedback degli stakeholder guiderà i successivi sforzi, consentendo miglioramenti e potenziamenti nel processo.
Conclusione
Il rilascio dei dati sulle nascite del 2014 dal Registro Nazionale di Israele segna un passo significativo nel rendere i dati governativi più accessibili pur garantendo la privacy degli individui. Utilizzando tecniche avanzate e coinvolgendo gli stakeholder durante tutto il processo, il database è stato creato per fornire preziosi approfondimenti per la ricerca e lo sviluppo delle politiche, proteggendo allo stesso tempo la privacy di chi è coinvolto.
Titolo: Differentially Private Release of Israel's National Registry of Live Births
Estratto: In February 2024, Israel's Ministry of Health released microdata of live births in Israel in 2014. The dataset is based on Israel's National Registry of Live Births and offers substantial value in multiple areas, such as scientific research and policy-making. At the same time, the data was processed so as to protect the privacy of 2014's mothers and newborns. The release was co-designed by the authors together with stakeholders from both inside and outside the Ministry of Health. This paper presents the methodology used to obtain that release. It also describes the considerations involved in choosing the methodology and the process followed. We used differential privacy as our formal measure of the privacy loss incurred by the released dataset. More concretely, we prove that the released dataset is differentially private with privacy loss budget \varepsilon = 9.98. We extensively used the private selection algorithm of Liu and Talwar (STOC 2019) to bundle together multiple steps such as data transformation, model generation algorithm, hyperparameter selection, and evaluation. The model generation algorithm selected was PrivBayes (Zhang et al., SIGMOD 2014). The evaluation was based on a list of acceptance criteria, which were also disclosed only approximately so as to provide an overall differential privacy guarantee. We also discuss concrete challenges and barriers that appear relevant to the next steps of this pilot project, as well as to future differentially private releases.
Autori: Shlomi Hod, Ran Canetti
Ultimo aggiornamento: 2024-04-30 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2405.00267
Fonte PDF: https://arxiv.org/pdf/2405.00267
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/shlomihod/synthflow
- https://github.com/opendp/opendp/blob/c79ef2268bdc09cf733aba08b005b241ca63b365/docs/source/examples/unknown-dataset-size.ipynb
- https://github.com/opendp/opendp/blob/c79ef2268bdc09cf733aba08b005b241ca63b365/rust/src/transformations/resize/mod.rs
- https://github.com/opendp/smartnoise-sdk
- https://github.com/IBM/differential-privacy-library
- https://github.com/sdv-dev/SDGym/tree/c9e274c1c1be7e8fec6fcd1d6f88e95b38a44d14/privbayes
- https://www.bu.edu/tech/support/research/computing-resources/scc
- https://tex.stackexchange.com/qusetions/88734/mathbbm1-not-working-well-with-xelatex-mathspec