Israel Publica Datos de Nacimientos de 2014 Mientras Protege la Privacidad
Nuevo conjunto de datos ofrece información sobre nacimientos mientras protege la información personal.
― 6 minilectura
Tabla de contenidos
- Propósito de la Publicación del Conjunto de Datos
- Medidas de Privacidad
- Procesamiento de Datos
- Resumen de la Metodología
- Compromiso con las Partes Interesadas
- Aseguramiento de la Calidad de los datos
- Criterios de Aceptación
- Generación de Datos sintéticos
- Evaluación de Datos
- Presupuesto de Pérdida de Privacidad
- Confianza y Transparencia
- Futuras Publicaciones
- Conclusión
- Fuente original
- Enlaces de referencia
En febrero de 2024, el Ministerio de Salud de Israel hizo público un conjunto de datos que contiene información sobre los nacimientos en vivo que ocurrieron en 2014. Este conjunto de datos tiene mucho valor para varios campos, como la investigación y el desarrollo de políticas. Sin embargo, se manejó con cuidado para proteger la Privacidad de las madres y los recién nacidos involucrados. Se usó un método especial para asegurarse de que la información personal no pudiera ser rastreada hasta los individuos.
Propósito de la Publicación del Conjunto de Datos
El conjunto de datos fue diseñado para ser útil para la investigación científica y ayudar a informar decisiones en salud pública. Al hacer la información accesible, los investigadores, responsables de políticas y otros Interesados pueden usarla para obtener información sobre tendencias demográficas, condiciones de salud y factores económicos relacionados con los datos de nacimiento.
Medidas de Privacidad
Para proteger la privacidad de las personas en el conjunto de datos, se tomaron varias medidas. La publicación de estos datos sensibles siguió regulaciones estrictas para evitar cualquier posible daño a la privacidad de las madres y los recién nacidos. La metodología para la publicación se desarrolló en colaboración con varios interesados, asegurando que sus necesidades y preocupaciones fueran tomadas en cuenta.
Procesamiento de Datos
El conjunto de datos consiste en registros del Registro Nacional de Nacimientos en Vivo en Israel. Incluye 167,000 entradas, pero solo se seleccionaron campos específicos de información para su publicación pública. Los campos incluyeron datos que serían valiosos para los usuarios mientras se mantenía un nivel de privacidad para los individuos involucrados.
El conjunto de datos se procesó para asegurarse de que fuera adecuado para su uso público. Esto incluyó una combinación de transformación de datos y selección de algoritmos para mantener la privacidad. Se emplearon técnicas como la "privacidad diferencial", que ayuda a controlar cuánto pueden influir los registros individuales en el resultado cuando se realiza el análisis de datos.
Resumen de la Metodología
Los autores desarrollaron un plan integral que implicaba varios pasos para la publicación del conjunto de datos. La metodología se centró en combinar varias técnicas para asegurar la privacidad de los datos mientras se garantizaba que el conjunto de datos siguiera siendo útil para el análisis. El proceso incluyó generar un conjunto de datos sintético separado que refleja los datos originales pero no incluye ningún detalle personal.
Compromiso con las Partes Interesadas
Era esencial involucrar a varias partes interesadas durante todo el proceso. Estas partes incluyeron representantes de plataformas de investigación en salud, equipos de epidemiología e investigadores médicos. Sus comentarios dieron forma a la dirección del proyecto y ayudaron a asegurar que el producto final cumpliendo con las necesidades de varios usuarios.
Calidad de los datos
Aseguramiento de laAsegurar datos de alta calidad en la publicación fue una prioridad. Se establecieron diferentes criterios para evaluar la precisión y fiabilidad de la información. Estos criterios se utilizaron para verificar que el conjunto de datos publicado coincidiera estrechamente con el original en términos de propiedades estadísticas, brindando confianza en los datos para los usuarios.
Criterios de Aceptación
Se establecieron múltiples criterios de aceptación para asegurar la calidad y privacidad del conjunto de datos. Estos incluían criterios para evaluar errores en consultas estadísticas y comparar resultados con el conjunto de datos original. Al evaluar estos criterios, se aseguró que los datos publicados fueran precisos y mantuvieran los estándares de privacidad deseados.
Datos sintéticos
Generación deSe creó un conjunto de datos sintético como parte del proceso de publicación. Esto significa que el conjunto de datos final no contiene registros individuales reales, sino que se genera en función de patrones en los datos originales. Los datos sintéticos ofrecen una forma de analizar tendencias y patrones sin revelar ninguna información personal sobre las madres o los recién nacidos.
Evaluación de Datos
El conjunto de datos publicado fue sometido a una evaluación exhaustiva utilizando los criterios de aceptación establecidos. Cada criterio fue evaluado cuidadosamente para asegurar la calidad de los datos sintéticos y su cumplimiento con los estándares de privacidad. Este proceso de evaluación fue esencial para garantizar que el conjunto de datos fuera útil para la investigación y la toma de decisiones.
Presupuesto de Pérdida de Privacidad
El equipo estableció un presupuesto de pérdida de privacidad que dicta cuánto impacto puede tener los datos individuales en el conjunto de datos general. Este presupuesto es crucial para mantener un equilibrio entre la utilidad de los datos y la protección de la privacidad. La gestión efectiva de este presupuesto fue un aspecto clave del éxito del proyecto.
Confianza y Transparencia
Era vital fomentar la confianza en la publicación de los datos. El proceso fue diseñado para asegurar que el conjunto de datos cumpliera con las expectativas establecidas por las partes interesadas. Documentando cada paso de la metodología y comunicándose abiertamente sobre los datos, el equipo buscó establecer confianza y transparencia en el uso de información sensible.
Futuras Publicaciones
El equipo planea seguir refinando la metodología y explorando publicaciones adicionales de datos en el futuro. Los comentarios de las partes interesadas guiarán los esfuerzos posteriores, permitiendo mejoras y avances en el proceso.
Conclusión
La publicación de los datos de nacimientos en vivo de 2014 del Registro Nacional de Israel marca un paso significativo para hacer que los datos del gobierno sean más accesibles mientras se asegura la privacidad de los individuos. Al utilizar técnicas avanzadas y involucrar a las partes interesadas durante todo el proceso, el conjunto de datos ha sido elaborado para ofrecer valiosos conocimientos para la investigación y el desarrollo de políticas mientras protege la privacidad de los involucrados.
Título: Differentially Private Release of Israel's National Registry of Live Births
Resumen: In February 2024, Israel's Ministry of Health released microdata of live births in Israel in 2014. The dataset is based on Israel's National Registry of Live Births and offers substantial value in multiple areas, such as scientific research and policy-making. At the same time, the data was processed so as to protect the privacy of 2014's mothers and newborns. The release was co-designed by the authors together with stakeholders from both inside and outside the Ministry of Health. This paper presents the methodology used to obtain that release. It also describes the considerations involved in choosing the methodology and the process followed. We used differential privacy as our formal measure of the privacy loss incurred by the released dataset. More concretely, we prove that the released dataset is differentially private with privacy loss budget \varepsilon = 9.98. We extensively used the private selection algorithm of Liu and Talwar (STOC 2019) to bundle together multiple steps such as data transformation, model generation algorithm, hyperparameter selection, and evaluation. The model generation algorithm selected was PrivBayes (Zhang et al., SIGMOD 2014). The evaluation was based on a list of acceptance criteria, which were also disclosed only approximately so as to provide an overall differential privacy guarantee. We also discuss concrete challenges and barriers that appear relevant to the next steps of this pilot project, as well as to future differentially private releases.
Autores: Shlomi Hod, Ran Canetti
Última actualización: 2024-04-30 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2405.00267
Fuente PDF: https://arxiv.org/pdf/2405.00267
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/shlomihod/synthflow
- https://github.com/opendp/opendp/blob/c79ef2268bdc09cf733aba08b005b241ca63b365/docs/source/examples/unknown-dataset-size.ipynb
- https://github.com/opendp/opendp/blob/c79ef2268bdc09cf733aba08b005b241ca63b365/rust/src/transformations/resize/mod.rs
- https://github.com/opendp/smartnoise-sdk
- https://github.com/IBM/differential-privacy-library
- https://github.com/sdv-dev/SDGym/tree/c9e274c1c1be7e8fec6fcd1d6f88e95b38a44d14/privbayes
- https://www.bu.edu/tech/support/research/computing-resources/scc
- https://tex.stackexchange.com/qusetions/88734/mathbbm1-not-working-well-with-xelatex-mathspec