Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Criptografía y seguridad

Lomas: Una Nueva Forma de Usar Datos Públicos

Lomas permite acceder de forma segura a datos públicos para la investigación sin comprometer la privacidad.

― 12 minilectura


Lomas: Asegurando elLomas: Asegurando elAcceso a Datos Públicosindividual.públicos mientras protege la privacidadLomas transforma el uso de datos
Tabla de contenidos

Las organizaciones públicas reúnen un montón de datos para hacer su trabajo. Estos datos son vitales para crear estadísticas importantes a nivel local, nacional e internacional. Sin embargo, leyes de privacidad estrictas limitan cuánto pueden usar estas organizaciones esa información. Para solucionar este problema, se ha desarrollado una nueva plataforma llamada Lomas. Es una herramienta de Código abierto que permite a usuarios aprobados, como investigadores y analistas del gobierno, ejecutar programas sobre datos sensibles sin ver los datos reales.

La plataforma Lomas opera en un entorno de computación seguro, típico de los sistemas de TI del gobierno. Los usuarios autorizados pueden conectarse de forma remota para enviar sus programas para los datos sensibles. Lomas procesa estos programas sin mostrar los datos a los usuarios y proporciona resultados que están protegidos por un método llamado Privacidad Diferencial. Esta técnica añade ruido intencional a los resultados, lo que hace difícil encontrar información identificable. La Privacidad Diferencial ayuda a manejar el riesgo de exposición de datos mientras asegura transparencia sobre cómo se protege y usa la información.

La introducción de Lomas representa un cambio significativo en cómo se pueden usar los datos públicos. Busca proporcionar conocimientos valiosos a partir de datos que antes se pensaban demasiado sensibles para tocar. Lomas apoya la investigación, ayuda a crear políticas, como iniciativas de salud pública, y fomenta la innovación en varios campos, todo mientras asegura que la confidencialidad de los datos sea prioritaria.

El Valor de los Datos Públicos

Los servicios públicos tienen acceso a enormes volúmenes de datos que son cruciales para sus misiones. Los gobiernos invierten mucho tiempo y recursos en recopilar, organizar y analizar esta información, lo que crea una fuente única y confiable de datos. Sin embargo, a menudo no se aprovecha todo el potencial de estos datos porque generalmente están restringidos a usos específicos, siguiendo normas como el Reglamento General de Protección de Datos (GDPR) en la Unión Europea o la Ley de Protección de Datos en Suiza.

Organizaciones como las Oficinas Nacionales de Estadística (NSOs) enfrentan leyes aún más estrictas, que les exigen proteger la confidencialidad de los datos que manejan. Esto significa que no pueden usar los datos para nada más que para producir estadísticas nacionales. Existen excepciones, como para investigaciones académicas en la UE, pero estas solicitudes deben pasar por un largo proceso de revisión, que puede ser complicado.

Los datos públicos siguen sin aprovecharse en su mayoría, y su pleno potencial solo se puede desbloquear a través del uso secundario: usar los datos para diferentes propósitos a los originalmente previstos. Otras oficinas gubernamentales pueden usar estos datos para mejorar el proceso de creación de políticas públicas. Por ejemplo, las NSOs pueden proporcionar datos demográficos y económicos precisos para ayudar a moldear decisiones sobre salud pública o educación. Los laboratorios de investigación pueden usar estos datos para fomentar el conocimiento y aumentar la competitividad de un país a través de la innovación. Las empresas pueden usar datos públicos para informar estrategias comerciales y desarrollo de productos. Además, compartir estos datos entre países puede mejorar las respuestas a crisis globales como pandemias.

Sin embargo, es esencial ganar la confianza del público al reutilizar datos. Los beneficios no deben comprometer los derechos de los individuos. Por lo tanto, es crucial controlar el riesgo de revelar datos identificables tanto dentro como fuera del sector público.

Lomas y Su Enfoque

Lomas aborda este desafío al ofrecer un servicio que permite "ciencia de datos sin mirar". Esto significa que los profesionales nunca acceden directamente a los datos sensibles. En cambio, la plataforma permite el uso efectivo de datos privados mientras maneja el riesgo de revelar información identificable.

La plataforma Lomas se basa en conceptos probados durante un hackathon de la ONU que demostró que los datos recolectados por ONGs podrían usarse de manera segura con la tecnología adecuada. La plataforma se desarrolló usando código de código abierto de este evento, proporcionando una base sólida para Lomas.

Lomas sirve como un centro para organizaciones que buscan reutilizar datos de manera segura. Entidades autorizadas pueden crear productos de datos, lo que significa cualquier resultado generado a partir del análisis de los datos, mientras aseguran que los datos confidenciales permanezcan protegidos de la exposición directa. La plataforma opera de forma remota, eliminando la necesidad de controles humanos sobre la salida de cada algoritmo, un proceso que a menudo es caro y consume mucho tiempo. Al usar tecnologías que mejoran la privacidad, todo el proceso puede automatizarse mientras se controlan los riesgos de divulgación de datos.

De esta manera, Lomas abre los beneficios de usar datos públicos que antes se consideraban demasiado sensibles o restringidos. El objetivo es gestionar efectivamente los accesos a los datos y los riesgos para que se mantenga la confidencialidad de las personas cuando se reutilizan sus datos. Además, Lomas puede ayudar a acelerar el desarrollo de algoritmos mientras se espera los procesos formales de compartir datos requeridos por la ley.

La Importancia de la Investigación

La investigación es un área principal donde Lomas puede hacer una gran diferencia. Compartir datos de los servicios públicos suele ser lento y complicado, requiriendo un acuerdo legal formal y una extensa preparación de datos. Como consecuencia, estos largos procesos pueden retrasar la investigación, lo que es especialmente problemático durante emergencias como la pandemia de COVID-19.

Lomas puede cumplir varios roles importantes en la investigación:

  1. Facilitar el Trabajo Inicial: Los investigadores pueden comenzar su trabajo antes porque pueden comenzar a probar sus algoritmos mientras esperan que finalice el proceso formal de acceso a datos. Esto beneficia tanto a los investigadores, que pueden avanzar más rápido en sus proyectos, como a las administraciones públicas, que pueden ahorrar tiempo cuando los análisis resultan ser inviables.

  2. Mejorar el Acceso: Lomas puede proporcionar acceso a datos que antes se consideraban demasiado sensibles, asegurando que los datos permanezcan SEGUROS y que el riesgo de divulgación se administre cuidadosamente. Esto permite a los investigadores analizar datos que de otro modo serían inaccesibles, ayudando a los gobiernos a maximizar el valor de los datos que han recopilado.

Para asegurar que los datos permanezcan confidenciales, los resultados generados por los algoritmos en Lomas se modifican utilizando técnicas de Privacidad Diferencial. Esto significa que para altos niveles de privacidad, los usuarios pueden acceder a la plataforma sin demasiados requisitos contractuales, ya que el riesgo de divulgar información es muy bajo. Aunque los resultados pueden tener utilidad limitada, esto aún permite a los investigadores comenzar a probar su trabajo rápidamente.

Características Únicas de Lomas

Lomas es notable porque es la primera plataforma de código abierto de su tipo desarrollada por el sector público para el sector público. Aunque principalmente sirve a funcionarios públicos e investigadores, también tiene el potencial de apoyar colaboraciones con el sector privado y ONGs.

Para asegurar que Lomas esté ampliamente disponible y sea fácil de implementar, se ha integrado en plataformas de datos existentes y se han formado asociaciones con oficinas nacionales de estadística. Esto busca promover el uso de tecnologías que mejoran la privacidad y crear herramientas valiosas para los servicios públicos.

Lomas está diseñada para asegurar que el análisis de datos se pueda realizar de manera confidencial y eficiente. Sigue principios establecidos para desarrollar plataformas seguras, que incluyen:

  • Código abierto: El código está disponible públicamente, permitiendo que cualquiera lo use, modifique o mejore.
  • Modular: Lomas se basa en bibliotecas de código abierto establecidas e integra estas para crear las funcionalidades requeridas. Esto significa que la plataforma puede apoyarse en tecnología confiable existente en lugar de reinventar la rueda.
  • Portátil: Está diseñada para implementarse fácilmente en diversos entornos, lo que la hace adecuada para diferentes tipos de servicios públicos.
  • Amigable para el usuario: La plataforma busca facilitar a los usuarios el acceso y la ejecución de sus tareas de ciencia de datos. Esto incluye métodos de implementación sencillos y uso simplificado de herramientas de privacidad.
  • Escalable: La arquitectura de la plataforma permite que crezca junto con los recursos disponibles.
  • Segura: Aunque aún no está completamente lista para producción, Lomas está implementando medidas de seguridad para proteger los datos y el acceso de los usuarios.

Cómo Funciona Lomas

La plataforma Lomas consta de dos componentes principales: una biblioteca de cliente y un servidor. La biblioteca de cliente proporciona a los usuarios herramientas para enviar solicitudes al servidor, mientras que el servidor procesa estas solicitudes y gestiona los algoritmos que se ejecutan sobre los datos.

Cuando un usuario quiere analizar datos, comienza estableciendo una conexión con Lomas y gana acceso a un entorno virtual para ejecutar sus programas. Puede revisar los conjuntos de datos disponibles, incluyendo Metadatos que les ayudan a entender los datos. Los usuarios pueden probar sus algoritmos usando conjuntos de datos ficticios que imitan la estructura de datos original sin arriesgar su presupuesto de privacidad.

Una vez que un usuario está listo para ejecutar su algoritmo, pasa por un proceso de validación para asegurar que tiene los controles de privacidad requeridos en su lugar. Si todo está en orden, el servidor recupera los datos reales de manera segura y ejecuta el algoritmo, protegiendo los resultados con Privacidad Diferencial. Luego, los resultados se envían de vuelta al usuario mientras se hace un seguimiento de las actividades del usuario para asegurar transparencia y responsabilidad.

El Rol de los Metadatos

Los metadatos son esenciales en Lomas ya que proporcionan detalles cruciales sobre los conjuntos de datos. Describen las características de los datos, como tipos y nombres de columnas. Al ofrecer esta información, los metadatos ayudan a los usuarios a entender cómo trabajar con los conjuntos de datos de manera apropiada.

Con las capacidades de la plataforma, los metadatos también pueden facilitar la creación de conjuntos de datos ficticios realistas para probar algoritmos. Conocer los posibles valores para diferentes atributos ayuda a aplicar las medidas de privacidad necesarias de manera efectiva.

Para asegurar un funcionamiento eficiente, los metadatos deben ser accesibles públicamente o estar disponibles de forma gratuita para los usuarios. Con varios servicios públicos adoptando el principio de recopilar datos solo una vez de los ciudadanos, Lomas se beneficia de los esfuerzos por estandarizar y armonizar los metadatos a través de diferentes conjuntos de datos.

Desafíos y Direcciones Futuras

Mientras Lomas ha hecho grandes avances en la gestión de la confidencialidad de los datos, aún quedan varios desafíos. El problema clave es cómo determinar el presupuesto de pérdida de privacidad adecuado. Este presupuesto permite a las organizaciones equilibrar el riesgo de revelar datos sensibles con la utilidad de los datos que se analizan.

Establecer este presupuesto implica responder preguntas difíciles sobre qué nivel de riesgo es aceptable y asegurar que los datos se puedan usar de manera confiable para sus fines previstos. Este desafío requiere una discusión más amplia que incluya soluciones técnicas y opiniones de expertos en privacidad, responsables de políticas y el público en general.

Además, Lomas busca mejorar continuamente sus características. Actualmente, integra herramientas para apoyar tareas de análisis de datos básicas de manera segura. En el futuro, planea expandir sus funcionalidades para incluir tareas de aprendizaje automático y una gestión de conjuntos de datos más sofisticada. Al confiar en metadatos bien documentados y estándares, Lomas quiere facilitar la implementación de medidas de privacidad para los usuarios.

Junto con estos avances técnicos, hay esfuerzos en curso para hacer que el uso de tecnologías que mejoran la privacidad sea más común. Iniciativas existentes fomentan la incorporación de estas tecnologías en varios marcos gubernamentales. Este enfoque busca simplificar la implementación de medidas que protejan los datos individuales mientras se avanza en la investigación y el análisis.

Conclusión

Lomas representa un gran paso adelante en cómo las organizaciones públicas pueden aprovechar los datos mientras respetan las leyes de privacidad. Con su enfoque de código abierto, enfocado en la seguridad y el compromiso con un acceso fácil para los usuarios, Lomas allana el camino para un uso responsable de los datos. Al habilitar la "ciencia de datos sin mirar", la plataforma ayuda a desbloquear valiosos conocimientos mientras protege los derechos de las personas.

A medida que Lomas continúa desarrollándose y refinando sus capacidades, tiene el potencial de crear nuevas oportunidades para la investigación, informar políticas públicas y fomentar la innovación, todo mientras mantiene los más altos estándares de confidencialidad de datos.

Fuente original

Título: Lomas: A Platform for Confidential Analysis of Private Data

Resumen: Public services collect massive volumes of data to fulfill their missions. These data fuel the generation of regional, national, and international statistics across various sectors. However, their immense potential remains largely untapped due to strict and legitimate privacy regulations. In this context, Lomas is a novel open-source platform designed to realize the full potential of the data held by public administrations. It enables authorized users, such as approved researchers and government analysts, to execute algorithms on confidential datasets without directly accessing the data. The Lomas platform is designed to operate within a trusted computing environment, such as governmental IT infrastructure. Authorized users access the platform remotely to submit their algorithms for execution on private datasets. Lomas executes these algorithms without revealing the data to the user and returns the results protected by Differential Privacy, a framework that introduces controlled noise to the results, rendering any attempt to extract identifiable information unreliable. Differential Privacy allows for the mathematical quantification and control of the risk of disclosure while allowing for a complete transparency regarding how data is protected and utilized. The contributions of this project will significantly transform how data held by public services are used, unlocking valuable insights from previously inaccessible data. Lomas empowers research, informing policy development, e.g., public health interventions, and driving innovation across sectors, all while upholding the highest data confidentiality standards.

Autores: Damien Aymon, Dan-Thuy Lam, Lancelot Marti, Pauline Maury-Laribière, Christine Choirat, Raphaël de Fondeville

Última actualización: 2024-06-24 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.17087

Fuente PDF: https://arxiv.org/pdf/2406.17087

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares