Equilibrando la privacidad de datos y las ideas del transporte
Las ciudades obtienen datos de transporte clave mientras abordan preocupaciones sobre la privacidad.
― 7 minilectura
Tabla de contenidos
Las ciudades de todo el mundo están tratando de reducir sus emisiones de carbono. Para tomar decisiones informadas, necesitan datos precisos sobre cómo se mueve la gente usando diferentes tipos de transporte. Google tiene una herramienta llamada Environmental Insights Explorer (EIE) que recopila y comparte este tipo de datos. EIE reúne información sobre cómo viajan las personas en más de 2,400 ciudades y proporciona información sobre las emisiones relacionadas con el transporte. Esto ayuda a los gobiernos locales a establecer metas para reducir emisiones y planear mejor los sistemas de transporte.
Sin embargo, recopilar datos sobre el movimiento humano plantea preocupaciones de privacidad. La gente quiere usar estos datos valiosos, pero no quiere que se revele su información personal. Para abordar esto, Google está usando técnicas de privacidad que anonimizan los datos mientras aún permiten que las ciudades obtengan información útil.
El Desafío de la Privacidad de Datos
Al compartir datos sobre la movilidad humana, es importante equilibrar la accesibilidad con la privacidad. El desafío es asegurarse de que no se exponga información personal mientras se mantiene útil el dato. Por ejemplo, si se comparten datos sobre el transporte, debe hacerse de una manera que proteja la privacidad de los usuarios individuales. Google busca enfrentar este desafío usando un método llamado Privacidad Diferencial (DP), que agrega ruido a los datos para prevenir la identificación de registros individuales.
La privacidad diferencial funciona permitiendo el acceso a patrones generales en los datos sin revelar información específica del usuario. De esta manera, incluso si se pierde algún dato sin procesar, todavía se pueden entender las tendencias generales. El objetivo es proporcionar Datos Agregados útiles (por ejemplo, la distancia total recorrida) sin divulgar los viajes de individuos específicos.
Cómo Funciona el Dato
EIE recopila datos de personas que han optado por el Historial de Ubicaciones de Google en sus smartphones. Los usuarios pueden permitir que Google rastree sus movimientos. Estos datos incluyen información sobre cómo viajan, ya sea en coche, bicicleta, a pie o en transporte público. Cada viaje registrado por la app incluye la ubicación de inicio, el destino, el modo de transporte, la distancia recorrida y el tiempo tomado.
Para proteger la privacidad, los datos se procesan localmente en los dispositivos de los usuarios antes de ser enviados al servidor. El servidor solo ve datos agregados, lo que apoya aún más la anonimidad. Este proceso permite recopilar una gran cantidad de datos mientras se protege la información personal.
Agregando Datos para Obtener Información Útil
Los datos de EIE se desglosan en estadísticas útiles, como el número de viajes realizados usando cada método de transporte en áreas específicas. Esto también incluye cuánto viajaron las personas y cuántas emisiones de dióxido de carbono (CO2) generaron durante esos viajes. Al analizar estos datos, las ciudades pueden entender cuáles métodos de transporte son los más usados y cómo contribuyen a las emisiones.
Cada semana, el objetivo es generar nuevas estadísticas basadas en los datos de usuario recopilados en esa semana específica. Para cada combinación de región, dirección y modo de transporte, se proporcionan tres métricas clave: el número de viajes realizados, la distancia total recorrida y la duración total del viaje. Estas métricas ayudan a las ciudades a seguir su progreso hacia las metas de reducción de emisiones.
Comparando Diferentes Enfoques
Hay diferentes métodos para asegurar la privacidad de los datos mientras se mantiene la utilidad de la información. Un enfoque es calcular estadísticas por separado para cada modo de transporte. Este método permite personalizar la configuración de privacidad según el número de viajes y tipos de transporte. Sin embargo, esto significa que el presupuesto de privacidad debe dividirse entre muchas estadísticas diferentes, lo que puede disminuir su efectividad.
Otro método es calcular una sola estadística global que abarque todos los detalles. Esto proporciona un enfoque más sencillo para la privacidad, pero podría hacer que los datos sean menos precisos debido al ruido añadido indiscriminadamente.
Google ha desarrollado un nuevo método, llamado Escalado de Actividad + Métrica, que combina los beneficios de ambos enfoques. Este método ajusta los datos según el modo de viaje y el tipo de métrica que se está midiendo. Al escalar la contribución de cada usuario a los datos totales antes de agregar ruido, este método busca mantener la utilidad de las estadísticas mientras asegura la privacidad.
El Proceso de Evaluación
Para asegurarse de que sus métodos sean efectivos, Google evaluó tres técnicas diferentes de medición de privacidad usando un conjunto de datos con información de millones de usuarios. El objetivo era medir qué método ofrece el mejor equilibrio entre la protección de la privacidad y la precisión de los datos que se comparten.
Ajustando su presupuesto de privacidad-la cantidad de información que se puede compartir sin perder la privacidad del usuario-Google probó qué tan bien funcionó cada método. Se fijaron especialmente en el error relativo ponderado, que muestra qué tan precisas son las estimaciones estadísticas al compararlas con los valores verdaderos.
Los resultados indicaron que el método de Escalado de Actividad + Métrica superó a otras técnicas de referencia al mantener una mayor precisión uniforme a través de diferentes métricas.
Lecciones Aprendidas y Direcciones Futuras
Esta investigación ha demostrado que es posible calcular estadísticas significativas sobre movilidad mientras se respeta la privacidad del usuario. El nuevo mecanismo asegura que los datos estén anonimizados y sigan siendo útiles para los planificadores de ciudades y responsables de políticas.
Los hallazgos sugieren que hay potencial para que este método se use en otras áreas más allá de los datos de transporte. El proceso necesitará ser refinado para automatizar algunos aspectos del manejo de datos para asegurar que la privacidad de los usuarios siga protegida sin necesidad de datos públicos extensos para ajustes.
El trabajo futuro podría involucrar la creación de mecanismos que se adapten a los tipos de datos que se están procesando. Reconociendo la importancia de consultas específicas, podría ser posible mejorar aún más la efectividad del sistema y hacer un mejor uso de los datos recopilados.
Conclusión
Los datos de diversas regiones pueden aprovecharse eficazmente para apoyar la planificación urbana sostenible mientras se asegura que se mantenga la privacidad individual. El Environmental Insights Explorer de Google es un paso importante hacia adelante al proporcionar a las ciudades las herramientas que necesitan para tomar decisiones informadas basadas en patrones de movilidad. Los enfoques que se están desarrollando tienen el potencial de ofrecer información importante sin comprometer la privacidad personal.
Al combinar métodos avanzados de privacidad con una recolección de datos práctica, Google busca apoyar a las ciudades en sus esfuerzos por reducir emisiones, mejorar la infraestructura de transporte y trabajar hacia un futuro más sostenible. A medida que los métodos continúan evolucionando, la esperanza es que más ciudades puedan acceder a datos valiosos mientras se respeta la privacidad de sus residentes.
Título: Releasing Large-Scale Human Mobility Histograms with Differential Privacy
Resumen: Environmental Insights Explorer (EIE) is a Google product that reports aggregate statistics about human mobility, including various methods of transit used by people across roughly 50,000 regions globally. These statistics are used to estimate carbon emissions and provided to policymakers to inform their decisions on transportation policy and infrastructure. Due to the inherent sensitivity of this type of user data, it is crucial that the statistics derived and released from it are computed with appropriate privacy protections. In this work, we use a combination of federated analytics and differential privacy to release these required statistics, while operating under strict error constraints to ensure utility for downstream stakeholders. In this work, we propose a new mechanism that achieves $ \epsilon \approx 2 $-DP while satisfying these strict utility constraints, greatly improving over natural baselines. We believe this mechanism may be of more general interest for the broad class of group-by-sum workloads.
Autores: Christopher Bian, Albert Cheu, Yannis Guzman, Marco Gruteser, Peter Kairouz, Ryan McKenna, Edo Roth
Última actualización: 2024-07-03 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.03496
Fuente PDF: https://arxiv.org/pdf/2407.03496
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.