Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Aprendizaje automático# Criptografía y seguridad

Equilibrando la Privacidad y la Justicia con la Privacidad Diferencial Local

Un estudio sobre cómo LDP afecta la equidad en el aprendizaje automático.

― 7 minilectura


La privacidad seLa privacidad seencuentra con la equidaden MLequidad del aprendizaje automático.Examinando el papel del LDP en la
Tabla de contenidos

En tiempos recientes, proteger la privacidad de las personas mientras se sigue usando su información se ha vuelto super importante. La Privacidad Diferencial Local (LDP) es un método que se usa para lograr eso. Permite que los usuarios modifiquen sus datos en sus dispositivos antes de enviarlos para análisis, ayudando a mantener su info segura. Sin embargo, a medida que las empresas recopilan más y más información sensible, puede que no sea suficiente con proteger solo un dato. Cuando se conectan diferentes piezas de información, pueden dar pistas sobre datos sensibles.

Este artículo investiga cómo la recopilación de varias piezas de datos sensibles bajo LDP afecta la imparcialidad en el aprendizaje automático (ML). La imparcialidad en este contexto significa que diferentes grupos de personas son tratados por igual. También presenta una nueva forma de dividir el Presupuesto de Privacidad entre diferentes atributos sensibles, lo que puede ayudar a equilibrar privacidad, Utilidad e imparcialidad.

Contexto

El crecimiento del Big Data ha traído muchos beneficios, pero también ha planteado preguntas sobre la privacidad y la imparcialidad en el uso de datos, especialmente en el aprendizaje automático. Con tanto dato disponible, encontrar formas de mantener la información individual privada se ha vuelto complicado. Investigadores han propuesto diferentes métodos para proteger la privacidad, y uno que resalta es la privacidad diferencial.

La imparcialidad en el ML también es un tema candente. Muchos estudios muestran que individuos o grupos pueden ser tratados de manera injusta basándose en características como raza, género o estatus económico. Debido a estas preocupaciones, la privacidad y la imparcialidad son esenciales para la aplicación práctica del aprendizaje automático.

Declaración del Problema

Cuando se usa ML, no es común que las organizaciones tengan acceso a atributos sensibles, como la raza, debido a leyes y regulaciones que limitan la recogida de esta información. Esto significa que a menudo no pueden medir cuán justos son sus modelos, ya que carecen de la información necesaria. Pero si los usuarios pueden compartir sus atributos sensibles usando métodos que aseguran la Privacidad Diferencial Local, podría ser posible crear modelos que no discriminen.

Sin embargo, simplemente recopilar un atributo sensible con protección de privacidad puede no ser suficiente. A veces, otras variables pueden dar pistas sobre un atributo sensible. Estas variables proxy también podrían necesitar protección de privacidad según la ley.

Contribuciones de la Investigación

Este artículo tiene como objetivo proporcionar un estudio detallado sobre cómo procesar múltiples puntos de datos sensibles con LDP afecta la imparcialidad y utilidad en tareas de clasificación binaria. El estudio examina varias métricas de imparcialidad grupal y evalúa siete métodos diferentes de LDP.

La investigación se centra en tres contribuciones principales:

  1. Analiza cómo el preprocesamiento de datos multidimensionales con LDP afecta tanto la imparcialidad como la utilidad.
  2. Compara el impacto de varios protocolos de LDP en la imparcialidad y utilidad al entrenar clasificadores binarios.
  3. Presenta un nuevo método para dividir presupuestos de privacidad, que generalmente lleva a mejores resultados en imparcialidad en comparación con métodos existentes.

Metodología

Este estudio considera una situación donde un servidor recopila varios atributos sensibles de los usuarios bajo garantías de LDP. Los usuarios también proporcionarán datos no sensibles, que ayudan en el entrenamiento de un modelo de aprendizaje automático.

El objetivo es ver cómo entrenar un modelo con datos que han sido sanitizados bajo LDP se compara con entrenarlo con datos originales en términos de imparcialidad y utilidad. Cada atributo sensible debería ser recopilado de forma independiente para asegurar un fuerte nivel de privacidad.

El artículo también describe cómo el presupuesto de privacidad puede dividirse entre los atributos sensibles, con un enfoque en un nuevo método llamado k-based que tiene en cuenta los diferentes tamaños de los dominios de atributos.

Métricas de Imparcialidad

El artículo examina diferentes métricas para evaluar la imparcialidad para varios grupos demográficos. Las métricas elegidas incluyen:

  1. Impacto Dispar (DI): Muestra la proporción de predicciones positivas para grupos no privilegiados en comparación con grupos privilegiados. Un resultado perfecto es igual a 1.
  2. Diferencia de Paridad Estadística (SPD): Mide la diferencia entre las proporciones de predicciones positivas para ambos grupos. Un resultado perfecto es igual a 0.
  3. Diferencia de Oportunidad Igual (EOD): Se enfoca en las tasas de verdaderos positivos para ambos grupos. Un resultado perfecto es igual a 0.
  4. Diferencia de Precisión General (OAD): Verifica la tasa de precisión general entre diferentes grupos. Un resultado perfecto es igual a 0.

Privacidad Diferencial Local (LDP)

LDP asegura que los datos compartidos por los usuarios mantengan cierto nivel de protección de privacidad. Se evalúan varios protocolos de LDP de última generación, incluyendo Respuesta Aleatoria Generalizada, Hashing Local Binario, y otros.

Respuesta Aleatoria Generalizada (GRR)

Este protocolo permite que los individuos envíen sus valores verdaderos con cierta probabilidad o envíen cualquier otro valor con la probabilidad restante.

Hashing Local Binario (BLH)

Este método utiliza funciones hash para gestionar conjuntos de datos más grandes mapeando valores de entrada en un dominio más pequeño y luego aplicando GRR.

Hashing Local Óptimo (OLH)

Similar a BLH, OLH mejora permitiendo salidas que no son solo binarias.

RAPPOR

Este método utiliza Codificación One-Hot para interpretar la entrada del usuario como un vector binario, permitiendo que se envíen bits aleatorios.

Codificación Unaria Óptima (OUE)

OUE minimiza la varianza del enfoque RAPPOR perturbando bits de manera diferente.

Selección de Subconjuntos (SS)

Este método selecciona aleatoriamente ítems del dominio de entrada, dando una mayor oportunidad de que el valor verdadero se incluya en la salida.

Umbralización con Codificación de Histograma (THE)

Este protocolo codifica la entrada del usuario en un formato de histograma, aleatorizando cada bit de forma independiente.

Evaluación Experimental

Los experimentos investigan cómo el preprocesamiento de datos con LDP impacta la imparcialidad y utilidad. Se analizan varios conjuntos de datos y se exploran los compromisos entre privacidad y utilidad utilizando protocolos de LDP.

Los hallazgos muestran que la aplicación de LDP lleva a una ligera mejora en la imparcialidad en varios conjuntos de datos, mientras tiene un impacto mínimo en la utilidad de los modelos.

Resultados

Impacto en la Imparcialidad

Los resultados indican que la imparcialidad en los modelos de ML tiende a mejorar ligeramente al usar métodos de LDP. Varias métricas de imparcialidad muestran mejoras cuando se aplican protocolos de LDP en comparación con el uso de datos originales.

Impacto en la Utilidad

Las mediciones de utilidad muestran que, aunque hay una pérdida en algunas métricas de utilidad, generalmente es pequeña. La efectividad del método de división de presupuesto de privacidad k-based también es más favorable cuando los atributos sensibles muestran un tamaño de dominio más grande.

Conclusión

Esta investigación muestra que emplear Privacidad Diferencial Local para procesar múltiples atributos sensibles puede influir positivamente en la imparcialidad en el aprendizaje automático sin afectar severamente la utilidad. Los hallazgos desafían suposiciones anteriores de que usar privacidad diferencial siempre empeora la imparcialidad, proporcionando información que puede ayudar a los practicantes.

Futuras investigaciones continuarán examinando la relación entre privacidad, utilidad y imparcialidad, así como cómo se pueden optimizar diferentes algoritmos de aprendizaje automático con métodos de LDP. También hay una oportunidad de explorar el impacto de estos métodos en otros tipos de datos y modelos.

Fuente original

Título: (Local) Differential Privacy has NO Disparate Impact on Fairness

Resumen: In recent years, Local Differential Privacy (LDP), a robust privacy-preserving methodology, has gained widespread adoption in real-world applications. With LDP, users can perturb their data on their devices before sending it out for analysis. However, as the collection of multiple sensitive information becomes more prevalent across various industries, collecting a single sensitive attribute under LDP may not be sufficient. Correlated attributes in the data may still lead to inferences about the sensitive attribute. This paper empirically studies the impact of collecting multiple sensitive attributes under LDP on fairness. We propose a novel privacy budget allocation scheme that considers the varying domain size of sensitive attributes. This generally led to a better privacy-utility-fairness trade-off in our experiments than the state-of-art solution. Our results show that LDP leads to slightly improved fairness in learning problems without significantly affecting the performance of the models. We conduct extensive experiments evaluating three benchmark datasets using several group fairness metrics and seven state-of-the-art LDP protocols. Overall, this study challenges the common belief that differential privacy necessarily leads to worsened fairness in machine learning.

Autores: Héber H. Arcolezi, Karima Makhlouf, Catuscia Palamidessi

Última actualización: 2023-08-01 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2304.12845

Fuente PDF: https://arxiv.org/pdf/2304.12845

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares