Evaluando la Equidad en la Toma de Decisiones Algorítmicas
Esta investigación se centra en mantener la equidad en los algoritmos a través de métodos de auditoría continua.
― 12 minilectura
Tabla de contenidos
- El papel del auditor
- Desarrollo de herramientas de auditoría
- Aplicaciones en el mundo real
- Trabajo relacionado
- Marco del problema
- Formulación del problema
- Martingalas y filtraciones
- Introducción a la metodología
- Pruebas de equidad de grupo
- Manejo de la recolección de datos variable en el tiempo
- Abordando densidades desconocidas
- Manejo de cambios en la distribución
- Nulos compuestos
- Experimentación en el mundo real
- Conclusión y direcciones futuras
- Fuente original
- Enlaces de referencia
En los últimos años, el uso de algoritmos para tomar decisiones ha aumentado tanto en empresas como en el gobierno. Este auge ha generado una creciente preocupación sobre la equidad en estos sistemas. La gente quiere asegurarse de que estos algoritmos traten a todos de manera justa y no causen daño a ningún grupo. Como resultado, muchos investigadores y organizaciones ahora se centran en lo que se llama "justicia algorítmica", que implica definir la justicia y entrenar modelos que sean justos.
Sin embargo, solo entrenar estos modelos para que sean justos no es suficiente. También necesitamos comprobar cómo se desempeñan estos algoritmos en situaciones de la vida real. Para esto, debemos auditar estos modelos para ver qué impacto tienen en las personas. Realizar estas Auditorías se ha convertido en un área esencial tanto para investigadores como para profesionales. Las auditorías pueden comenzar durante el desarrollo de los modelos, pero estos pueden cambiar con el tiempo cuando se utilizan en el mundo real. Por lo tanto, es importante seguir auditando el desempeño de estos algoritmos incluso después de que se hayan implementado. Saber si los algoritmos siguen siendo justos es crucial para garantizar que operen de manera confiable y para determinar si se necesitan cambios.
El papel del auditor
Cuando pensamos en auditar un algoritmo, necesitamos imaginar un auditor o una organización de auditoría que observa un modelo en acción. Este auditor recopila datos sobre las decisiones tomadas por el algoritmo a lo largo del tiempo. Estos datos pueden ser recopilados para probar la equidad, o podrían ser reunidos por otras razones. El objetivo principal del auditor es encontrar suficientes pruebas para decidir si el algoritmo es injusto. Si resulta que el algoritmo es injusto, queremos saberlo lo antes posible para prevenir daños a los usuarios y porque auditar puede ser caro.
Un método que la gente está usando para reflexionar sobre este tema es a través de algo llamado pruebas de hipótesis. En términos simples, tenemos dos ideas principales a considerar:
- El modelo es justo.
- El modelo es injusto.
Las pruebas de hipótesis tradicionales se basan en suposiciones estrictas sobre los datos. Por ejemplo, asume un número fijo de puntos de datos que son independientes y están distribuidos de manera idéntica. Estas suposiciones no son verdaderas en situaciones del mundo real. Necesitamos una forma de probar continuamente un sistema a medida que nueva información esté disponible. Esto se conoce como pruebas de hipótesis secuenciales. Además, queremos la capacidad de detener la recolección de más muestras en cualquier momento si encontramos suficientes pruebas para decir que la hipótesis nula (que el modelo es justo) se puede rechazar. Sin embargo, los marcos estadísticos tradicionales no permiten esto, lo que a menudo lleva a lo que se conoce como "espiado" o "p-hacking."
Para abordar estos desafíos, los investigadores están aprovechando nuevos avances que permiten inferencias seguras y válidas en cualquier momento. Este enfoque nos permite analizar datos a medida que llegan mientras garantizamos que nuestros métodos estadísticos sigan siendo válidos. Este método tiene sus raíces en el análisis secuencial, que ha sido parte de la estadística desde la década de 1940.
Recientemente, la conexión entre estos métodos de inferencia y conceptos de teoría de juegos ha proporcionado nuevas ideas sobre cómo podemos analizar e interpretar resultados. Al combinar estas ideas, podemos crear métodos que no solo son estadísticamente poderosos, sino también fáciles de entender para los practicantes.
Desarrollo de herramientas de auditoría
En nuestro trabajo, buscamos construir herramientas para ayudar a auditar tanto modelos de clasificación como de regresión a lo largo del tiempo. Esencialmente, queremos plantear el problema de auditar la equidad en términos de pruebas de hipótesis secuenciales. Este enfoque en las pruebas secuenciales distingue nuestro trabajo de otros y enfatiza dos necesidades clave:
- La capacidad de monitorear continuamente los datos entrantes.
- Un enfoque en rechazar la idea de equidad (la hipótesis nula) lo más rápido posible.
A continuación, diseñamos pruebas que no se basan en suposiciones estrictas sobre los datos, sino que se mantienen bajo diferentes definiciones de equidad. Esto se hace tratando la auditoría como una forma de prueba secuencial y adaptando métodos existentes a nuestros objetivos. Proporcionamos nuevas formas de estimar cuánto tiempo esperamos que tomen nuestras pruebas en diferentes escenarios, incluyendo cuando las distribuciones de datos subyacentes cambian con el tiempo.
Aplicaciones en el mundo real
Para demostrar la practicidad de nuestros enfoques, los aplicamos a tres conjuntos de datos de diferentes campos: datos de incumplimiento crediticio, datos del censo y datos de seguros. Ilustramos cómo nuestro método puede resistir cambios en el desempeño debido a factores como la reentrenamiento de modelos y variaciones en estrategias de Recolección de datos.
El propósito de nuestra metodología se puede entender a través de un experimento mental que involucra a un apostador hipotético que duda de la equidad de un algoritmo. Este apostador establece una situación donde puede realizar apuestas basadas en los resultados de auditorías en curso. Si el sistema es injusto, las ganancias esperadas del apostador aumentarán; si es justo, las ganancias no aumentarán mucho. Al rastrear su riqueza a lo largo del tiempo, podemos ver si la evidencia sugiere que el algoritmo es injusto.
Trabajo relacionado
Nuestra investigación se basa en varios estudios y conceptos existentes. En el lado de la equidad, trabajos anteriores han examinado la equidad a través de pruebas de hipótesis tradicionales con observaciones de tiempo fijo. En contraste, nuestro enfoque se centra en pruebas secuenciales que permiten un monitoreo continuo.
En el lado técnico, nos basamos en marcos que involucran estrategias de apuestas en pruebas de hipótesis. Implementamos estrategias de apuestas similares, pero proporcionamos análisis únicos específicos para nuestro contexto. Otros trabajos en la literatura también han adoptado ideas de teoría de juegos, que han mostrado promesas en análisis estadístico.
Auditar sistemas por su equidad no se limita solo a la toma de decisiones algorítmica. Enfoques estadísticos similares se han utilizado en otras áreas como la auditoría de resultados electorales. De manera más amplia, las ideas relacionadas con las apuestas han encontrado éxito en campos diversos como la optimización y el aprendizaje en línea.
Marco del problema
En nuestro marco, abordamos un espacio de características donde cada modelo está vinculado a un atributo sensible. Este atributo podría relacionarse con características personales como condiciones de salud o niveles de ingresos. Para simplificar, inicialmente asumimos que solo hay dos grupos definidos por el atributo sensible, pero nuestros métodos pueden adaptarse a escenarios con más de dos grupos.
Nos enfocamos en la "Equidad de Grupo", lo que significa asegurar que las personas que pertenecen a diferentes grupos sean tratadas de manera similar. Existen diferentes definiciones de equidad de grupo, y presentamos una definición general que abarca varias ideas vistas en la literatura.
Nuestro enfoque postula que un modelo predictivo es justo si los resultados promedio para diferentes grupos son similares. Cambiar las condiciones que definen la equidad llevará a diferentes conceptos de equidad que se pondrán a prueba.
Formulación del problema
Preparamos el escenario para el auditor, que ahora está observando dos flujos de predicciones que provienen del modelo. El auditor se mantendrá alerta a cualquier discrepancia entre los dos grupos. La tarea es crear una prueba de hipótesis secuencial donde el resultado se basa en las predicciones recibidas hasta un cierto punto.
El auditor "rechazará" la idea de que el modelo es justo o "no la rechazará". Una vez que el auditor decide rechazar la hipótesis nula, la recopilación de datos se detiene. La prueba tiene como objetivo asegurar una baja tasa de falsos positivos a través de todos los pasos del tiempo.
Para lograr esto, buscamos crear pruebas que tengan alta potencia, lo que significa que pueden identificar con éxito la injusticia cuando existe. Típicamente, la probabilidad de no rechazar la hipótesis nula disminuye a medida que se recopilan más datos. En nuestro trabajo, desarrollaremos pruebas con la propiedad de potencia asintótica, lo que significa que se vuelven mejores para detectar injusticias a medida que reunimos más muestras.
Martingalas y filtraciones
Nuestros métodos dependen de un concepto matemático conocido como martingalas y la estructura de secuencias de datos crecientes conocidas como filtraciones. Estas herramientas son útiles para analizar cómo se comportan los resultados a lo largo del tiempo.
Una martingale es un tipo de proceso estocástico que predice el futuro basándose solo en su comportamiento pasado y presente. En nuestro caso, podemos usar martingalas para modelar las estrategias de apuestas que utiliza el apostador hipotético. La desigualdad de Ville, un resultado bien conocido en probabilidad, nos ayuda a gestionar los riesgos involucrados en el proceso de apuestas.
Introducción a la metodología
Primero investigaremos escenarios donde las predicciones se recopilan al azar de la población. A medida que avancemos, adaptaremos nuestras estrategias para situaciones donde la recolección de datos varía con el tiempo, permitiéndonos mantener el ritmo con las circunstancias cambiantes.
Los pasos técnicos que esbozamos nos permitirán construir una prueba secuencial que pueda funcionar efectivamente en aplicaciones del mundo real. Es importante destacar que podemos continuar el análisis incluso si la recolección de datos no es uniforme o si los grupos participantes reciben predicciones en diferentes momentos.
Pruebas de equidad de grupo
La siguiente fase de nuestro trabajo implica comparar las predicciones del modelo entre diferentes grupos. Necesitamos crear pagos para nuestro apostador, reflejando los resultados de las auditorías. El auditor detendrá las pruebas si los resultados sugieren que el modelo es injusto.
El objetivo es aumentar la riqueza del apostador en situaciones donde el modelo tenga un mal desempeño. Nuestras funciones de pago elaboradas asegurarán que el apostador pueda rastrear cambios de manera efectiva.
Usando conceptos como Online Newton Step (ONS), podemos entender cómo seleccionar estrategias de apuestas óptimas para maximizar la riqueza del apostador en diferentes escenarios.
Manejo de la recolección de datos variable en el tiempo
Un desafío significativo que se encuentra en aplicaciones del mundo real es que las organizaciones a menudo recopilan datos para distintos propósitos. Esta complejidad a menudo conduce a datos sesgados que pueden no representar a toda la población de manera equitativa.
Para abordar este problema, utilizamos un método conocido como ponderación de propensión, que ajusta los resultados en función de cómo se recolectaron los datos. Al usar este enfoque, podemos asegurar que nuestros pagos reflejen con precisión los datos auditados.
Esta ajuste nos permite derivar resultados más justos según cómo se recolectaron los datos, lo cual es esencial para llevar a cabo una auditoría confiable.
Abordando densidades desconocidas
¿Qué pasa si no conocemos las distribuciones exactas de los datos? Esta preocupación es común en la práctica, y necesitamos estrategias que funcionen incluso con funciones de densidad estimadas.
En nuestro enfoque, desarrollaremos alternativas que aún permitan al auditor evaluar la equidad sin necesitar conocimiento preciso de las distribuciones. Al utilizar estimaciones de las densidades de datos, podemos calcular nuestros pagos manteniendo la precisión en nuestras pruebas.
Manejo de cambios en la distribución
Otra área gris que encontramos es cuando las características de los datos cambian con el tiempo, conocido como cambio de distribución. Tales cambios pueden ocurrir debido a factores externos, reentrenamiento de modelos o cambios en la población misma.
En nuestro marco, podemos adaptarnos a estos cambios sin tener que modificar significativamente nuestra estrategia principal. Redefiniremos nuestras hipótesis para reflejar las nuevas características de los datos, mientras seguimos siendo capaces de aplicar nuestras pruebas de manera efectiva.
Nulos compuestos
Otra consideración práctica es que solo podríamos estar interesados en detectar diferencias mayores a un cierto umbral. En tales casos, podemos crear hipótesis nulas compuestas para tener en cuenta estas diferencias más pequeñas.
Al hacerlo, aún podemos determinar si el modelo es justo sin necesidad de requerir que las medias sean exactamente iguales. Probaremos estas hipótesis compuestas como parte de nuestro proceso de auditoría.
Experimentación en el mundo real
Para validar aún más nuestros métodos, realizamos experimentos usando conjuntos de datos del mundo real, como datos de incumplimiento crediticio y datos del censo. Queremos ver qué tan bien se desempeña nuestro marco de pruebas en la detección de injusticias en estos sistemas.
A través de varias simulaciones, compararemos nuestros métodos con pruebas de tiempo fijo tradicionales. Analizaremos tasas de falsos positivos y el tiempo requerido para rechazar la hipótesis nula para demostrar la eficacia de nuestro enfoque.
Conclusión y direcciones futuras
Nuestra investigación destaca la urgente necesidad de métodos robustos y efectivos para auditar la Equidad Algorítmica de manera continua. La flexibilidad de las pruebas de hipótesis secuenciales proporciona ventajas sobre las pruebas de tiempo fijo tradicionales, permitiendo un monitoreo en tiempo real y una toma de decisiones oportuna.
Esperamos que nuestros métodos y hallazgos sean beneficiosos para los practicantes en el campo de la equidad algorítmica. Sin embargo, reconocemos que auditar es un proceso complejo que implica muchos factores más allá de solo métodos estadísticos.
El trabajo futuro debe centrarse en refinar estas herramientas e integrarlas en marcos de auditoría más amplios que consideren no solo la equidad, sino también la responsabilidad y la transparencia en la toma de decisiones algorítmicas.
Título: Auditing Fairness by Betting
Resumen: We provide practical, efficient, and nonparametric methods for auditing the fairness of deployed classification and regression models. Whereas previous work relies on a fixed-sample size, our methods are sequential and allow for the continuous monitoring of incoming data, making them highly amenable to tracking the fairness of real-world systems. We also allow the data to be collected by a probabilistic policy as opposed to sampled uniformly from the population. This enables auditing to be conducted on data gathered for another purpose. Moreover, this policy may change over time and different policies may be used on different subpopulations. Finally, our methods can handle distribution shift resulting from either changes to the model or changes in the underlying population. Our approach is based on recent progress in anytime-valid inference and game-theoretic statistics-the "testing by betting" framework in particular. These connections ensure that our methods are interpretable, fast, and easy to implement. We demonstrate the efficacy of our approach on three benchmark fairness datasets.
Autores: Ben Chugg, Santiago Cortes-Gomez, Bryan Wilder, Aaditya Ramdas
Última actualización: 2023-10-29 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.17570
Fuente PDF: https://arxiv.org/pdf/2305.17570
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.