Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Aprendizaje automático# Informática y sociedad

Avanzando en la Equidad en Modelos de Aprendizaje Automático

Este estudio examina la equidad en el aprendizaje multitarea usando datos demográficos de tareas relacionadas.

― 10 minilectura


Equidad en IA a travésEquidad en IA a travésdel AprendizajeMulti-Tareaaprendizaje automático.mejorar la equidad en los modelos deAprovechando tareas relacionadas para
Tabla de contenidos

Para hacer que los sistemas de aprendizaje automático sean justos, a menudo usamos medidas de equidad durante el entrenamiento que dependen de información demográfica de los datos. Sin embargo, muchos conjuntos de datos no incluyen detalles Demográficos, lo que hace difícil crear modelos justos para varias tareas. Esto plantea una pregunta: ¿podemos usar información demográfica de una tarea relacionada para ayudar a mejorar la equidad en una tarea objetivo?

Este trabajo muestra que los objetivos de equidad se pueden transferir a nuevas tareas al usar un enfoque de Aprendizaje multitarea. Al ajustar una medida de equidad destinada a una sola tarea para adaptarla a un contexto de múltiples tareas, podemos usar etiquetas demográficas de una tarea relacionada para ayudar a reducir el Sesgo en nuestra tarea objetivo.

Investigamos diferentes escenarios donde los datos demográficos podrían estar faltando y demostramos cómo nuestro enfoque puede mejorar la equidad en diversas tareas y dominios. Se ha observado que los modelos de aprendizaje automático pueden funcionar muy bien en general, pero pueden tener peores resultados en grupos específicos, especialmente en subpoblaciones más pequeñas. Una alta precisión a veces puede ocultar un mal rendimiento en estos grupos.

Para abordar estos problemas, el campo de la IA Responsable ha desarrollado varias técnicas para hacer que los sistemas de IA sean más justos. Estas técnicas incluyen nuevos objetivos de entrenamiento, modificar el modelo entrenado después de haber sido construido, o cambiar cómo se representa el dato durante el entrenamiento para minimizar el sesgo. El objetivo sigue siendo usar metadatos, como la demografía del autor del documento, para mejorar los resultados justos durante el entrenamiento y la evaluación.

Sin embargo, en muchas situaciones, carecemos de acceso a información demográfica para las muestras de entrenamiento. Además, la mayoría de los enfoques de equidad se centran en una sola característica demográfica para definir la membresía del grupo, mientras que las realidades a menudo involucran múltiples características demográficas interactuando juntas. El término "Interseccionalidad" se refiere a cómo diferentes formas de discriminación se cruzan, y este concepto surge del ámbito legal, mostrando las inadequaciones de las leyes diseñadas para proteger a individuos basándose únicamente en una característica.

En los primeros estudios de aprendizaje automático, se observó que ciertos modelos, especialmente en el reconocimiento facial, funcionaban desproporcionadamente peor para grupos demográficos específicos, especialmente aquellos en la intersección de género y raza. Hay una creciente necesidad de datos demográficos más diversos, ya que la mayoría de los conjuntos de datos solo consideran una dimensión a la vez, como raza o género por separado. Los métodos actuales enfrentan desafíos para asegurar la equidad para estos grupos interseccionales cuando no está presente la información demográfica necesaria.

Algunos han sugerido usar variables proxy o información demográfica inferida cuando los datos demográficos no están disponibles. Sin embargo, estos métodos dependen de cuán precisa sea la inferencia demográfica o de la disponibilidad de variables proxy como nombres. En cambio, nos inspiramos en el aprendizaje multitarea (MTL).

En MTL, a menudo hay una pequeña cantidad de datos para una tarea principal que puede ser respaldada por datos de tareas relacionadas. Cuando estas tareas se entrenan juntas, puede resultar en mejores resultados que entrenarlas por separado, ya que la información puede compartirse entre las tareas durante el proceso de entrenamiento. Este enfoque ha ganado popularidad en el procesamiento del lenguaje natural (NLP), especialmente con el uso de grandes modelos de lenguaje.

Desafortunadamente, los estudios indican que afinar estos modelos de lenguaje aún puede producir resultados injustos, incluso cuando se comienza con un modelo diseñado para evitar sesgo. Esto sugiere que la equidad debe ser parte de cualquier proceso de afinación, que normalmente requiere información demográfica para cada tarea.

Presentamos un modelo de aprendizaje multitarea que transfiere la equidad de una tarea a otra. Nuestros experimentos utilizan varios conjuntos de datos de NLP para evaluar nuestro método en diferentes áreas: notas clínicas, reseñas en línea, sentimientos de Twitter y detección de discurso de odio.

Nos centramos en lograr equidad en la intersección de diferentes atributos demográficos aprovechando dos tareas, cada una asociada con diferentes características demográficas. Este método busca crear un modelo que sirva a ambas tareas de manera justa, incluso cuando cada tarea solo tiene acceso a parte de la información demográfica.

Las contribuciones principales de este trabajo incluyen:

  1. Transferir la equidad entre tareas adaptando las mediciones de equidad de tareas individuales a un contexto multitarea.
  2. Abordar la equidad para grupos interseccionales incluso cuando faltan datos demográficos a través de una pérdida de equidad multitarea especializada.
  3. Discutir la conexión entre cuán similares son las tareas y la capacidad de generalizar la equidad entre esas tareas.

Comenzamos definiendo nuestro escenario de aprendizaje. Supongamos que queremos crear un clasificador sin sesgo para la tarea A, que tiene entrada de texto y etiquetas pero carece de información demográfica. Sin embargo, sí poseemos datos demográficos para la tarea B, que está relacionada pero es diferente de la tarea A. Al entrenar un modelo que abarca ambas tareas A y B junto con una pérdida de equidad vinculada solo a la tarea B, buscamos desarrollar un modelo justo para la tarea A.

De manera similar, extendemos este concepto al entrenamiento de equidad interseccional. Buscamos entrenar clasificadores para ambas tareas A y B, donde A usa atributos de género y B usa atributos de raza. Dado que ninguna tarea proporciona ambos atributos simultáneamente, tenemos que crear un enfoque combinado para lograr equidad interseccional.

En esta sección, revisaremos nuestras definiciones de equidad y las pérdidas asociadas, definiendo formalmente nuestros objetivos de entrenamiento y el proceso de entrenamiento mismo.

Pérdida de Equidad

Utilizamos una definición de equidad que permite la interseccionalidad y es adecuada para su inclusión en el entrenamiento del modelo. Un ejemplo que usamos es una métrica de equidad modificada que asegura que las tasas de recuperación y especificidad sean iguales entre grupos demográficos y sus intersecciones.

Para enmarcar esto formalmente, digamos que tenemos atributos demográficos discretos. Un modelo logra el objetivo de equidad si, para todos los resultados, mantiene resultados similares en todas las categorías demográficas definidas. Cuanto más cerca estemos de una puntuación de cero, más justo será el modelo.

Tradicionalmente, las métricas de equidad se incluyen en los objetivos de aprendizaje al sumarlas a la pérdida existente. Por ejemplo, al entrenar un modelo de aprendizaje profundo, nuestra pérdida consistiría tanto en la pérdida de predicción como en la pérdida de equidad con algún peso para equilibrarlas.

En nuestro modelo, realizamos un entrenamiento multitarea donde esta pérdida de equidad se aplica solo a una tarea. Los parámetros del modelo compartido deberían aprender de ambas tareas mientras aseguran que las restricciones de equidad de la otra tarea influyan en los resultados de manera apropiada.

En el caso de la equidad interseccional, desarrollamos nuestro método para combinar las pérdidas de equidad de ambas tareas. Cada tarea tiene sus propios atributos demográficos, que utilizamos para lograr equidad en ambos dominios simultáneamente.

Transferir objetivos de equidad de una tarea a otra puede aplicarse técnicamente a cualquier situación multitarea donde solo una tarea tiene información demográfica disponible. Sin embargo, evaluar nuestro método requiere datos demográficos para el conjunto de pruebas de cada tarea.

Para examinar la efectividad de nuestro modelo, utilizamos conjuntos de datos en diferentes áreas: registros clínicos, reseñas en línea y redes sociales. Cada conjunto de datos se centra en tareas distintas mientras tiene variadas consideraciones de atributos demográficos.

Registros Clínicos

Utilizamos el conjunto de datos MIMIC-III, que incluye registros médicos anonimizados de una unidad de cuidados críticos. Seleccionamos dos tareas de esta base de datos:

  1. Mortalidad durante la hospitalización: Esta tarea intenta predecir si un paciente morirá durante su estadía en el hospital basándose en notas creadas en sus primeras 48 horas.

  2. Fenotipado: Esta tarea asigna condiciones médicas según la evidencia encontrada en los registros clínicos.

El enfoque se centra en caracterizar condiciones y asegurar que el modelo se mantenga justo y rinda con precisión.

Para las tareas clínicas, la información demográfica está limitada al género. Al entrenar nuestros modelos, preparamos los datos para que se ajusten a los límites de codificación necesarios para el procesamiento.

Reseñas en Línea

Las reseñas en línea proporcionan una gran cantidad de comentarios que pueden ayudar a las empresas a mejorar sus ofertas. En este contexto, utilizamos datos de Trustpilot, una plataforma donde los usuarios pueden reseñar varios productos y servicios. Cada reseña está acompañada de una calificación en una escala de cinco puntos.

Nos enfocamos específicamente en dos tareas:

  1. Análisis de Sentimientos: Según las calificaciones, las reseñas pueden etiquetarse como negativas, neutrales o positivas.

  2. Clasificación de Temas: Las reseñas se categorizan según la materia, como moda o fitness.

Ambas tareas tienen datos demográficos compartidos para edad y género, lo que nos permite asegurar la equidad en los resultados. Organizamos los datos en conjuntos de entrenamiento equilibrados para mantener un balance en la representación demográfica.

Redes Sociales

Las plataformas de redes sociales, como Twitter, albergan usuarios diversos, lo que plantea desafíos únicos para los sistemas de NLP. Para nuestros experimentos, analizamos dos tareas:

  1. Clasificación de Sentimientos: Esta tarea determina si un tweet transmite un sentimiento positivo o negativo, utilizando emojis y análisis del lenguaje.

  2. Detección de Discurso de Odio: Esta tarea binaria categoriza publicaciones como tóxicas o no tóxicas.

Las variables demográficas se infieren en base a patrones lingüísticos. Buscamos asegurar que nuestros modelos funcionen de manera justa en estos entornos mientras aplicamos eficazmente nuestro enfoque multitarea.

Resultados

Evaluamos nuestras técnicas en diferentes conjuntos de datos y tareas, buscando demostrar que nuestros modelos pueden aprender a ser justos incluso cuando los datos son limitados.

Nuestros hallazgos muestran que los modelos entrenados utilizando nuestras medidas de equidad a menudo superan a aquellos entrenados sin ellas. Esto sugiere que la equidad y el rendimiento pueden coexistir y que las técnicas que empleamos ayudan a crear mejores resultados para tareas que carecen de información demográfica completa.

Conclusión

Esta exploración de la equidad en el aprendizaje multitarea abre nuevas avenidas para hacer que los modelos de aprendizaje automático sean más equitativos. Al utilizar efectivamente información de tareas relacionadas, desarrollamos métodos para asegurar que los sistemas de IA puedan funcionar de manera justa a través de poblaciones diversas.

El trabajo futuro puede expandir estas ideas, integrando aún más consideraciones de equidad y explorando su impacto en diferentes conjuntos de datos y tareas. A medida que avanzamos, el objetivo será mejorar tanto el rendimiento como la equidad, asegurando que el aprendizaje automático beneficie a todos de manera equitativa.

Fuente original

Título: Transferring Fairness using Multi-Task Learning with Limited Demographic Information

Resumen: Training supervised machine learning systems with a fairness loss can improve prediction fairness across different demographic groups. However, doing so requires demographic annotations for training data, without which we cannot produce debiased classifiers for most tasks. Drawing inspiration from transfer learning methods, we investigate whether we can utilize demographic data from a related task to improve the fairness of a target task. We adapt a single-task fairness loss to a multi-task setting to exploit demographic labels from a related task in debiasing a target task and demonstrate that demographic fairness objectives transfer fairness within a multi-task framework. Additionally, we show that this approach enables intersectional fairness by transferring between two datasets with different single-axis demographics. We explore different data domains to show how our loss can improve fairness domains and tasks.

Autores: Carlos Aguirre, Mark Dredze

Última actualización: 2024-04-15 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2305.12671

Fuente PDF: https://arxiv.org/pdf/2305.12671

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares