Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial# Aprendizaje automático

Abordando el sesgo en los clasificadores de seguridad de texto

Este artículo habla sobre métodos para reducir el sesgo en los clasificadores de seguridad de texto usando modelos de conjunto.

Olivia Sturman, Aparna Joshi, Bhaktipriya Radharapu, Piyush Kumar, Renee Shelby

― 6 minilectura


Luchando contra losLuchando contra losprejuicios en losclasificadores de IAde IA.equidad en los clasificadores de textoNuevos métodos buscan mejorar la
Tabla de contenidos

El uso de modelos de lenguaje grandes (LLMs) se ha vuelto bastante común, desde chatbots hasta la creación de contenido. Para asegurar la seguridad en sus resultados, necesitamos filtros efectivos. Sin embargo, estos filtros pueden aprender Sesgos de manera involuntaria a partir de los datos en los que se entrenan, lo que puede llevar a resultados injustos. Este artículo habla sobre un método para reducir estos sesgos en los clasificadores de seguridad de texto.

La Necesidad de Clasificadores de Texto Seguros

A medida que se usan más los LLMs, la importancia de la seguridad en su funcionamiento crece. El contenido inseguro puede dañar a los usuarios, especialmente cuando se dirige a grupos específicos basados en su identidad. Para abordar esto, se han creado varias herramientas de moderación de contenido, como APIs que ayudan a filtrar contenido dañino. Sin embargo, si estos modelos se entrenan con datos desbalanceados, pueden tratar injustamente a ciertos grupos de identidad.

Nuestro Enfoque

Proponemos un método liviano para ayudar a que los clasificadores existentes sean más justos. En lugar de volver a entrenar todo el modelo, que puede ser muy intensivo en recursos, creamos un pequeño modelo en conjunto que mejora la equidad de los clasificadores mientras sigue siendo eficiente. Este método utiliza un proceso de dos pasos:

  1. Entrenar un modelo en conjunto que combine las salidas de los clasificadores existentes.
  2. Aplicar técnicas de equidad para abordar cualquier sesgo revelado durante la evaluación.

Construyendo el Modelo en Conjunto

El modelo en conjunto está diseñado para tomar las salidas de otros clasificadores como su entrada. Esto significa que se apoya en estos sistemas existentes mientras sigue siendo lo suficientemente flexible para mejorar su equidad. El modelo se entrena en un conjunto de datos más pequeño que refleja nuestras políticas de equidad.

Reajuste de Datos Justos

Para reducir los sesgos, implementamos un método de Reajuste de Datos Justos (FDW). Esta técnica ajusta la importancia de diferentes ejemplos de entrenamiento según su rendimiento en equidad. El objetivo es asegurarse de que el modelo trate a todos los grupos de identidad de manera más equitativa, sin importar su representación en los datos de entrenamiento.

Métricas de Rendimiento

Para evaluar si nuestro método es exitoso, introducimos dos métricas:

  1. Varianza Contrafactual Promedio (ACV): Mide cuán consistentes son las predicciones del modelo entre diferentes grupos de identidad. Una puntuación más baja indica mejor equidad.

  2. Promedios Cortados (SA): Mide el sesgo dentro de categorías de identidad específicas. Al observar las puntuaciones promedio de cada grupo, podemos ver dónde el modelo puede estar fallando.

Creación de Datos

Para mejorar nuestro enfoque de equidad, creamos nuevos conjuntos de datos diseñados específicamente para este propósito. Desarrollamos dos técnicas para generar estos conjuntos de datos:

  1. Conjuntos de Datos con Plantillas a Nivel de Pregunta: Estos conjuntos de datos consisten en preguntas que pueden generar tanto contenido dañino como no dañino. Este método asegura que capturamos una variedad de temas mientras nos enfocamos en la diversidad de identidad.

  2. Inyección de Diversidad: Tomamos conjuntos de datos existentes y los alteramos para incluir una gama más amplia de identidades. Esto significa transformar oraciones para reflejar diferentes grupos, ayudando al modelo a entender mejor perspectivas diversas.

Sesgo en Modelos Actuales

A través de nuestra investigación, notamos que muchos modelos existentes exhiben sesgos. Por ejemplo, preguntas similares pueden generar salidas muy diferentes según la identidad del sujeto. Esta inconsistencia puede perjudicar la experiencia del usuario y llevar a un tratamiento injusto.

Analizando Sesgos

Para entender dónde están estos sesgos, examinamos varios clasificadores y sus predicciones. Encontramos que ciertas categorías de identidad a menudo eran tratadas de manera inconsistente. Por ejemplo, una afirmación sobre una persona que se identifica como gay podría recibir una puntuación de odio más alta en comparación con la misma afirmación sobre alguien que se identifica como heterosexual. Esto resalta la necesidad de enfoques más equilibrados en el entrenamiento del modelo.

Proceso de Desbiasing

Nuestra estrategia de desbiasing se centra en construir un modelo en conjunto, que incluye varios clasificadores para mejorar el rendimiento general. Este enfoque nos permite utilizar las fortalezas de diferentes clasificadores mientras abordamos sus debilidades.

Entrenamiento y Evaluación

El modelo en conjunto se entrena tanto en el conjunto de datos original como en los nuevos datos contrafactuales. Después del entrenamiento, evaluamos la equidad del modelo utilizando nuestras métricas ACV y SA. Al hacerlo, podemos rastrear mejoras e identificar áreas que aún necesitan atención.

Resultados

Nuestros resultados mostraron que, aunque puede haber ligeras disminuciones en el rendimiento en el conjunto de datos original, las mejoras en las métricas de equidad en los conjuntos de datos contrafactuales fueron sustanciales. El modelo en conjunto no solo tuvo un mejor rendimiento en términos de equidad, sino que también mantuvo un rendimiento comparable con los clasificadores existentes.

Hallazgos Clave

  • El modelo en conjunto mejoró la consistencia de las predicciones entre grupos de identidad.
  • El modelo redujo las brechas en el rendimiento entre diferentes categorías de identidad.
  • Hubo un aumento notable en la capacidad del modelo para manejar preguntas diversas de manera justa.

Conclusión

La necesidad de equidad en los clasificadores de seguridad de texto es crítica, especialmente a medida que los LLMs continúan evolucionando y ganando popularidad. Nuestro enfoque liviano y basado en conjuntos presenta un método efectivo para reducir sesgos sin los altos costos asociados con el reentrenamiento de modelos masivos. Al enfocarnos en soluciones prácticas como el Reajuste de Datos Justos y la creación de conjuntos de datos diversos, esperamos hacer avances significativos hacia sistemas de IA más equitativos.

Trabajo Futuro

De cara al futuro, planeamos expandir nuestra investigación al:

  • Probar nuestros métodos en varios idiomas para garantizar inclusividad.
  • Mejorar aún más nuestras técnicas de generación de conjuntos de datos para capturar una gama aún más amplia de categorías de identidad.
  • Colaborar con otros investigadores para refinar técnicas de evaluación de equidad y aplicarlas en varios sistemas de IA.

Asegurar la equidad en la IA es un esfuerzo continuo, y a través de nuestro trabajo, esperamos contribuir a un futuro donde la tecnología sirva a todos de manera equitativa y justa.

Fuente original

Título: Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble

Resumen: Increasing use of large language models (LLMs) demand performant guardrails to ensure the safety of inputs and outputs of LLMs. When these safeguards are trained on imbalanced data, they can learn the societal biases. We present a light-weight, post-processing method for mitigating counterfactual fairness in closed-source text safety classifiers. Our approach involves building an ensemble that not only outperforms the input classifiers and policy-aligns them, but also acts as a debiasing regularizer. We introduce two threshold-agnostic metrics to assess the counterfactual fairness of a model, and demonstrate how combining these metrics with Fair Data Reweighting (FDW) helps mitigate biases. We create an expanded Open AI dataset, and a new templated LLM-generated dataset based on user-prompts, both of which are counterfactually balanced across identity groups and cover four key areas of safety; we will work towards publicly releasing these datasets. Our results show that our approach improves counterfactual fairness with minimal impact on model performance.

Autores: Olivia Sturman, Aparna Joshi, Bhaktipriya Radharapu, Piyush Kumar, Renee Shelby

Última actualización: 2024-10-21 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2409.13705

Fuente PDF: https://arxiv.org/pdf/2409.13705

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares