Abordando el sesgo en los clasificadores de seguridad de texto
Este artículo habla sobre métodos para reducir el sesgo en los clasificadores de seguridad de texto usando modelos de conjunto.
Olivia Sturman, Aparna Joshi, Bhaktipriya Radharapu, Piyush Kumar, Renee Shelby
― 6 minilectura
Tabla de contenidos
- La Necesidad de Clasificadores de Texto Seguros
- Nuestro Enfoque
- Construyendo el Modelo en Conjunto
- Reajuste de Datos Justos
- Métricas de Rendimiento
- Creación de Datos
- Sesgo en Modelos Actuales
- Analizando Sesgos
- Proceso de Desbiasing
- Entrenamiento y Evaluación
- Resultados
- Hallazgos Clave
- Conclusión
- Trabajo Futuro
- Fuente original
- Enlaces de referencia
El uso de modelos de lenguaje grandes (LLMs) se ha vuelto bastante común, desde chatbots hasta la creación de contenido. Para asegurar la seguridad en sus resultados, necesitamos filtros efectivos. Sin embargo, estos filtros pueden aprender Sesgos de manera involuntaria a partir de los datos en los que se entrenan, lo que puede llevar a resultados injustos. Este artículo habla sobre un método para reducir estos sesgos en los clasificadores de seguridad de texto.
La Necesidad de Clasificadores de Texto Seguros
A medida que se usan más los LLMs, la importancia de la seguridad en su funcionamiento crece. El contenido inseguro puede dañar a los usuarios, especialmente cuando se dirige a grupos específicos basados en su identidad. Para abordar esto, se han creado varias herramientas de moderación de contenido, como APIs que ayudan a filtrar contenido dañino. Sin embargo, si estos modelos se entrenan con datos desbalanceados, pueden tratar injustamente a ciertos grupos de identidad.
Nuestro Enfoque
Proponemos un método liviano para ayudar a que los clasificadores existentes sean más justos. En lugar de volver a entrenar todo el modelo, que puede ser muy intensivo en recursos, creamos un pequeño modelo en conjunto que mejora la equidad de los clasificadores mientras sigue siendo eficiente. Este método utiliza un proceso de dos pasos:
- Entrenar un modelo en conjunto que combine las salidas de los clasificadores existentes.
- Aplicar técnicas de equidad para abordar cualquier sesgo revelado durante la evaluación.
Construyendo el Modelo en Conjunto
El modelo en conjunto está diseñado para tomar las salidas de otros clasificadores como su entrada. Esto significa que se apoya en estos sistemas existentes mientras sigue siendo lo suficientemente flexible para mejorar su equidad. El modelo se entrena en un conjunto de datos más pequeño que refleja nuestras políticas de equidad.
Reajuste de Datos Justos
Para reducir los sesgos, implementamos un método de Reajuste de Datos Justos (FDW). Esta técnica ajusta la importancia de diferentes ejemplos de entrenamiento según su rendimiento en equidad. El objetivo es asegurarse de que el modelo trate a todos los grupos de identidad de manera más equitativa, sin importar su representación en los datos de entrenamiento.
Métricas de Rendimiento
Para evaluar si nuestro método es exitoso, introducimos dos métricas:
Varianza Contrafactual Promedio (ACV): Mide cuán consistentes son las predicciones del modelo entre diferentes grupos de identidad. Una puntuación más baja indica mejor equidad.
Promedios Cortados (SA): Mide el sesgo dentro de categorías de identidad específicas. Al observar las puntuaciones promedio de cada grupo, podemos ver dónde el modelo puede estar fallando.
Creación de Datos
Para mejorar nuestro enfoque de equidad, creamos nuevos conjuntos de datos diseñados específicamente para este propósito. Desarrollamos dos técnicas para generar estos conjuntos de datos:
Conjuntos de Datos con Plantillas a Nivel de Pregunta: Estos conjuntos de datos consisten en preguntas que pueden generar tanto contenido dañino como no dañino. Este método asegura que capturamos una variedad de temas mientras nos enfocamos en la diversidad de identidad.
Inyección de Diversidad: Tomamos conjuntos de datos existentes y los alteramos para incluir una gama más amplia de identidades. Esto significa transformar oraciones para reflejar diferentes grupos, ayudando al modelo a entender mejor perspectivas diversas.
Sesgo en Modelos Actuales
A través de nuestra investigación, notamos que muchos modelos existentes exhiben sesgos. Por ejemplo, preguntas similares pueden generar salidas muy diferentes según la identidad del sujeto. Esta inconsistencia puede perjudicar la experiencia del usuario y llevar a un tratamiento injusto.
Analizando Sesgos
Para entender dónde están estos sesgos, examinamos varios clasificadores y sus predicciones. Encontramos que ciertas categorías de identidad a menudo eran tratadas de manera inconsistente. Por ejemplo, una afirmación sobre una persona que se identifica como gay podría recibir una puntuación de odio más alta en comparación con la misma afirmación sobre alguien que se identifica como heterosexual. Esto resalta la necesidad de enfoques más equilibrados en el entrenamiento del modelo.
Proceso de Desbiasing
Nuestra estrategia de desbiasing se centra en construir un modelo en conjunto, que incluye varios clasificadores para mejorar el rendimiento general. Este enfoque nos permite utilizar las fortalezas de diferentes clasificadores mientras abordamos sus debilidades.
Entrenamiento y Evaluación
El modelo en conjunto se entrena tanto en el conjunto de datos original como en los nuevos datos contrafactuales. Después del entrenamiento, evaluamos la equidad del modelo utilizando nuestras métricas ACV y SA. Al hacerlo, podemos rastrear mejoras e identificar áreas que aún necesitan atención.
Resultados
Nuestros resultados mostraron que, aunque puede haber ligeras disminuciones en el rendimiento en el conjunto de datos original, las mejoras en las métricas de equidad en los conjuntos de datos contrafactuales fueron sustanciales. El modelo en conjunto no solo tuvo un mejor rendimiento en términos de equidad, sino que también mantuvo un rendimiento comparable con los clasificadores existentes.
Hallazgos Clave
- El modelo en conjunto mejoró la consistencia de las predicciones entre grupos de identidad.
- El modelo redujo las brechas en el rendimiento entre diferentes categorías de identidad.
- Hubo un aumento notable en la capacidad del modelo para manejar preguntas diversas de manera justa.
Conclusión
La necesidad de equidad en los clasificadores de seguridad de texto es crítica, especialmente a medida que los LLMs continúan evolucionando y ganando popularidad. Nuestro enfoque liviano y basado en conjuntos presenta un método efectivo para reducir sesgos sin los altos costos asociados con el reentrenamiento de modelos masivos. Al enfocarnos en soluciones prácticas como el Reajuste de Datos Justos y la creación de conjuntos de datos diversos, esperamos hacer avances significativos hacia sistemas de IA más equitativos.
Trabajo Futuro
De cara al futuro, planeamos expandir nuestra investigación al:
- Probar nuestros métodos en varios idiomas para garantizar inclusividad.
- Mejorar aún más nuestras técnicas de generación de conjuntos de datos para capturar una gama aún más amplia de categorías de identidad.
- Colaborar con otros investigadores para refinar técnicas de evaluación de equidad y aplicarlas en varios sistemas de IA.
Asegurar la equidad en la IA es un esfuerzo continuo, y a través de nuestro trabajo, esperamos contribuir a un futuro donde la tecnología sirva a todos de manera equitativa y justa.
Título: Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble
Resumen: Increasing use of large language models (LLMs) demand performant guardrails to ensure the safety of inputs and outputs of LLMs. When these safeguards are trained on imbalanced data, they can learn the societal biases. We present a light-weight, post-processing method for mitigating counterfactual fairness in closed-source text safety classifiers. Our approach involves building an ensemble that not only outperforms the input classifiers and policy-aligns them, but also acts as a debiasing regularizer. We introduce two threshold-agnostic metrics to assess the counterfactual fairness of a model, and demonstrate how combining these metrics with Fair Data Reweighting (FDW) helps mitigate biases. We create an expanded Open AI dataset, and a new templated LLM-generated dataset based on user-prompts, both of which are counterfactually balanced across identity groups and cover four key areas of safety; we will work towards publicly releasing these datasets. Our results show that our approach improves counterfactual fairness with minimal impact on model performance.
Autores: Olivia Sturman, Aparna Joshi, Bhaktipriya Radharapu, Piyush Kumar, Renee Shelby
Última actualización: 2024-10-21 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2409.13705
Fuente PDF: https://arxiv.org/pdf/2409.13705
Licencia: https://creativecommons.org/licenses/by-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.