Modelos de lenguaje y expresión de género queer
Investigando cómo los modelos de lenguaje tratan el lenguaje de género no binario en línea.
― 8 minilectura
Tabla de contenidos
Mucha gente usa redes sociales para expresarse y conectar con otros. Sin embargo, algunas personas enfrentan desafíos para ser aceptadas y entendidas, especialmente aquellas que se identifican como género no binario, transgénero o queer. Estos grupos a menudo utilizan palabras o frases específicas para describirse a sí mismos, lo que a veces puede ser visto como doloroso o dañino por otros. La forma en que las plataformas de redes sociales monitorean y gestionan el contenido puede afectar si estas personas se sienten seguras expresándose en línea.
Investigaciones recientes han mostrado que las plataformas de redes sociales podrían marcar y eliminar injustamente publicaciones de usuarios transgénero y no binarios, etiquetándolas como dañinas. Este estudio examina cómo los modelos de lenguaje, que son sistemas utilizados para identificar el habla dañina, tratan el lenguaje usado por personas queer. Específicamente, buscamos entender si estos modelos reconocen con precisión cuándo se utilizan insultos o palabras ofensivas de manera no dañina por miembros de la comunidad LGBTQ+.
Importancia de los Espacios Online
Las plataformas en línea ofrecen espacios vitales para que las personas exploren su identidad y encuentren apoyo. Para muchas personas queer, que a menudo enfrentan discriminación en su vida cotidiana, estas comunidades en línea pueden ser cruciales para la salud mental y el bienestar. Cuando la Moderación de Contenido se hace de manera efectiva, puede crear entornos seguros que protegen a los usuarios del acoso. Sin embargo, si los sistemas de moderación son defectuosos, pueden llevar a la exclusión o aumentar la discriminación contra comunidades marginadas.
Tradicionalmente, la moderación de contenido ha dependido de modelos de máquina entrenados para identificar el habla dañina. Recientemente, se han empleado modelos de lenguaje más grandes (LLMs) para este propósito porque pueden considerar mejor el contexto en los mensajes. A pesar de este avance, evidencia sugiere que estos sistemas automatizados todavía perjudican a individuos marginados al marcar erróneamente su contenido como dañino.
El Papel de los Modelos de Lenguaje
Los modelos de lenguaje son sistemas diseñados para analizar e interpretar el lenguaje humano. Pueden ayudar a identificar si un texto es dañino o tóxico. Sin embargo, estos modelos parecen tener dificultades para reconocer las expresiones y dialectos únicos utilizados por personas queer. La forma en que estas personas recuperan términos despectivos a menudo puede ser malinterpretada por sistemas automatizados, llevando a clasificaciones incorrectas.
Este documento se centra en entender cómo estos modelos de lenguaje manejan el lenguaje utilizado por personas queer, particularmente en lo que respecta a los insultos recuperados. Los insultos recuperados son términos que han sido utilizados históricamente para menospreciar a un grupo, pero que están siendo utilizados con orgullo por miembros de ese grupo para afirmar su identidad. Por ejemplo, palabras como "queer" y "femboy" pueden llevar un sentido de orgullo dentro de las comunidades LGBTQ+, a pesar de sus orígenes despectivos.
Creación de Dataset
Para estudiar este tema, creamos un nuevo conjunto de datos compuesto por instancias donde se utilizan insultos recuperados de manera no despectiva. Reunimos más de 100 ejemplos, lo que nos permitió investigar qué tan bien los modelos de lenguaje clasifican estas instancias. Cada ejemplo fue puntuado en función de si podría ser visto como dañino, teniendo en cuenta el contexto y la identidad de la persona que usa el lenguaje.
Luego evaluamos cinco modelos de lenguaje diferentes para ver qué tan precisamente podían identificar el habla dañina cuando se les proporcionaba contexto adicional. El objetivo era ver si información adicional sobre el hablante podría ayudar a los modelos a entender mejor la intención detrás de las palabras.
Hallazgos
Nuestro análisis reveló que los modelos de lenguaje a menudo etiquetaban erróneamente textos escritos por usuarios queer como dañinos. De hecho, en todos los modelos probados, el desempeño en identificar correctamente textos de estas personas fue muy bajo. Esto indica que los modelos estaban marcando sistemáticamente el habla no dañina como tóxica, lo que podría contribuir a una mayor marginación de estas comunidades.
Incluso cuando los modelos fueron informados con el contexto de que el autor era un miembro del grupo objetivo, su rendimiento no mejoró mucho. Esto muestra una tendencia peligrosa donde los modelos de lenguaje son incapaces de adaptarse a las expresiones matizadas de identidad y comunidad que existen dentro del espacio LGBTQ+.
La Importancia del Contexto
Entender el lenguaje requiere más que simplemente reconocer palabras específicas. El contexto juega un papel significativo en cómo se interpreta el lenguaje. Cuando una persona queer usa un insulto para describirse a sí misma o sus experiencias, a menudo se hace de una manera que no es dañina. Sin embargo, los modelos de lenguaje pueden no tener en cuenta la sutileza y la intención detrás de estas palabras.
Muchas plataformas de redes sociales actualmente utilizan sistemas basados en palabras clave para filtrar contenido dañino, lo que puede llevar a clasificaciones erróneas. Por ejemplo, si un modelo ve un insulto en un tweet, puede etiquetarlo automáticamente como dañino sin considerar el contexto en el que se utilizó. Esta dependencia de palabras clave pasa por alto la complejidad del lenguaje humano y los significados ricos detrás de ciertos términos dentro de comunidades específicas.
Sesgo en la Moderación de Contenido
Se ha demostrado que los sistemas automatizados de moderación de contenido exhiben sesgo en contra de las poblaciones marginadas. La investigación indica que el contenido publicado por personas transgénero a menudo se etiqueta como tóxico a tasas más altas en comparación con publicaciones de otros grupos demográficos. Esto resulta en que personas LGBTQ+ sean silenciadas o excluidas de los mismos espacios en línea que se supone que deben brindar apoyo.
Además, cuando el habla dañina es identificada incorrectamente, se elevan las apuestas para la expresión y participación individual. Los usuarios pueden sentirse desanimados para compartir sus pensamientos o experiencias, temiendo que sus publicaciones sean malinterpretadas y eliminadas. Esto refuerza sentimientos de alienación y exclusión entre las personas queer.
Analizando el Habla Dañina
Determinar si un discurso es dañino puede ser subjetivo. Muchos factores pueden influir en cómo se percibe el discurso, incluyendo la identidad del hablante, el contexto del discurso y el público que lo recibe. Para combatir la subjetividad de la clasificación de daño, los investigadores han desarrollado marcos para considerar factores como el grupo objetivo, la explicitud del abuso y las intenciones del hablante.
En nuestro estudio, definimos el habla dañina con criterios específicos. Por ejemplo, si un miembro de un grupo externo usa un insulto de manera despectiva o si alguien promueve discursos de odio contra una minoría, se clasificaría como dañina. Por otro lado, si un miembro del grupo objetivo utiliza un insulto de una manera que lo recupera, es menos probable que se considere dañina.
Uso del Lenguaje Queer
El lenguaje dentro de las comunidades LGBTQ+ a menudo evoluciona para reflejar las identidades y experiencias de sus miembros. Por ejemplo, los insultos que podrían ser dañinos cuando son usados por no miembros pueden servir como una forma de empoderamiento cuando son utilizados por individuos dentro de esas comunidades. Este fenómeno se conoce como recuperación lingüística.
Sin embargo, la mayoría de los modelos de lenguaje no han sido entrenados para reconocer las complejidades de este tipo de uso del lenguaje. Sin la capacidad de diferenciar entre el habla dañina y la habla recuperada, estos modelos corren el riesgo de deseducar e informar mal a los usuarios. Cuando se silencian las voces marginadas, puede tener consecuencias de gran alcance, distanciando aún más a estos grupos de entornos de apoyo.
Conclusión
Este estudio enfatiza la necesidad urgente de equidad e inclusividad en los sistemas de moderación de contenido. Al revelar los sesgos presentes en los modelos de lenguaje, destacamos la importancia de considerar las voces de individuos marginados en los esfuerzos por refinar estos sistemas.
Para mejorar el rendimiento de los modelos de lenguaje relacionados con la identificación del habla dañina, es crucial incorporar las perspectivas de aquellos que utilizan palabras recuperadas regularmente. Involucrar a miembros de la comunidad en el proceso de capacitación de estos modelos puede llevar a desarrollos que promuevan la comprensión y la aceptación.
A medida que el lenguaje, la identidad y la comunidad continúan evolucionando, también deben hacerlo los sistemas diseñados para interpretar y gestionar nuestra comunicación. Construir entornos en línea inclusivos que respeten y reconozcan las diversas expresiones de las personas queer llevará, en última instancia, a espacios en línea más saludables y de apoyo para todos.
Al desarrollar mejores modelos y herramientas que sean sensibles al contexto del uso del lenguaje, podemos allanar el camino hacia un mundo digital más equitativo y justo donde todas las voces sean escuchadas y respetadas.
Título: Harmful Speech Detection by Language Models Exhibits Gender-Queer Dialect Bias
Resumen: Content moderation on social media platforms shapes the dynamics of online discourse, influencing whose voices are amplified and whose are suppressed. Recent studies have raised concerns about the fairness of content moderation practices, particularly for aggressively flagging posts from transgender and non-binary individuals as toxic. In this study, we investigate the presence of bias in harmful speech classification of gender-queer dialect online, focusing specifically on the treatment of reclaimed slurs. We introduce a novel dataset, QueerReclaimLex, based on 109 curated templates exemplifying non-derogatory uses of LGBTQ+ slurs. Dataset instances are scored by gender-queer annotators for potential harm depending on additional context about speaker identity. We systematically evaluate the performance of five off-the-shelf language models in assessing the harm of these texts and explore the effectiveness of chain-of-thought prompting to teach large language models (LLMs) to leverage author identity context. We reveal a tendency for these models to inaccurately flag texts authored by gender-queer individuals as harmful. Strikingly, across all LLMs the performance is poorest for texts that show signs of being written by individuals targeted by the featured slur (F1
Autores: Rebecca Dorn, Lee Kezar, Fred Morstatter, Kristina Lerman
Última actualización: 2024-06-21 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2406.00020
Fuente PDF: https://arxiv.org/pdf/2406.00020
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/unitaryai/detoxify
- https://www.queerinai.com
- https://perspectiveapi.com/case-studies/
- https://platform.openai.com/docs/models/gpt-3-5
- https://openai.com/blog/chatgpt
- https://huggingface.co/meta-llama/Llama-2-13b-hf
- https://huggingface.co/GroNLP/hateBERT
- https://huggingface.co/mistralai/Mistral-7B-v0.1
- https://huggingface.co/meta-llama/LLaMA-2-13b-hf
- https://github.com/rebedorn/QueerReclaimLex
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://www.law.cornell.edu/wex/harassment