Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

GAHD: Enfrentando el Discurso de Odio en Textos Alemanes

Un nuevo conjunto de datos tiene como objetivo mejorar los modelos de detección de discurso de odio para el idioma alemán.

― 6 minilectura


GAHD: Nuevo Conjunto deGAHD: Nuevo Conjunto deDatos sobre Discurso deOdiorecolección de datos innovadora.odio en alemán a través de unaMejorando la detección del discurso de
Tabla de contenidos

El Discurso de odio es un tema serio que puede causar daño y angustia a individuos y comunidades. Las plataformas en línea se usan a menudo para difundir mensajes de odio, por lo que es importante desarrollar sistemas que puedan identificar y manejar este tipo de contenido de manera efectiva. Los modelos de detección de discurso de odio analizan textos para señalar un lenguaje perjudicial que apunta a grupos o individuos específicos según sus características, como raza, religión o género.

El Desafío con los Conjuntos de datos Existentes

Muchos modelos de detección de discurso de odio dependen de conjuntos de datos recolectados de redes sociales o secciones de comentarios. Sin embargo, estos conjuntos de datos a menudo contienen sesgos y vacíos. Estos problemas pueden llevar a modelos que identifican incorrectamente el discurso de odio o que no lo reconocen en absoluto. Esto resulta en modelos ineficaces que pueden no funcionar bien en situaciones del mundo real.

Para abordar estos problemas, los investigadores están buscando métodos para crear mejores conjuntos de datos, especialmente recolectando Ejemplos adversariales. Estos son ejemplos diseñados específicamente para desafiar a los modelos explotando sus debilidades.

Introducción de un Nuevo Conjunto de Datos: GAHD

En este contexto, se ha creado un nuevo conjunto de datos llamado GAHD para mejorar la detección de discurso de odio específicamente para el idioma alemán. Este conjunto de datos consiste en alrededor de 11,000 ejemplos de texto adversarial. El proceso de recolección involucró varias rondas de recopilación de datos, donde a los Anotadores se les encargó crear ejemplos que confundieran a los modelos existentes.

Recolección Dinámica de Datos Adversariales

La Recolección Dinámica de Datos Adversariales (DADC) es el método usado para recolectar los datos para GAHD. Involucra múltiples rondas en las que los anotadores desarrollan textos que engañan a un modelo objetivo para que haga clasificaciones incorrectas. Luego, el modelo se vuelve a entrenar con los nuevos ejemplos recolectados, lo que mejora su rendimiento con el tiempo.

El Proceso de DADC

  1. Ronda 1: Creación Libre de Ejemplos
    En la primera ronda, se pidió a los anotadores que crearan ejemplos libremente, tratando de engañar al modelo lo mejor que pudieran. Esta ronda produjo una mezcla de ejemplos de discurso de odio y no discurso de odio, ayudando a establecer un conjunto de datos inicial.

  2. Ronda 2: Validación de Ejemplos Traducidos
    La segunda ronda involucró el uso de ejemplos traducidos de un conjunto de datos en inglés. Los anotadores validaron estas traducciones y crearon nuevos ejemplos basados en ellas, llevando a un conjunto de entradas más diverso.

  3. Ronda 3: Validación de Periódicos
    Para la tercera ronda, se analizaron oraciones de periódicos alemanes. Cualquier oración que el modelo clasificara erróneamente como discurso de odio fue revisada por los anotadores. Dado que se espera que los artículos de noticias sean fácticos y neutrales, muchas de estas malas clasificaciones revelaron posibles debilidades en el modelo.

  4. Ronda 4: Ejemplos Contrastantes
    En la ronda final, los anotadores crearon ejemplos contrastantes basados en entradas previamente recolectadas. Este proceso involucró ajustar ejemplos existentes para cambiar sus etiquetas, aumentando la variedad y complejidad del conjunto de datos.

La Importancia del Apoyo a los Anotadores

Recolectar datos puede ser un desafío y llevar mucho tiempo. El éxito de DADC depende en gran medida de la creatividad y el esfuerzo de los anotadores. Para mejorar su efectividad, los investigadores introdujeron varias estrategias de apoyo.

Estos métodos de apoyo incluyeron proporcionar ejemplos para inspirar a los anotadores y alentarlos a crear entradas más diversas. Al ofrecer orientación y recursos, los anotadores pudieron producir ejemplos de mayor calidad de manera más eficiente.

Resultados de la Recolección de GAHD

El conjunto de datos final de GAHD incluye un total de 10,996 ejemplos, con alrededor del 42.4% clasificados como discurso de odio. El proceso de creación destacó mejoras significativas en el Rendimiento del modelo después de cada ronda de recolección de datos. Los hallazgos mostraron que los modelos entrenados con datos de GAHD tuvieron un desempeño significativamente mejor, indicando que la diversidad y la naturaleza adversarial del conjunto de datos contribuyeron a una mayor robustez.

Evaluación del Rendimiento del Modelo

Para ver qué tan bien funcionaron los modelos después de entrenarse con GAHD, se aplicaron varios métodos de evaluación. El rendimiento se midió utilizando diferentes conjuntos de prueba para asegurar que los modelos pudieran manejar varios tipos de datos de manera efectiva.

Impacto de GAHD en la Robustez del Modelo

Entrenar con datos de GAHD llevó a mejoras notables en la capacidad de los modelos para detectar discurso de odio. El aumento en el rendimiento varió entre 18 y 20 puntos porcentuales en diferentes evaluaciones. Las mejoras se observaron en varias métricas, lo que sugiere que los modelos se volvieron mejores para distinguir entre discurso de odio y no discurso de odio.

Comparaciones con Otros Modelos

Además de probar los modelos entrenados con GAHD, se evaluaron varias APIs comerciales y grandes modelos de lenguaje usando este conjunto de datos. Los resultados mostraron que la mayoría de estos sistemas tuvieron dificultades con la complejidad de GAHD, con solo unos pocos logrando puntuaciones satisfactorias.

Perspectivas del Estudio

La creación de GAHD ilustra la necesidad de métodos de recolección de datos más eficientes en el procesamiento del lenguaje. Al emplear métodos diversos para involucrar a los anotadores, el estudio pudo recopilar un conjunto de datos rico que no solo mejora los modelos existentes, sino que también arroja luz sobre las sutilezas involucradas en la detección de discurso de odio.

Los investigadores concluyeron que proporcionar un apoyo variado a los anotadores es esencial para mejorar su creatividad y efectividad, llevando a mejores conjuntos de datos para entrenar modelos. Esto no solo beneficia la detección de discurso de odio, sino que también puede aplicarse a otras áreas del procesamiento de lenguaje natural.

Conclusión y Direcciones Futuras

GAHD representa un avance significativo en el campo de la detección de discurso de odio. Sus estrategias de recolección innovadoras y su extenso proceso de evaluación sirven como modelo para futuras investigaciones en el área. Los hallazgos enfatizan la importancia de la mejora continua en el entrenamiento de modelos a través de conjuntos de datos robustos.

De cara al futuro, hay varias avenidas prometedoras para la investigación adicional. Investigar estrategias de apoyo más diversas para los anotadores, así como aprovechar los avances en el procesamiento de lenguaje natural, como las posibles aplicaciones de grandes modelos de lenguaje, podría ofrecer desarrollos emocionantes para hacer que la detección de discurso de odio sea aún más efectiva.

Este conjunto de datos y las perspectivas de su creación serán fundamentales para moldear modelos más resilientes capaces de enfrentar los desafíos que plantea el discurso de odio en línea.

Fuente original

Título: Improving Adversarial Data Collection by Supporting Annotators: Lessons from GAHD, a German Hate Speech Dataset

Resumen: Hate speech detection models are only as good as the data they are trained on. Datasets sourced from social media suffer from systematic gaps and biases, leading to unreliable models with simplistic decision boundaries. Adversarial datasets, collected by exploiting model weaknesses, promise to fix this problem. However, adversarial data collection can be slow and costly, and individual annotators have limited creativity. In this paper, we introduce GAHD, a new German Adversarial Hate speech Dataset comprising ca.\ 11k examples. During data collection, we explore new strategies for supporting annotators, to create more diverse adversarial examples more efficiently and provide a manual analysis of annotator disagreements for each strategy. Our experiments show that the resulting dataset is challenging even for state-of-the-art hate speech detection models, and that training on GAHD clearly improves model robustness. Further, we find that mixing multiple support strategies is most advantageous. We make GAHD publicly available at https://github.com/jagol/gahd.

Autores: Janis Goldzycher, Paul Röttger, Gerold Schneider

Última actualización: 2024-03-28 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2403.19559

Fuente PDF: https://arxiv.org/pdf/2403.19559

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares