Marco para Datasets Efectivos de Detección de Lenguaje de Odio
Un enfoque estructurado para crear conjuntos de datos efectivos para el análisis del discurso de odio.
― 10 minilectura
Tabla de contenidos
- La Necesidad de un Marco Unificado
- Marco Propuesto para el Discurso de Odio
- Definiendo el Odio
- Elegir la Fuente de Datos
- Definiendo el Esquema de Anotación
- Definiendo las Directrices de Anotación
- Elegir Anotadores con Identidades Específicas
- Configurando el Proceso de Anotación
- Agregando Etiquetas
- Conclusión
- Fuente original
- Enlaces de referencia
Detectar el discurso de Odio se ha vuelto un área importante en el procesamiento del lenguaje natural (NLP). Se usan diferentes métodos para identificar a quién se dirige, cómo recopilar datos, cómo etiquetarlos, cómo elegir los métodos de detección adecuados y cómo verificar si esos métodos funcionan bien. Un gran problema en este campo es que no tenemos suficientes Conjuntos de datos grandes y bien estructurados que se puedan usar de manera general. Esto se debe a que detectar el discurso de odio implica muchas opiniones y juicios personales.
En esta charla, vamos a ver los problemas que rodean la detección del discurso de odio desde la perspectiva de los datos. Vamos a mostrar un marco claro que incluye varios pasos importantes para crear conjuntos de datos, centrándonos en el discurso de odio dirigido a minorías sexuales. Usando este marco, la gente puede seguir las mejores prácticas al hacer conjuntos de datos sobre discurso de odio.
En los últimos años, la comunidad involucrada en el NLP ha mostrado más interés en encontrar discursos odiosos y dañinos. Se han llevado a cabo muchos talleres para apoyar la investigación en esta área, y se han creado diversas tareas para ayudar a entender conjuntos de datos populares.
Sin embargo, detectar el discurso de odio no es fácil porque a menudo depende de opiniones personales. Esto significa que los conjuntos de datos hechos para una situación pueden no funcionar bien en otra. Incluso si parecen aplicables, esto crea desafíos para diferentes aplicaciones que muchos usuarios pueden no darse cuenta. Para asegurar que los modelos de predicción funcionen de manera efectiva y justa con diferentes datos, es vital conocer las decisiones tomadas por quienes crean los conjuntos de datos en cada paso.
Muchos investigadores han analizado diferentes pasos en el proceso de creación de datos para mostrar cuán complejos pueden ser estos pasos. Por ejemplo, algunos han señalado cómo el sesgo no intencional de los Anotadores puede cambiar el sentimiento general de un conjunto de datos. Esto resalta la necesidad de que quienes crean conjuntos de datos tomen medidas para minimizar el sesgo y sigan reglas consistentes durante la etiquetación.
Nuestro trabajo tiene como objetivo conectar varios factores en un solo marco al proporcionar una forma clara de entender cómo se relacionan y difieren entre sí. Comenzamos con una breve mirada a problemas comunes que afectan los sistemas de detección de discurso de odio desde una perspectiva de datos. Luego, esbozamos la necesidad de un marco sólido que los futuros creadores de conjuntos de datos deberían seguir. Después, describimos nuestro marco en detalle y compartimos una lista de factores importantes a considerar al crear un conjunto de datos. Finalmente, discutimos los desafíos en curso en el campo de la detección del discurso de odio antes de concluir nuestro estudio.
Para resumir, nuestras principales contribuciones son: (1) Un análisis de la detección de discurso de odio desde una perspectiva de datos, señalando varios problemas que ocurren cuando los conjuntos de datos no son generalizables; (2) Un plan de investigación propuesto que cubre siete aspectos clave importantes para la creación de conjuntos de datos; y (3) Un resumen de las mejores prácticas para investigadores y profesionales.
La Necesidad de un Marco Unificado
Al crear un conjunto de datos de discurso de odio, los autores enfrentan muchas decisiones en cada paso. Esto empieza desde si etiquetar o no los datos hasta cómo escribir las reglas para etiquetar y cómo combinar las etiquetas después. Dejar sin abordar muchas de estas decisiones, lo cual ha sido común en el pasado, puede llevar a que los conjuntos de datos tengan características no deseadas como sesgo, bajo acuerdo entre los anotadores, temas poco claros o incluso preocupaciones de privacidad.
Estos problemas afectan a los conjuntos de datos de NLP en general, pero cuando se trata de tareas subjetivas como la detección de discurso de odio, es crucial evitar ambigüedades durante el proceso de recolección de datos. Argumentamos que tomar decisiones informadas en cada paso y ser transparentes sobre estas elecciones ayuda a los investigadores en el futuro a decidir si un conjunto de datos puede ser útil para otras tareas.
En las siguientes secciones, presentamos un marco que esboza un extenso plan de investigación. Este marco tiene como objetivo guiar a los creadores de conjuntos de datos para garantizar que sus conjuntos puedan ser utilizados de manera justa y efectiva por otros.
Marco Propuesto para el Discurso de Odio
Este marco proporciona orientación sobre cómo crear conjuntos de datos confiables sobre discurso de odio. Definimos siete puntos de control que encapsulan todo el proceso de creación de un conjunto de datos para el discurso de odio:
Definir el Odio: Es importante definir qué constituye "odio" para una tarea en particular antes de recopilar datos.
Elegir la Fuente de Datos: Analizar conjuntos de datos existentes puede ser útil para encontrar una fuente adecuada de datos que se alinee con la tarea.
Etiquetar los Datos: Esto implica establecer una estructura para cómo etiquetar los datos, conocida como esquema de anotación.
Escribir Directrices de Anotación: Se deben proporcionar instrucciones claras a los anotadores sobre cómo etiquetar los datos.
Configurar el Proceso de Etiquetado: El método de etiquetado debe ser consistente y confiable.
Elegir Anotadores: Los antecedentes e identidades de los anotadores pueden afectar sus percepciones del discurso de odio.
Agregar Etiquetas: Después de etiquetar, es necesario decidir cómo combinar estas etiquetas en una verdad clara.
Es importante señalar que los creadores no tienen que seguir estos pasos de manera estricta en un orden lineal, ya que algunos pasos pueden superponerse.
Definiendo el Odio
Antes de crear un conjunto de datos, es esencial definir claramente qué significa "odio" para esa tarea específica. Descomponer el odio en componentes más pequeños puede ayudar a crear una definición precisa. Por ejemplo, si el grupo objetivo está relacionado con la orientación sexual, los investigadores pueden optar por ignorar grupos dominantes en su definición.
Definir el odio ayuda a los anotadores a adherirse a pautas específicas y asegura que etiqueten los datos correctamente.
Elegir la Fuente de Datos
Al seleccionar datos, es mejor revisar conjuntos de datos existentes que puedan satisfacer las necesidades de la tarea. Un catálogo de conjuntos de datos de código abierto puede ser un buen punto de partida para encontrar datos relevantes. Sin embargo, si los conjuntos de datos existentes no cumplen con la complejidad de la tarea, puede ser necesario crear un nuevo conjunto de datos.
Los datos de redes sociales suelen estar fácilmente disponibles y ofrecen flexibilidad en la búsqueda de contenido. También puede ser menos costoso y más accesible en comparación con las fuentes de texto tradicionales. Varias plataformas de redes sociales tienen APIs que permiten a los usuarios recopilar grandes cantidades de datos. En algunos casos, crear conjuntos de datos sintéticos con IA puede ser un enfoque valioso cuando las fuentes existentes son inadecuadas.
Definiendo el Esquema de Anotación
Un esquema de anotación detalla cómo se estructuran las etiquetas para una tarea de etiquetado. Históricamente, el discurso de odio se ha categorizado como odioso o no, pero un enfoque más flexible utilizando múltiples etiquetas puede proporcionar una mejor comprensión del contenido.
Muchos proyectos recientes sugieren usar un enfoque de múltiples niveles para categorizar el discurso de odio, permitiendo etiquetas más matizadas. Este método ayuda a capturar la complejidad del odio y proporciona mayor expresividad en las anotaciones.
Definiendo las Directrices de Anotación
Una vez establecido el esquema de anotación, es esencial proporcionar instrucciones claras a los anotadores sobre cómo etiquetar cada texto. Las directrices pueden alentar o desincentivar la subjetividad según las necesidades de la tarea.
Por ejemplo, si el objetivo es diseñar un sistema de moderación estricto, serían necesarias directrices claras y específicas. Sin embargo, si la intención es capturar puntos de vista variados, un enfoque menos preciso puede ser adecuado.
Elegir Anotadores con Identidades Específicas
Los antecedentes de los anotadores pueden influir en gran medida en su comprensión del discurso de odio. Por ejemplo, los investigadores han encontrado diferencias en cómo varios grupos interpretan el discurso de odio según sus experiencias.
Si capturar una gama de opiniones es esencial, puede ser beneficioso tener anotadores de antecedentes similares al grupo objetivo. Por otro lado, para conjuntos de datos muy estructurados, puede ser aceptable usar anotadores genéricos que no compartan experiencias.
Las decisiones sobre a quién contratar como anotadores deben alinearse con los objetivos de la tarea y la diversidad esperada en el conjunto de datos resultante.
Configurando el Proceso de Anotación
Es crucial tener un proceso de etiquetado consistente y confiable al trabajar con grandes conjuntos de datos. Varias plataformas pueden ayudar con esto. Por ejemplo, los servicios de crowdsourcing populares pueden ayudar a reunir anotaciones, proporcionando control sobre el filtrado y el análisis del rendimiento de los trabajadores.
Usar la plataforma correcta puede depender del tamaño del conjunto de datos y de la disponibilidad de anotadores.
Agregando Etiquetas
Después de que los anotadores han etiquetado los datos, el próximo desafío es determinar cómo combinar esas etiquetas para formar una conclusión clara sobre lo que se considera discurso de odio. Decidir qué perspectiva debe considerarse como estándar puede variar dependiendo de los interesados involucrados, que pueden incluir creadores de conjuntos de datos, usuarios y anotadores.
Una técnica común para manejar múltiples etiquetas es usar votación mayoritaria, aunque el método elegido puede depender del esquema de anotación. Para datos más matizados, usar etiquetas ordinales puede permitir mayor flexibilidad al promediar etiquetas.
Conclusión
Hemos visto que construir conjuntos de datos para la detección de discurso de odio viene con varios desafíos. Es importante considerar los datos y la metodología en cada paso del proceso. El marco proporcionado enfatiza la necesidad de tomar decisiones informadas, mantener declaraciones de datos detalladas y ofrecer contexto para puntos de datos individuales.
Este marco tiene como objetivo guiar a los investigadores cuando creen conjuntos de datos para la detección de discurso de odio en el futuro. Aunque cubrimos muchos aspectos de la creación de estos conjuntos de datos, aún hay otras opciones que necesitan ser exploradas, como cómo gestionar el muestreo de datos y lidiar con datos multimodales.
A medida que esta área evoluciona, se necesitarán más estudios para abordar conjuntos de datos multilingües, y se anima a los investigadores a considerar sus responsabilidades éticas en este campo.
Título: On the Challenges of Building Datasets for Hate Speech Detection
Resumen: Detection of hate speech has been formulated as a standalone application of NLP and different approaches have been adopted for identifying the target groups, obtaining raw data, defining the labeling process, choosing the detection algorithm, and evaluating the performance in the desired setting. However, unlike other downstream tasks, hate speech suffers from the lack of large-sized, carefully curated, generalizable datasets owing to the highly subjective nature of the task. In this paper, we first analyze the issues surrounding hate speech detection through a data-centric lens. We then outline a holistic framework to encapsulate the data creation pipeline across seven broad dimensions by taking the specific example of hate speech towards sexual minorities. We posit that practitioners would benefit from following this framework as a form of best practice when creating hate speech datasets in the future.
Autores: Vitthal Bhandari
Última actualización: 2023-09-06 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.02912
Fuente PDF: https://arxiv.org/pdf/2309.02912
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://hatespeechdata.com/
- https://developer.twitter.com/en
- https://www.reddit.com/dev/api/
- https://developers.google.com/youtube/v3/docs
- https://docs.joinmastodon.org/api/
- https://developers.tiktok.com/
- https://www.perspectiveapi.com/
- https://www.mturk.com/
- https://appen.com/
- https://github.com/doccano/doccano
- https://github.com/davidjurgens/potato
- https://labelstud.io/
- https://argilla.io/