Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial

Marco para Datasets Efectivos de Detección de Lenguaje de Odio

Un enfoque estructurado para crear conjuntos de datos efectivos para el análisis del discurso de odio.

― 10 minilectura


Construyendo MejoresConstruyendo MejoresConjuntos de Datos deDiscurso de Odiodetección de discurso de odio.Una guía para mejorar los métodos de
Tabla de contenidos

Detectar el discurso de Odio se ha vuelto un área importante en el procesamiento del lenguaje natural (NLP). Se usan diferentes métodos para identificar a quién se dirige, cómo recopilar datos, cómo etiquetarlos, cómo elegir los métodos de detección adecuados y cómo verificar si esos métodos funcionan bien. Un gran problema en este campo es que no tenemos suficientes Conjuntos de datos grandes y bien estructurados que se puedan usar de manera general. Esto se debe a que detectar el discurso de odio implica muchas opiniones y juicios personales.

En esta charla, vamos a ver los problemas que rodean la detección del discurso de odio desde la perspectiva de los datos. Vamos a mostrar un marco claro que incluye varios pasos importantes para crear conjuntos de datos, centrándonos en el discurso de odio dirigido a minorías sexuales. Usando este marco, la gente puede seguir las mejores prácticas al hacer conjuntos de datos sobre discurso de odio.

En los últimos años, la comunidad involucrada en el NLP ha mostrado más interés en encontrar discursos odiosos y dañinos. Se han llevado a cabo muchos talleres para apoyar la investigación en esta área, y se han creado diversas tareas para ayudar a entender conjuntos de datos populares.

Sin embargo, detectar el discurso de odio no es fácil porque a menudo depende de opiniones personales. Esto significa que los conjuntos de datos hechos para una situación pueden no funcionar bien en otra. Incluso si parecen aplicables, esto crea desafíos para diferentes aplicaciones que muchos usuarios pueden no darse cuenta. Para asegurar que los modelos de predicción funcionen de manera efectiva y justa con diferentes datos, es vital conocer las decisiones tomadas por quienes crean los conjuntos de datos en cada paso.

Muchos investigadores han analizado diferentes pasos en el proceso de creación de datos para mostrar cuán complejos pueden ser estos pasos. Por ejemplo, algunos han señalado cómo el sesgo no intencional de los Anotadores puede cambiar el sentimiento general de un conjunto de datos. Esto resalta la necesidad de que quienes crean conjuntos de datos tomen medidas para minimizar el sesgo y sigan reglas consistentes durante la etiquetación.

Nuestro trabajo tiene como objetivo conectar varios factores en un solo marco al proporcionar una forma clara de entender cómo se relacionan y difieren entre sí. Comenzamos con una breve mirada a problemas comunes que afectan los sistemas de detección de discurso de odio desde una perspectiva de datos. Luego, esbozamos la necesidad de un marco sólido que los futuros creadores de conjuntos de datos deberían seguir. Después, describimos nuestro marco en detalle y compartimos una lista de factores importantes a considerar al crear un conjunto de datos. Finalmente, discutimos los desafíos en curso en el campo de la detección del discurso de odio antes de concluir nuestro estudio.

Para resumir, nuestras principales contribuciones son: (1) Un análisis de la detección de discurso de odio desde una perspectiva de datos, señalando varios problemas que ocurren cuando los conjuntos de datos no son generalizables; (2) Un plan de investigación propuesto que cubre siete aspectos clave importantes para la creación de conjuntos de datos; y (3) Un resumen de las mejores prácticas para investigadores y profesionales.

La Necesidad de un Marco Unificado

Al crear un conjunto de datos de discurso de odio, los autores enfrentan muchas decisiones en cada paso. Esto empieza desde si etiquetar o no los datos hasta cómo escribir las reglas para etiquetar y cómo combinar las etiquetas después. Dejar sin abordar muchas de estas decisiones, lo cual ha sido común en el pasado, puede llevar a que los conjuntos de datos tengan características no deseadas como sesgo, bajo acuerdo entre los anotadores, temas poco claros o incluso preocupaciones de privacidad.

Estos problemas afectan a los conjuntos de datos de NLP en general, pero cuando se trata de tareas subjetivas como la detección de discurso de odio, es crucial evitar ambigüedades durante el proceso de recolección de datos. Argumentamos que tomar decisiones informadas en cada paso y ser transparentes sobre estas elecciones ayuda a los investigadores en el futuro a decidir si un conjunto de datos puede ser útil para otras tareas.

En las siguientes secciones, presentamos un marco que esboza un extenso plan de investigación. Este marco tiene como objetivo guiar a los creadores de conjuntos de datos para garantizar que sus conjuntos puedan ser utilizados de manera justa y efectiva por otros.

Marco Propuesto para el Discurso de Odio

Este marco proporciona orientación sobre cómo crear conjuntos de datos confiables sobre discurso de odio. Definimos siete puntos de control que encapsulan todo el proceso de creación de un conjunto de datos para el discurso de odio:

  1. Definir el Odio: Es importante definir qué constituye "odio" para una tarea en particular antes de recopilar datos.

  2. Elegir la Fuente de Datos: Analizar conjuntos de datos existentes puede ser útil para encontrar una fuente adecuada de datos que se alinee con la tarea.

  3. Etiquetar los Datos: Esto implica establecer una estructura para cómo etiquetar los datos, conocida como esquema de anotación.

  4. Escribir Directrices de Anotación: Se deben proporcionar instrucciones claras a los anotadores sobre cómo etiquetar los datos.

  5. Configurar el Proceso de Etiquetado: El método de etiquetado debe ser consistente y confiable.

  6. Elegir Anotadores: Los antecedentes e identidades de los anotadores pueden afectar sus percepciones del discurso de odio.

  7. Agregar Etiquetas: Después de etiquetar, es necesario decidir cómo combinar estas etiquetas en una verdad clara.

Es importante señalar que los creadores no tienen que seguir estos pasos de manera estricta en un orden lineal, ya que algunos pasos pueden superponerse.

Definiendo el Odio

Antes de crear un conjunto de datos, es esencial definir claramente qué significa "odio" para esa tarea específica. Descomponer el odio en componentes más pequeños puede ayudar a crear una definición precisa. Por ejemplo, si el grupo objetivo está relacionado con la orientación sexual, los investigadores pueden optar por ignorar grupos dominantes en su definición.

Definir el odio ayuda a los anotadores a adherirse a pautas específicas y asegura que etiqueten los datos correctamente.

Elegir la Fuente de Datos

Al seleccionar datos, es mejor revisar conjuntos de datos existentes que puedan satisfacer las necesidades de la tarea. Un catálogo de conjuntos de datos de código abierto puede ser un buen punto de partida para encontrar datos relevantes. Sin embargo, si los conjuntos de datos existentes no cumplen con la complejidad de la tarea, puede ser necesario crear un nuevo conjunto de datos.

Los datos de redes sociales suelen estar fácilmente disponibles y ofrecen flexibilidad en la búsqueda de contenido. También puede ser menos costoso y más accesible en comparación con las fuentes de texto tradicionales. Varias plataformas de redes sociales tienen APIs que permiten a los usuarios recopilar grandes cantidades de datos. En algunos casos, crear conjuntos de datos sintéticos con IA puede ser un enfoque valioso cuando las fuentes existentes son inadecuadas.

Definiendo el Esquema de Anotación

Un esquema de anotación detalla cómo se estructuran las etiquetas para una tarea de etiquetado. Históricamente, el discurso de odio se ha categorizado como odioso o no, pero un enfoque más flexible utilizando múltiples etiquetas puede proporcionar una mejor comprensión del contenido.

Muchos proyectos recientes sugieren usar un enfoque de múltiples niveles para categorizar el discurso de odio, permitiendo etiquetas más matizadas. Este método ayuda a capturar la complejidad del odio y proporciona mayor expresividad en las anotaciones.

Definiendo las Directrices de Anotación

Una vez establecido el esquema de anotación, es esencial proporcionar instrucciones claras a los anotadores sobre cómo etiquetar cada texto. Las directrices pueden alentar o desincentivar la subjetividad según las necesidades de la tarea.

Por ejemplo, si el objetivo es diseñar un sistema de moderación estricto, serían necesarias directrices claras y específicas. Sin embargo, si la intención es capturar puntos de vista variados, un enfoque menos preciso puede ser adecuado.

Elegir Anotadores con Identidades Específicas

Los antecedentes de los anotadores pueden influir en gran medida en su comprensión del discurso de odio. Por ejemplo, los investigadores han encontrado diferencias en cómo varios grupos interpretan el discurso de odio según sus experiencias.

Si capturar una gama de opiniones es esencial, puede ser beneficioso tener anotadores de antecedentes similares al grupo objetivo. Por otro lado, para conjuntos de datos muy estructurados, puede ser aceptable usar anotadores genéricos que no compartan experiencias.

Las decisiones sobre a quién contratar como anotadores deben alinearse con los objetivos de la tarea y la diversidad esperada en el conjunto de datos resultante.

Configurando el Proceso de Anotación

Es crucial tener un proceso de etiquetado consistente y confiable al trabajar con grandes conjuntos de datos. Varias plataformas pueden ayudar con esto. Por ejemplo, los servicios de crowdsourcing populares pueden ayudar a reunir anotaciones, proporcionando control sobre el filtrado y el análisis del rendimiento de los trabajadores.

Usar la plataforma correcta puede depender del tamaño del conjunto de datos y de la disponibilidad de anotadores.

Agregando Etiquetas

Después de que los anotadores han etiquetado los datos, el próximo desafío es determinar cómo combinar esas etiquetas para formar una conclusión clara sobre lo que se considera discurso de odio. Decidir qué perspectiva debe considerarse como estándar puede variar dependiendo de los interesados involucrados, que pueden incluir creadores de conjuntos de datos, usuarios y anotadores.

Una técnica común para manejar múltiples etiquetas es usar votación mayoritaria, aunque el método elegido puede depender del esquema de anotación. Para datos más matizados, usar etiquetas ordinales puede permitir mayor flexibilidad al promediar etiquetas.

Conclusión

Hemos visto que construir conjuntos de datos para la detección de discurso de odio viene con varios desafíos. Es importante considerar los datos y la metodología en cada paso del proceso. El marco proporcionado enfatiza la necesidad de tomar decisiones informadas, mantener declaraciones de datos detalladas y ofrecer contexto para puntos de datos individuales.

Este marco tiene como objetivo guiar a los investigadores cuando creen conjuntos de datos para la detección de discurso de odio en el futuro. Aunque cubrimos muchos aspectos de la creación de estos conjuntos de datos, aún hay otras opciones que necesitan ser exploradas, como cómo gestionar el muestreo de datos y lidiar con datos multimodales.

A medida que esta área evoluciona, se necesitarán más estudios para abordar conjuntos de datos multilingües, y se anima a los investigadores a considerar sus responsabilidades éticas en este campo.

Artículos similares