Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Aprendizaje automático

Nuevo marco para detectar discursos de odio en diferentes plataformas

Presentamos PEACE, un marco para mejorar la detección de discurso de odio en diferentes plataformas en línea.

― 9 minilectura


PAZ: Un Nuevo EnfoquePAZ: Un Nuevo Enfoquepara el Discurso de Odiosociales.de odio en varias plataformas de redesPEACE mejora la detección de discursos
Tabla de contenidos

La detección de discursos de odio es encontrar contenido dañino u odioso dirigido a una persona o grupo. Este tipo de discurso puede basarse en religión, género, orientación sexual u otras características. Diferentes plataformas en línea tienen distintas reglas, lo que significa que la gente expresa el odio de varias maneras. Además, no todas las plataformas tienen suficientes datos etiquetados, lo que hace difícil crear modelos efectivos de detección de discursos de odio. Queremos saber si podemos construir un modelo que funcione en múltiples plataformas, donde entrenamos el modelo usando datos de una plataforma y lo aplicamos a otras.

Los modelos actuales a menudo dependen de patrones de lenguaje o información extra, lo que lleva a sesgos hacia palabras específicas o etiquetas de la plataforma original. Este problema puede dificultar que estos modelos funcionen bien en otras plataformas. Inspirados en ideas sociales y psicológicas, queremos ver si hay pistas naturales que nos ayuden a aprender mejores representaciones para encontrar discursos de odio en diferentes plataformas.

Para esto, proponemos un nuevo marco llamado PEACE. Este marco se enfoca en dos pistas principales encontradas en contenido odioso: el Sentimiento general del texto y el nivel de Agresión en el lenguaje. Hemos hecho muchas pruebas en varias plataformas para ver si estas pistas marcan la diferencia en cuán bien puede adaptarse el modelo.

Antecedentes sobre el Discurso de odio

Las redes sociales se han convertido en un espacio para que la gente exprese sus pensamientos y opiniones. Sin embargo, algunos usuarios usan esta plataforma para compartir mensajes de odio dirigidos a individuos o grupos basados en sus características, lo que lleva a la difusión de discursos de odio. Cuando no se aborda el discurso de odio, puede causar serias consecuencias en el mundo real, desde violencia hasta discriminación contra minorías. Así que es necesario crear modelos de detección de discursos de odio para mantener un ambiente en línea más seguro.

El discurso de odio puede variar dependiendo de la plataforma y de los objetivos específicos. Está influenciado por normas sociales, prácticas culturales y Marcos legales. Las plataformas con reglas estrictas pueden ver a los usuarios expresar odio de manera más sutil, mientras que otras pueden permitir un lenguaje más explícito. Reunir grandes conjuntos de datos etiquetados para estos modelos puede ser complicado debido a la dificultad de etiquetar y la necesidad de trabajadores calificados.

Una solución a este problema es crear un modelo que funcione en diferentes plataformas utilizando datos etiquetados de una fuente. Intentos previos de mejorar el rendimiento entre plataformas han usado señales lingüísticas o información externa. Si bien estos métodos funcionan hasta cierto punto, a menudo sufren problemas como crear conexiones falsas con palabras o características específicas que pueden no estar siempre disponibles en todas las plataformas.

La Importancia de las Señales Causales

Nuestro enfoque toma un camino diferente al centrarse en señales causales inherentes que pueden mejorar la capacidad de los modelos para detectar discursos de odio. Las señales causales son señales que permanecen consistentes a pesar de los cambios en cómo se presenta el odio. Estudios de ciencias sociales muestran ejemplos de estas señales, como el comportamiento previo del hablante, el sentimiento general y la agresión mostrada en el texto.

Sin embargo, cuando tratamos con configuraciones entre plataformas, es posible que no tengamos acceso a todas estas señales. Por lo tanto, nos enfocamos en el sentimiento general y el nivel de agresión en el texto. Estas dos señales se pueden medir fácilmente usando herramientas existentes para análisis de sentimiento y detección de agresión. La agresión tiende a correlacionarse con contenido odioso, ya que los usuarios a menudo muestran un lenguaje más agresivo cuando están ocultos detrás de la anonimidad. De igual manera, el sentimiento en mensajes de odio busca menospreciar a alguien, lo que lo hace vital a considerar.

Introduciendo el Marco PEACE

PEACE busca usar estas dos señales causales para aprender mejores representaciones para la detección de discursos de odio en diferentes plataformas. El sistema está compuesto por dos partes principales: una para extraer señales y otra para detectar discursos de odio. El primer componente recopila las señales de sentimiento y agresión, mientras que el segundo usa esta información para clasificar el contenido como odioso o no.

Extracción de Señales

El componente extractor de señales tiene dos módulos específicos: uno para el sentimiento y otro para la agresión. Dado un texto, este modelo genera un vector de atención que resume el nivel de sentimiento y agresión para cada palabra. Esto ayuda al modelo a determinar qué partes del texto son significativas para entender su sentimiento y agresión generales.

  • Módulo de Sentimiento: Este módulo es un apilamiento de transformadores que clasifica el sentimiento expresado en el texto. Predice si el sentimiento es positivo, neutral o negativo.

  • Módulo de Agresión: Similar al módulo de sentimiento, este se enfoca en detectar si el texto contiene lenguaje agresivo. Predice si el texto es agresivo o no.

Los pesos de estos módulos permanecen fijos durante la etapa de entrenamiento final, lo que significa que no los ajustamos al entrenar el detector de odio en general.

Extracción de Atención

El extractor de señales trabaja para combinar la información de los módulos de sentimiento y agresión en un solo vector de atención. Primero, recopila vectores de atención individuales de cada módulo. El enfoque aquí está en identificar las palabras o frases que más importan para entender el sentimiento o la agresión del texto. Una vez que se extraen los vectores de atención individuales de ambos módulos, se combinan para crear el vector de atención general que guía al detector de odio.

Componente del Detector de Odio

El componente del detector de odio usa su propio apilamiento de transformadores para aprender el contexto del texto. Este componente depende del vector de atención producido por el extractor de señales para ajustar su comprensión del contenido. El objetivo es clasificar el texto como odioso o no odioso, usando las señales recopiladas durante el proceso de extracción.

Pruebas del Marco

Para que nuestro marco demuestre ser efectivo, necesitamos probarlo con diferentes conjuntos de datos de varias plataformas, como Wikipedia, Facebook, Reddit, GAB y Twitter. Queríamos ver cuán bien se generaliza nuestro modelo en estas plataformas y cómo se desempeña en la detección de discursos de odio.

Comparando el Rendimiento

Al comparar PEACE con otros modelos base, encontramos que PEACE se desempeñó consistentemente mejor en múltiples conjuntos de datos, mientras que también se mantenía bien en la detección de discursos de odio dentro de la misma plataforma. Por ejemplo, cuando se entrenó en un conjunto de datos, PEACE mostró mejoras notables en el rendimiento al evaluarse en conjuntos de prueba de otras plataformas.

El Papel de las Señales Causales

Para entender el valor de las señales causales en nuestro modelo, realizamos experimentos para ver cuánto contribuye cada señal al rendimiento general. Al crear versiones de PEACE que usaron solo sentimiento, solo agresión o ninguna, pudimos evaluar qué tan esenciales eran cada señal en el proceso de detección. Los resultados mostraron que combinar ambas señales generalmente llevó a mejores resultados.

Desafíos y Limitaciones

A pesar de las fortalezas de PEACE, también enfrentamos desafíos. Un problema fue que el modelo a veces tenía dificultades con las diferentes expresiones de odio en diversos conjuntos de datos. Por ejemplo, le costaba más identificar odio dirigido a grupos más generales en comparación con individuos específicos. Esta disparidad indica que los datos de entrenamiento pueden afectar significativamente cómo se desempeña el modelo en ciertos tipos de discursos de odio.

Además, el modelo encontró más fácil detectar el discurso de odio violento que el discurso de odio ofensivo porque este último a menudo implica un lenguaje más sutil.

Conclusión

Las plataformas en línea facilitan a los individuos expresar sus pensamientos, pero esto puede llevar a discursos dañinos dirigidos a otros. Como resultado, los sistemas automatizados para detectar discursos de odio son cruciales para fomentar un ambiente en línea más seguro. El marco PEACE presenta una nueva forma de abordar esta tarea, enfocándose en señales causales inherentes para construir modelos de detección de discursos de odio con mejor rendimiento.

A través de pruebas exhaustivas, hemos demostrado que PEACE se adapta bien en diferentes plataformas aprovechando el sentimiento y la agresión presentes en los textos. La investigación continua puede mejorar aún más nuestro enfoque, como automatizar el proceso de extracción de señales o considerar el contexto de las conversaciones para mejorar la precisión.

Consideraciones Éticas

Mientras desarrollamos nuestro modelo de detección de discursos de odio, también reconocemos el equilibrio necesario entre proteger a los individuos del lenguaje dañino y mantener la libertad de expresión. Los sistemas de moderación automatizados pueden ayudar a limitar el discurso de odio, pero es necesario tener precaución para evitar etiquetar erróneamente el discurso legítimo como odio. Por lo tanto, la supervisión humana siempre debe acompañar a estos sistemas automatizados.

Usar conjuntos de datos públicamente disponibles en nuestra investigación nos proporciona una base para entender y mitigar el odio en línea. Seguimos comprometidos a asegurar la equidad y la reducción de sesgos en nuestro modelo de detección, y compartimos abiertamente nuestros hallazgos y limitaciones para promover la responsabilidad en esta área.

Fuente original

Título: PEACE: Cross-Platform Hate Speech Detection- A Causality-guided Framework

Resumen: Hate speech detection refers to the task of detecting hateful content that aims at denigrating an individual or a group based on their religion, gender, sexual orientation, or other characteristics. Due to the different policies of the platforms, different groups of people express hate in different ways. Furthermore, due to the lack of labeled data in some platforms it becomes challenging to build hate speech detection models. To this end, we revisit if we can learn a generalizable hate speech detection model for the cross platform setting, where we train the model on the data from one (source) platform and generalize the model across multiple (target) platforms. Existing generalization models rely on linguistic cues or auxiliary information, making them biased towards certain tags or certain kinds of words (e.g., abusive words) on the source platform and thus not applicable to the target platforms. Inspired by social and psychological theories, we endeavor to explore if there exist inherent causal cues that can be leveraged to learn generalizable representations for detecting hate speech across these distribution shifts. To this end, we propose a causality-guided framework, PEACE, that identifies and leverages two intrinsic causal cues omnipresent in hateful content: the overall sentiment and the aggression in the text. We conduct extensive experiments across multiple platforms (representing the distribution shift) showing if causal cues can help cross-platform generalization.

Autores: Paras Sheth, Tharindu Kumarage, Raha Moraffah, Aman Chadha, Huan Liu

Última actualización: 2023-10-08 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.08804

Fuente PDF: https://arxiv.org/pdf/2306.08804

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares