Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática # Computación y lenguaje # Aprendizaje automático

Detección de Discurso de Odio en Idiomas de Bajos Recursos

Esta encuesta resalta los desafíos y avances en la detección del discurso de odio en varios idiomas.

Susmita Das, Arpita Dutta, Kingshuk Roy, Abir Mondal, Arnab Mukhopadhyay

― 7 minilectura


Detectando el discurso de Detectando el discurso de odio: retos por delante estudiados. de discursos de odio en idiomas menos Explora los obstáculos de la detección
Tabla de contenidos

Las redes sociales han cambiado la forma en que nos comunicamos en los últimos diez años. La gente puede intercambiar ideas, opiniones y, a veces, comentarios no tan bonitos. El anonimato en estas plataformas a menudo lleva al Discurso de odio, que se ha convertido en un gran problema en todo el mundo. No se trata solo de lo que la gente dice, sino también de cómo lo dice. Con los idiomas evolucionando, surgen nuevas palabras y expresiones. Esto crea un desafío para quienes intentan entender y lidiar con el discurso de odio.

Mientras que el inglés ha recibido mucha atención en relación con la detección del discurso de odio, muchos hablantes usan sus idiomas nativos en línea. Esto ha llevado a una necesidad de investigación centrada en esos idiomas de bajos recursos donde no hay suficientes datos o estudios. Esta encuesta desglosará la situación y presentará hallazgos sobre la detección del discurso de odio en esos idiomas.

¿Qué es el Discurso de Odio?

Definir el discurso de odio no es algo sencillo. Es como intentar atrapar un pez resbaladizo. Diferentes grupos de personas tienen diferentes opiniones sobre lo que cuenta como discurso de odio. Generalmente, el discurso de odio incluye palabras o acciones que atacan a individuos o grupos basados en raza, religión, género u otros factores de identidad. Por ejemplo, si alguien usa términos despectivos para insultar a una raza o religión específica, eso entra en el discurso de odio.

Muchas plataformas importantes de redes sociales tienen sus propias definiciones. Por ejemplo:

  • Meta: Define el discurso de odio como ataques directos contra personas basados en características protegidas como la raza y el género.
  • YouTube: Cree que el discurso de odio es cualquier cosa que incite a la violencia contra ciertos grupos.
  • Twitter: Prohíbe ataques basados en la raza, género y otros rasgos personales.
  • TikTok: Se centra en contenido que deshumaniza a las personas según sus características.
  • LinkedIn: Prohíbe el discurso de odio que apunta a personas basadas en rasgos personales.

Categorías del Discurso de Odio

El discurso de odio se puede clasificar en varias categorías según a quién o qué está dirigido. Aquí hay algunas principales:

Racismo y Xenofobia

Esta categoría incluye comentarios negativos hacia personas basados en su raza o nacionalidad. Por ejemplo, los inmigrantes a menudo enfrentan hostilidad según de dónde vienen.

Sexismo y Odio de Género

Esto involucra comentarios sesgados hacia individuos basados en su género. Mientras que las mujeres a menudo soportan la peor parte de tales comentarios, personas de varios géneros también experimentan discurso de odio.

Discurso de Odio Religioso

Este tipo se dirige a individuos basados en sus creencias religiosas. La discriminación puede llevar a la violencia, conflicto o disturbios sociales.

Discapacidad

El discurso de odio aquí está dirigido a individuos con discapacidades. Esto puede incluir comentarios despectivos o suposiciones sobre sus habilidades.

¿Por qué es Difícil Detectar el Discurso de Odio?

Detectar el discurso de odio es complicado por varias razones. Primero, el lenguaje puede ser complicado y el contexto importa. Lo que puede parecer un comentario inofensivo en un entorno podría ser ofensivo en otro. La gente a menudo usa sarcasmo o juegos de palabras ingeniosos que pueden confundir a los sistemas automáticos.

En segundo lugar, las redes sociales generan toneladas de datos a diario, lo que hace casi imposible monitorear todo manualmente. Por lo tanto, hay una gran necesidad de que las máquinas ayuden con la tarea de detectar el discurso de odio automáticamente.

La Necesidad de Detección Automática de Discurso de Odio

A medida que más personas recurren a las redes sociales para expresarse, la cantidad de discurso de odio ha crecido junto con ello. El monitoreo manual simplemente no es factible. Muchos investigadores han recurrido a métodos de detección automática utilizando tecnología para combatir este problema.

Los sistemas automáticos utilizan técnicas avanzadas en procesamiento de lenguaje natural, aprendizaje automático y aprendizaje profundo. Filtran enormes cantidades de texto para identificar contenido odioso. Sin embargo, gran parte de esta investigación se ha centrado en el inglés, dejando un vacío en los estudios relacionados con otros idiomas.

Los Conjuntos de datos

Recopilar datos sobre el discurso de odio es una parte clave del entrenamiento de los sistemas de detección. La mayoría de los conjuntos de datos disponibles están en inglés. Varios conjuntos de datos de Twitter y otras plataformas brindan recursos valiosos, pero la recopilación para idiomas de bajos recursos sigue siendo un desafío.

Los investigadores han comenzado a compilar conjuntos de datos en idiomas como árabe, hindi, tamil y otros, centrándose en aspectos monolingües y multilingües. Sin embargo, la cantidad y calidad aún no están al nivel de los conjuntos de datos en inglés.

Técnicas Usadas en la Detección de Discurso de Odio

Los principales métodos para detectar el discurso de odio involucran una mezcla de enfoques tradicionales y modernos:

Métodos Tradicionales

Inicialmente, la detección basada en palabras clave era común. Esto solo involucraba identificar ciertas palabras o frases asociadas con el discurso de odio. Aunque útil, pasaba por alto el contexto y la matización, lo que llevaba a muchos falsos positivos.

Técnicas Modernas

Los enfoques recientes han cambiado hacia el uso de modelos de aprendizaje profundo que consideran el contexto, el sentimiento e incluso imágenes. Por ejemplo:

  • BERT: Este modelo entiende la relación entre palabras y sus significados en contexto.
  • CNN: Las Redes Neuronales Convolucionales se utilizan a menudo para identificar patrones en el texto.
  • RNN: Las Redes Neuronales Recurrentes están diseñadas para entender secuencias, lo que las hace útiles para el procesamiento del lenguaje.

Desafíos en Idiomas de Bajos Recursos

Para los idiomas de bajos recursos, los desafíos se multiplican:

  1. Falta de Datos: Simplemente no hay suficientes datos públicos disponibles para entrenar modelos de manera efectiva, lo que lleva a una detección menos precisa.
  2. Matices Culturales: Diferentes regiones usan los idiomas de maneras distintas, lo que crea dificultad para desarrollar un modelo que sirva para todos.
  3. Definición de Discurso de Odio: El término "discurso de odio" tiene diferentes significados en diferentes culturas, complicando la anotación de conjuntos de datos.

Oportunidades de Investigación

Aunque hay muchos desafíos, también hay numerosas oportunidades para mejorar la detección del discurso de odio:

  • Mejorar la Recopilación de Datos: Enfocarse en recopilar más datos de idiomas de bajos recursos puede ayudar.
  • Conciencia Cultural: Crear modelos que consideren el contexto cultural hará que los sistemas de detección sean más efectivos.
  • Colaboración Interdisciplinaria: Fomentar la colaboración entre sociólogos, lingüistas y científicos de datos puede llevar a una mejor comprensión y soluciones.

Conclusión

La detección de discurso de odio, particularmente en idiomas de bajos recursos, presenta una serie de desafíos y oportunidades. A medida que las redes sociales continúan siendo una plataforma para la comunicación, la importancia de identificar y abordar automáticamente el discurso de odio se vuelve crucial para mantener un entorno en línea seguro. Aunque aún hay mucho trabajo por hacer, los avances en tecnología y la comprensión de los matices del lenguaje pueden allanar el camino hacia un futuro más inclusivo. ¡Dejemos que las máquinas nos ayuden a cerrar las brechas y abordar este problema juntos!

Fuente original

Título: A Survey on Automatic Online Hate Speech Detection in Low-Resource Languages

Resumen: The expanding influence of social media platforms over the past decade has impacted the way people communicate. The level of obscurity provided by social media and easy accessibility of the internet has facilitated the spread of hate speech. The terms and expressions related to hate speech gets updated with changing times which poses an obstacle to policy-makers and researchers in case of hate speech identification. With growing number of individuals using their native languages to communicate with each other, hate speech in these low-resource languages are also growing. Although, there is awareness about the English-related approaches, much attention have not been provided to these low-resource languages due to lack of datasets and online available data. This article provides a detailed survey of hate speech detection in low-resource languages around the world with details of available datasets, features utilized and techniques used. This survey further discusses the prevailing surveys, overlapping concepts related to hate speech, research challenges and opportunities.

Autores: Susmita Das, Arpita Dutta, Kingshuk Roy, Abir Mondal, Arnab Mukhopadhyay

Última actualización: 2024-11-28 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2411.19017

Fuente PDF: https://arxiv.org/pdf/2411.19017

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Enlaces de referencia

Artículos similares