Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Abordando comentarios tóxicos en las redes sociales bengalíes

Este estudio investiga los comentarios tóxicos que atacan a grupos marginados en bengalí en las redes sociales.

― 7 minilectura


Toxicidad en las redesToxicidad en las redessociales en bengalígrupos marginados en línea.Examinando comentarios dañinos hacia
Tabla de contenidos

Las redes sociales tienen un gran impacto en cómo nos conectamos y compartimos ideas hoy en día. Plataformas como Facebook, Twitter e Instagram nos permiten hablar con la gente y seguir tendencias. Sin embargo, estos espacios también son mal utilizados por algunos usuarios que publican Comentarios tóxicos. Estos comentarios pueden ser crueles, dolorosos o incluso de odio. Este estudio analiza comentarios tóxicos en Bengalí que apuntan a grupos específicos: personas trans, pueblos Indígenas y Migrantes.

El Problema de los Comentarios Tóxicos

Los comentarios tóxicos pueden dañar a individuos y comunidades. Pueden incluir insultos, amenazas o estereotipos dañinos. Este tipo de lenguaje puede hacer que las redes sociales sean un lugar hostil para algunos grupos. Es necesario identificar y medir los comentarios tóxicos para entender mejor su impacto. Al observar de cerca los tipos de comentarios dirigidos a grupos específicos, podemos ver cómo estos comportamientos les afectan.

Importancia del Estudio

Entender la toxicidad en los comentarios es crucial para promover un ambiente en línea más seguro. Al medir con qué frecuencia y cuán severamente ciertos grupos enfrentan comentarios tóxicos, podemos encontrar maneras de ayudar. Si un grupo recibe comentarios negativos a menudo, sabremos que necesita más apoyo. Esta investigación es particularmente importante porque no se ha dado mucha atención a los comentarios tóxicos en el idioma bengalí antes.

Objetivos de la Investigación

Esta investigación tiene como objetivos:

  1. Crear un conjunto de datos de comentarios tóxicos en bengalí.
  2. Identificar comentarios tóxicos dirigidos a personas trans, pueblos indígenas y migrantes.
  3. Medir los niveles de toxicidad (baja, media, alta) de estos comentarios.
  4. Reconocer que lo que puede parecer inofensivo para una persona puede ser dañino para otra.

Trabajos Anteriores

Algunos investigadores han abordado los comentarios tóxicos en bengalí, pero la mayoría de los estudios se han centrado en idiomas como el inglés. Por ejemplo, algunos trabajos se han centrado en el aprendizaje automático para encontrar comentarios abusivos o dañinos. Se han utilizado diferentes métodos para clasificar estos comentarios, y algunos estudios incluso han creado conjuntos de datos específicos a partir de comentarios en Facebook.

Estos estudios previos muestran que es importante abordar el problema de los comentarios tóxicos. Ayudan a resaltar la necesidad de herramientas y métodos efectivos para clasificar y evaluar la toxicidad, especialmente en bengalí y para diferentes grupos de identidad.

Recopilación de Datos

Para entender cómo los comentarios tóxicos afectan a varios grupos, recopilamos un total de 3100 comentarios. Estos comentarios caen en cuatro categorías: comentarios trans, indígenas, migrantes y comentarios tóxicos universales. Cada comentario es calificado según su nivel de toxicidad: alto, medio o bajo.

Recopilación de Comentarios

  • Comentarios Trans: Buscamos comentarios en publicaciones de redes sociales de influencers y videos de TikTok. Nos enfocamos en encontrar comentarios dañinos, incluidos aquellos que incitan a la violencia o muestran agresión.

  • Comentarios Indígenas: Para este grupo, obtuvimos comentarios de vloggers de comida y viaje que destacan la cultura indígena. Nuevamente, buscamos lenguaje dañino o respuestas agresivas a los comentarios.

  • Comentarios Migrantes: Para recopilar comentarios sobre migrantes, revisamos publicaciones en páginas de noticias de Facebook y videos de YouTube. Queríamos encontrar comentarios dañinos o aquellos que desearan daño a los migrantes.

  • Comentarios Tóxicos Universales: Para esta categoría, recopilamos comentarios tóxicos que no estaban dirigidos a un grupo específico pero que aún eran ofensivos. Estos comentarios provienen de diversas fuentes de redes sociales.

Anotación de Datos

Después de recopilar los comentarios, necesitábamos etiquetarlos para entrenar nuestros modelos. Esta etiquetación puede ser hecha por humanos o herramientas automatizadas. La etiquetación humana puede proporcionar mejor precisión, mientras que los métodos automatizados aceleran el proceso.

Elección de Anotadores

Es importante tener anotadores diversos para reducir sesgos. Seleccionamos cuatro anotadores con diferentes antecedentes, asegurándonos de que todos fueran fluidos en bengalí. Sus edades variaban de 23 a 26 años y tenían experiencia en procesamiento de lenguaje natural.

Directrices para la Anotación

Establecimos reglas claras para identificar comentarios tóxicos. Cada comentario se evaluó según su lenguaje e intención. Los niveles de toxicidad se clasificaron como bajos, medios o altos. Por ejemplo:

  • Baja Toxicidad: Comentarios que expresan confusión o minimizan la situación pero no son directamente dañinos.
  • Media Toxicidad: Comentarios que se burlan o critican pero no amenazan con violencia.
  • Alta Toxicidad: Comentarios que incluyen amenazas, hostilidad clara o deseos de daño.

Análisis de Datos

Una vez que se anotaron los comentarios, analizamos los datos para ver patrones de toxicidad. Este análisis nos ayuda a entender con qué frecuencia ciertos grupos enfrentan comentarios dañinos y la severidad de esos comentarios.

Estadísticas del Conjunto de Datos

De los 3100 comentarios totales, 2300 fueron etiquetados como tóxicos, mientras que 800 fueron marcados como comentarios tóxicos universales. La clasificación de estos comentarios fue la siguiente:

  • 700 comentarios dirigidos a personas trans.
  • 800 comentarios dirigidos a pueblos indígenas.
  • 800 comentarios dirigidos a migrantes.

Metodología

Usamos un enfoque estructurado para estudiar los niveles de toxicidad de los comentarios. Nuestra metodología incluyó:

  1. Preprocesar los datos para limpiarlos y formatearlos correctamente para el análisis.
  2. Emplear modelos preentrenados para clasificar comentarios según sus niveles de toxicidad.

Modelos Preentrenados

Usamos varios modelos avanzados, incluidos Bangla-BERT, DistilBERT y otros. Estos modelos nos ayudan a entender las sutilezas del idioma bengalí y a proporcionar análisis precisos de los comentarios.

Entrenamiento del Modelo

Los modelos se entrenaron usando un proceso llamado transferencia de aprendizaje, que ayuda a mejorar su precisión ajustando su configuración según nuestro conjunto de datos. Evaluamos qué tan bien funcionaron los modelos usando medidas como precisión y F1-score.

Resultados Experimentales

Después de analizar los comentarios, encontramos que Bangla-BERT funcionó mejor en comparación con otros modelos. Logró una impresionante puntuación de precisión de 0.8903. Los otros modelos tuvieron puntuaciones de precisión más bajas, mostrando que Bangla-BERT es particularmente efectivo para nuestro propósito.

Evaluación del Rendimiento

También medimos qué tan bien los modelos clasificaron comentarios en niveles de toxicidad baja, media y alta. Los resultados fueron mixtos, pero Bangla-BERT superó de manera constante a los demás. Este hallazgo resalta la necesidad de modelos diseñados específicamente para el idioma bengalí.

Conclusión

Este estudio enfatiza la importancia de abordar los comentarios tóxicos en espacios en línea multiculturales, especialmente para grupos marginados como las personas trans, pueblos indígenas y migrantes. Mientras que la investigación en otros idiomas ha avanzado, nuestro enfoque en bengalí agrega el conocimiento necesario a este campo. Creamos un conjunto de datos que identifica y clasifica comentarios tóxicos, ayudándonos a entender los problemas más profundos en juego.

El trabajo futuro implicará expandir nuestro conjunto de datos y refinar nuestros métodos. Al mejorar nuestra comprensión de los niveles de toxicidad, podemos desarrollar mejores herramientas para crear entornos en línea más seguros para todos. Los resultados de este estudio pueden ayudar a combatir el acoso en línea y promover la amabilidad y comprensión en las interacciones en redes sociales.

Fuente original

Título: Assessing the Level of Toxicity Against Distinct Groups in Bangla Social Media Comments: A Comprehensive Investigation

Resumen: Social media platforms have a vital role in the modern world, serving as conduits for communication, the exchange of ideas, and the establishment of networks. However, the misuse of these platforms through toxic comments, which can range from offensive remarks to hate speech, is a concerning issue. This study focuses on identifying toxic comments in the Bengali language targeting three specific groups: transgender people, indigenous people, and migrant people, from multiple social media sources. The study delves into the intricate process of identifying and categorizing toxic language while considering the varying degrees of toxicity: high, medium, and low. The methodology involves creating a dataset, manual annotation, and employing pre-trained transformer models like Bangla-BERT, bangla-bert-base, distil-BERT, and Bert-base-multilingual-cased for classification. Diverse assessment metrics such as accuracy, recall, precision, and F1-score are employed to evaluate the model's effectiveness. The experimental findings reveal that Bangla-BERT surpasses alternative models, achieving an F1-score of 0.8903. This research exposes the complexity of toxicity in Bangla social media dialogues, revealing its differing impacts on diverse demographic groups.

Autores: Mukaffi Bin Moin, Pronay Debnath, Usafa Akther Rifa, Rijeet Bin Anis

Última actualización: 2024-09-25 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2409.17130

Fuente PDF: https://arxiv.org/pdf/2409.17130

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares