S'adresser aux commentaires toxiques sur les réseaux sociaux bengali
Cette étude examine les commentaires toxiques visant les groupes marginalisés en bengali sur les réseaux sociaux.
Mukaffi Bin Moin, Pronay Debnath, Usafa Akther Rifa, Rijeet Bin Anis
― 7 min lire
Table des matières
- Le Problème des Commentaires Toxiques
- Importance de l'Étude
- Objectifs de la Recherche
- Travaux Précédents
- Collecte de Données
- Collecte des Commentaires
- Annotation des Données
- Choix des Annotateurs
- Directives pour l'Annotation
- Analyse des Données
- Statistiques de l'Ensemble de Données
- Méthodologie
- Modèles Pré-entraînés
- Entraînement du Modèle
- Résultats Expérimentaux
- Évaluation de la Performance
- Conclusion
- Source originale
- Liens de référence
Les réseaux sociaux ont un gros impact sur comment on se connecte et partage nos idées aujourd'hui. Des plateformes comme Facebook, Twitter, et Instagram nous permettent de discuter avec des gens et de suivre les tendances. Mais, ces espaces sont aussi mal utilisés par certains utilisateurs qui postent des Commentaires toxiques. Ces commentaires peuvent être méchants, blessants, ou même haineux. Cette étude se penche sur les commentaires toxiques en Bengali qui ciblent des groupes spécifiques : les personnes Transgenres, les peuples Autochtones, et les Migrants.
Le Problème des Commentaires Toxiques
Les commentaires toxiques peuvent nuire aux individus et aux communautés. Ils peuvent inclure des insultes, des menaces, ou des stéréotypes nuisibles. Ce genre de langage peut rendre les réseaux sociaux hostiles pour certains groupes. Il est nécessaire d'identifier et de mesurer les commentaires toxiques pour mieux comprendre leur impact. En regardant de près les types de commentaires dirigés vers des groupes spécifiques, on peut voir comment ces comportements les affectent.
Importance de l'Étude
Comprendre la toxicité dans les commentaires est crucial pour promouvoir un environnement en ligne plus sûr. En mesurant à quelle fréquence et à quel point certains groupes font face à des commentaires toxiques, on peut trouver des moyens d'aider. Si un groupe reçoit souvent des commentaires négatifs, on saura qu'il a besoin de plus de soutien. Cette recherche est particulièrement importante car il n'y a pas eu beaucoup d'attention portée aux commentaires toxiques en bengali auparavant.
Objectifs de la Recherche
Cette recherche vise à :
- Créer un ensemble de données de commentaires toxiques en bengali.
- Identifier les commentaires toxiques visant les personnes transgenres, les peuples autochtones, et les migrants.
- Mesurer les niveaux de toxicité (faible, moyen, élevé) de ces commentaires.
- Reconnaître que ce qui peut sembler inoffensif pour une personne peut être nuisible pour une autre.
Travaux Précédents
Certains chercheurs ont abordé les commentaires toxiques en bengali, mais la plupart des études se sont concentrées sur des langues comme l'anglais. Par exemple, certaines recherches ont porté sur l'apprentissage automatique pour détecter les commentaires abusifs ou nuisibles. Différentes méthodes ont été utilisées pour catégoriser ces commentaires, et certaines études ont même créé des ensembles de données spécifiques à partir des commentaires de Facebook.
Ces études passées montrent qu'il est important de s'attaquer au problème des commentaires toxiques. Elles mettent en avant le besoin d'outils et de méthodes efficaces pour classer et évaluer la toxicité, surtout en bengali et pour différents groupes d'identité.
Collecte de Données
Pour comprendre comment les commentaires toxiques affectent divers groupes, nous avons collecté un total de 3100 commentaires. Ces commentaires sont répartis en quatre catégories : transgenres, autochtones, migrants, et commentaires toxiques universels. Chaque commentaire est évalué selon son niveau de toxicité : élevé, moyen, ou faible.
Collecte des Commentaires
-
Commentaires Transgenres : Nous avons cherché des commentaires sur des posts sur les réseaux sociaux d'influenceurs et des vidéos TikTok. Nous nous sommes concentrés sur les commentaires nuisibles, y compris ceux qui incitent à la violence ou montrent de l'agressivité.
-
Commentaires Autochtones : Pour ce groupe, nous avons récupéré des commentaires à partir de vloggers de nourriture et de voyage mettant en avant la culture autochtone. Encore une fois, nous avons cherché un langage nuisible ou des réponses agressives aux commentaires.
-
Commentaires sur les Migrants : Pour rassembler des commentaires sur les migrants, nous avons passé en revue des posts sur des pages d'actualités Facebook et des vidéos YouTube. Nous avons cherché des commentaires nuisibles ou ceux souhaitant du mal aux migrants.
-
Commentaires Toxiques Universels : Pour cette catégorie, nous avons collecté des commentaires toxiques qui ne s'adressent pas à un groupe spécifique mais qui sont tout de même offensants. Ces commentaires viennent de diverses sources sur les réseaux sociaux.
Annotation des Données
Après avoir rassemblé les commentaires, nous devions les étiqueter pour entraîner nos modèles. Cette annotation peut être faite par des humains ou des outils automatisés. L'annotation humaine peut offrir une meilleure précision, tandis que les méthodes automatisées accélèrent le processus.
Choix des Annotateurs
C'est important d'avoir des annotateurs diversifiés pour réduire les biais. Nous avons sélectionné quatre annotateurs avec des parcours différents, en veillant à ce qu'ils soient tous bilingues en bengali. Leur âge variait de 23 à 26 ans et ils avaient de l'expérience en traitement du langage naturel.
Directives pour l'Annotation
Nous avons établi des règles claires pour identifier les commentaires toxiques. Chaque commentaire a été évalué en fonction de son langage et de son intention. Les niveaux de toxicité ont été classés comme faible, moyen ou élevé. Par exemple :
- Toxicité Faible : Commentaires qui expriment de la confusion ou prennent la situation à la légère mais ne sont pas directement nuisibles.
- Toxicité Moyenne : Commentaires qui se moquent ou critiquent mais ne menacent pas de violence.
- Toxicité Élevée : Commentaires qui incluent des menaces, une hostilité claire ou des souhaits de mal.
Analyse des Données
Une fois les commentaires annotés, nous avons analysé les données pour voir les tendances de toxicité. Cette analyse nous aide à comprendre à quelle fréquence des groupes spécifiques font face à des commentaires nuisibles et la gravité de ces commentaires.
Statistiques de l'Ensemble de Données
Sur les 3100 commentaires au total, 2300 ont été étiquetés comme toxiques tandis que 800 étaient marqués comme des commentaires toxiques universels. La classification de ces commentaires était la suivante :
- 700 commentaires ciblaient les personnes transgenres.
- 800 commentaires ciblaient les peuples autochtones.
- 800 commentaires ciblaient les migrants.
Méthodologie
Nous avons utilisé une approche structurée pour étudier les niveaux de toxicité des commentaires. Notre méthodologie incluait :
- Prétraiter les données pour les nettoyer et les formater correctement pour l'analyse.
- Utiliser des modèles pré-entraînés pour classer les commentaires selon leurs niveaux de toxicité.
Modèles Pré-entraînés
Nous avons utilisé plusieurs modèles avancés, notamment Bangla-BERT, DistilBERT, et d'autres. Ces modèles nous aident à comprendre les nuances de la langue bengali et à fournir des analyses précises des commentaires.
Entraînement du Modèle
Les modèles ont été entraînés en utilisant un processus appelé transfert d'apprentissage, qui aide à améliorer leur précision en ajustant leurs paramètres en fonction de notre ensemble de données. Nous avons évalué comment les modèles ont performé à l'aide de mesures telles que la précision et le score F1.
Résultats Expérimentaux
Après avoir analysé les commentaires, nous avons constaté que Bangla-BERT avait le meilleur rendement par rapport aux autres modèles. Il a atteint un score de précision impressionnant de 0.8903. Les autres modèles avaient des scores de précision plus bas, montrant que Bangla-BERT est particulièrement efficace pour notre but.
Évaluation de la Performance
Nous avons également mesuré à quel point les modèles classaient les commentaires en niveaux de toxicité faible, moyen, et élevé. Les résultats étaient variés, mais Bangla-BERT surpassait toujours les autres. Cette découverte met en lumière le besoin de modèles spécifiquement conçus pour la langue bengali.
Conclusion
Cette étude souligne l'importance d'aborder les commentaires toxiques dans des espaces en ligne multiculturels, en particulier pour les groupes marginalisés comme les personnes transgenres, les peuples autochtones, et les migrants. Alors que la recherche dans d'autres langues a progressé, notre attention sur le bengali ajoute une connaissance nécessaire à ce domaine. Nous avons créé un ensemble de données qui identifie et catégorise les commentaires toxiques, nous aidant à comprendre les enjeux plus profonds en jeu.
Les travaux futurs impliqueront d'élargir notre ensemble de données et de peaufiner nos méthodes. En améliorant notre compréhension des niveaux de toxicité, nous pouvons développer de meilleurs outils pour créer des environnements en ligne plus sûrs pour tout le monde. Les résultats de cette étude peuvent aider à lutter contre le harcèlement en ligne et à promouvoir la gentillesse et la compréhension dans les interactions sur les réseaux sociaux.
Titre: Assessing the Level of Toxicity Against Distinct Groups in Bangla Social Media Comments: A Comprehensive Investigation
Résumé: Social media platforms have a vital role in the modern world, serving as conduits for communication, the exchange of ideas, and the establishment of networks. However, the misuse of these platforms through toxic comments, which can range from offensive remarks to hate speech, is a concerning issue. This study focuses on identifying toxic comments in the Bengali language targeting three specific groups: transgender people, indigenous people, and migrant people, from multiple social media sources. The study delves into the intricate process of identifying and categorizing toxic language while considering the varying degrees of toxicity: high, medium, and low. The methodology involves creating a dataset, manual annotation, and employing pre-trained transformer models like Bangla-BERT, bangla-bert-base, distil-BERT, and Bert-base-multilingual-cased for classification. Diverse assessment metrics such as accuracy, recall, precision, and F1-score are employed to evaluate the model's effectiveness. The experimental findings reveal that Bangla-BERT surpasses alternative models, achieving an F1-score of 0.8903. This research exposes the complexity of toxicity in Bangla social media dialogues, revealing its differing impacts on diverse demographic groups.
Auteurs: Mukaffi Bin Moin, Pronay Debnath, Usafa Akther Rifa, Rijeet Bin Anis
Dernière mise à jour: 2024-09-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.17130
Source PDF: https://arxiv.org/pdf/2409.17130
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.saha.ac.in/theory/palashbaran.pal/bangtex/bangtex.html
- https://www.linkedin.com/pulse/importance-social-media-todays-world-johan-smith
- https://internetlab.org.br/en/news/drag-queens-and-artificial-intelligence-should-computers-decide-what-is-toxic-on-the-internet/
- https://doi
- https://doi.org/10.1016/j.dib.2022.108416
- https://github.com/sagorbrur/bangla-bert
- https://doi.org/10.1145/3555088
- https://doi.org/10.1177/001316446002000104