Détection de discours de haine dans les langues à faibles ressources
Cette enquête met en avant les défis et les avancées dans la détection de la haine dans différentes langues.
Susmita Das, Arpita Dutta, Kingshuk Roy, Abir Mondal, Arnab Mukhopadhyay
― 7 min lire
Table des matières
- Qu'est-ce que le Discours Haineux ?
- Catégories de Discours Haineux
- Racisme et Xénophobie
- Sexisme et Haine de Genre
- Discours Haineux Religieux
- Discrimination envers les Personnes Handicapeés
- Pourquoi le Discours Haineux est Difficile à Détecter ?
- Le Besoin de Détection Automatique du Discours Haineux
- Les Bases de Données
- Techniques Utilisées dans la Détection du Discours Haineux
- Méthodes Traditionnelles
- Techniques Modernes
- Défis dans les Langues à Faibles Ressources
- Opportunités de Recherche
- Conclusion
- Source originale
- Liens de référence
Les réseaux sociaux ont changé notre manière de communiquer ces dix dernières années. Les gens peuvent échanger des idées, des opinions, et parfois des commentaires pas très sympas. L'anonymat sur ces plateformes mène souvent à des discours haineux, qui sont devenus un gros problème dans le monde. Ce n'est pas juste une question de ce que les gens disent, mais aussi de comment ils le disent. Avec les langues qui évoluent, de nouveaux mots et expressions apparaissent. Ça crée un défi pour ceux qui essaient de comprendre et de gérer les discours haineux.
Alors que l'anglais a beaucoup attiré l'attention en matière de détection de discours haineux, beaucoup de gens utilisent leur langue maternelle en ligne. Ça a créé un besoin de recherche axée sur ces langues à faibles ressources où il n'y a pas assez de données ou de recherches. Ce sondage va décomposer la situation et présenter des résultats sur la détection de discours haineux dans ces langues.
Qu'est-ce que le Discours Haineux ?
Définir le discours haineux, ce n'est pas simple. C'est comme essayer d'attraper un poisson glissant. Différents groupes de gens ont des opinions différentes sur ce qui compte comme discours haineux. En gros, le discours haineux inclut des mots ou des actions qui attaquent des individus ou des groupes en fonction de leur race, religion, genre, ou d'autres caractéristiques identitaires. Par exemple, si quelqu'un utilise des termes péjoratifs pour insulter une race ou une religion spécifique, ça tombe sous le coup du discours haineux.
Beaucoup de plateformes de réseaux sociaux ont leurs propres définitions. Par exemple :
- Meta : Définit le discours haineux comme des attaques directes contre des personnes basées sur des traits protégés comme la race et le genre.
- YouTube : Pense que le discours haineux est tout ce qui incite à la violence contre certains groupes.
- Twitter : Interdit les attaques basées sur la race, le genre et d'autres traits personnels.
- TikTok : Se concentre sur le contenu qui déshumanise les individus selon leurs caractéristiques.
- LinkedIn : Interdit le discours haineux qui cible les gens en fonction de traits personnels.
Catégories de Discours Haineux
Le discours haineux peut être classé en plusieurs catégories en fonction de qui ou de quoi il cible. Voici quelques grandes catégories :
Racisme et Xénophobie
Cette catégorie inclut des commentaires négatifs sur les gens en fonction de leur race ou nationalité. Par exemple, les immigrants font souvent face à de l'hostilité selon leur pays d'origine.
Sexisme et Haine de Genre
Ça concerne les remarques biaisées envers des individus selon leur genre. Bien que les femmes subissent souvent les plus gros commentaires, des gens de divers genres font aussi l'expérience de discours haineux.
Discours Haineux Religieux
Ce type cible les individus selon leurs croyances religieuses. La discrimination peut mener à la violence, des conflits ou des troubles sociaux.
Discrimination envers les Personnes Handicapeés
Le discours haineux ici est dirigé vers des personnes avec des handicaps. Ça peut inclure des remarques péjoratives ou des suppositions sur leurs capacités.
Pourquoi le Discours Haineux est Difficile à Détecter ?
Détecter le discours haineux est compliqué pour plusieurs raisons. D'abord, la langue peut être complexe et le contexte compte. Ce qui peut sembler un commentaire inoffensif dans un contexte pourrait être offensant dans un autre. Les gens utilisent souvent le sarcasme ou des jeux de mots intelligents qui peuvent embrouiller les systèmes automatisés.
Deuxièmement, les réseaux sociaux génèrent des tonnes de données chaque jour, rendant presque impossible la surveillance manuelle de tout. Donc, il y a un grand besoin de machines pour aider à repérer automatiquement le discours haineux.
Le Besoin de Détection Automatique du Discours Haineux
Alors que de plus en plus de gens se tournent vers les réseaux sociaux pour s'exprimer, la quantité de discours haineux a augmenté en parallèle. La surveillance manuelle n'est tout simplement pas faisable. Beaucoup de chercheurs se sont tournés vers des méthodes de détection automatique utilisant la technologie pour lutter contre ce problème.
Les systèmes automatisés utilisent des techniques avancées en traitement du langage naturel, apprentissage automatique, et apprentissage profond. Ils passent au crible d'énormes quantités de texte pour identifier le contenu haineux. Cependant, une grande partie de cette recherche s'est concentrée sur l'anglais, laissant un vide dans les études portant sur d'autres langues.
Les Bases de Données
Rassembler des données sur le discours haineux est une partie essentielle de la formation des systèmes de détection. La plupart des bases de données disponibles sont en anglais. Différentes bases de données provenant de Twitter et d'autres plateformes offrent des ressources précieuses, mais la collecte pour les langues à faibles ressources reste un défi.
Les chercheurs ont commencé à compiler des bases de données dans des langues comme l'arabe, l'hindi, le tamoul, et d'autres, en se concentrant sur les aspects monolingues et multilingues. Cependant, la quantité et la qualité ne sont pas encore à la hauteur des bases de données en anglais.
Techniques Utilisées dans la Détection du Discours Haineux
Les principales méthodes de détection du discours haineux impliquent un mélange d'approches traditionnelles et modernes :
Méthodes Traditionnelles
Au départ, la détection basée sur des mots-clés était courante. Cela consistait simplement à identifier certains mots ou expressions associés au discours haineux. Bien que cela soit utile, ça manquait de contexte et de nuances, menant à de nombreux faux positifs.
Techniques Modernes
Les approches récentes ont évolué vers l'utilisation de modèles d'apprentissage profond qui prennent en compte le contexte, le sentiment, et même les images. Par exemple :
- BERT : Ce modèle comprend la relation entre les mots et leurs significations selon le contexte.
- CNN : Les réseaux de neurones convolutifs sont souvent utilisés pour identifier des modèles dans le texte.
- RNN : Les réseaux de neurones récurrents sont conçus pour comprendre des séquences, ce qui les rend pratiques pour le traitement du langage.
Défis dans les Langues à Faibles Ressources
Pour les langues à faibles ressources, les défis se multiplient :
- Manque de Données : Il n'y a tout simplement pas assez de données disponibles publiquement pour entraîner les modèles efficacement, ce qui entraîne une détection moins précise.
- Nuances Culturelles : Différentes régions utilisent les langues de manière différente, ce qui complique le développement d'un modèle universel.
- Définir le Discours Haineux : Le terme "discours haineux" a des significations différentes selon les cultures, compliquant l'annotation des bases de données.
Opportunités de Recherche
Bien que les défis soient nombreux, il y a aussi de nombreuses opportunités pour améliorer la détection du discours haineux :
- Améliorer la Collecte de Données : Se concentrer sur la collecte de plus de données dans les langues à faibles ressources peut aider.
- Sensibilisation Culturelle : Créer des modèles qui prennent en compte le contexte culturel rendra les systèmes de détection plus efficaces.
- Collaboration Interdisciplinaire : Encourager le travail d'équipe entre sociologues, linguistes et data scientists peut conduire à une meilleure compréhension et à des solutions.
Conclusion
La détection du discours haineux, surtout dans les langues à faibles ressources, présente une gamme de défis et d'opportunités. Alors que les réseaux sociaux continuent d'être une plateforme de communication, l'importance d'identifier et de traiter automatiquement le discours haineux devient cruciale pour maintenir un environnement en ligne sûr. Bien qu'il reste encore beaucoup de travail à faire, les avancées technologiques et la compréhension des nuances linguistiques peuvent ouvrir la voie à un avenir plus inclusif. Laissons les machines nous aider à combler les lacunes et à aborder ce problème ensemble !
Titre: A Survey on Automatic Online Hate Speech Detection in Low-Resource Languages
Résumé: The expanding influence of social media platforms over the past decade has impacted the way people communicate. The level of obscurity provided by social media and easy accessibility of the internet has facilitated the spread of hate speech. The terms and expressions related to hate speech gets updated with changing times which poses an obstacle to policy-makers and researchers in case of hate speech identification. With growing number of individuals using their native languages to communicate with each other, hate speech in these low-resource languages are also growing. Although, there is awareness about the English-related approaches, much attention have not been provided to these low-resource languages due to lack of datasets and online available data. This article provides a detailed survey of hate speech detection in low-resource languages around the world with details of available datasets, features utilized and techniques used. This survey further discusses the prevailing surveys, overlapping concepts related to hate speech, research challenges and opportunities.
Auteurs: Susmita Das, Arpita Dutta, Kingshuk Roy, Abir Mondal, Arnab Mukhopadhyay
Dernière mise à jour: 2024-11-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2411.19017
Source PDF: https://arxiv.org/pdf/2411.19017
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://creativecommons.org/licenses/by-sa/4.0/
- https://transparency.meta.com/en-gb/policies/community-standards/hate-speech/
- https://www.youtube.com/intl/ALL
- https://help.twitter.com/en/rules-and-policies/x-rules
- https://www.tiktok.com/safety/en/countering-hate/
- https://www.linkedin.com/help/linkedin/answer/a1339812
- https://github.com/ZeerakW/hatespeech
- https://github.com/t-davidson/hate-s
- https://github.com/jing-qian/A-Bench
- https://github.com/ziqizhang/data
- https://github.com/intelligence-csd-auth-gr/Ethos-Hate-Speech-Dataset
- https://github.com/punyajoy/HateXplain
- https://zpitenis.com/ogtd
- https://github.com/paulafortuna/Port
- https://github.com/msang/hate-speech-corpus
- https://goo.gl/27EVbU
- https://github.com/nuhaalbadi/Arabic
- https://github.com/UCSM-DUE/
- https://github.com/
- https://github.com/ialfina/id-hatespeech-detection
- https://huggingface.co/datasets/sinhala-nlp/SOLD
- https://github.com/pmathur5k10/Hinglish-Offensive-Text-Classification
- https://github.com/rezacsedu/Bengali-Hate-Speech-Dataset
- https://github.com/l3cube-pune/MarathiNLP
- https://coltekin.github.io/offensive-turkish/
- https://github.com/verimsu/
- https://github.com/mawic/german-abusive-language-covid-19
- https://github.com/clips/hades
- https://github.com/adlnlp/K-MHaS
- https://github.com/deepanshu1995/HateSpeech-HindiEnglish-Code-Mixed-Social-Media-Text
- https://github.com/naurosromim/hate-speech-dataset-for-Bengali-social-media
- https://github.com/msang/hateval/
- https://projects.cai
- https://sites.google.com/site/offensevalsharedtask/home
- https://github.com/marcoguerini/CONAN
- https://hasocfire.github.io/hasoc/2019/dataset.html
- https://hasocfire.github.io/hasoc/2021/dataset.html
- https://gombru.github.io/2019/10/09/MMHS/
- https://hatefulmemeschallenge.com/
- https://github.com/Farhan-jafri/Russia-Ukraine
- https://github.com/eftekhar-hossain/MUTE-AACL22