Traiter les discours de haine par la classification et l'analyse
Cet article étudie les méthodes pour identifier et classer les discours de haine sur les réseaux sociaux.
― 7 min lire
Table des matières
Le discours de haine est devenu un gros problème sur les réseaux sociaux, poussant les gouvernements et les chercheurs à réfléchir à des solutions. Cet article parle de comment identifier et classer le discours de haine en utilisant des listes de mots offensants. Le but est de comprendre quels termes sont les plus nocifs et comment les regrouper pour mieux saisir leur utilisation.
Le Problème du Discours de Haine
Le discours de haine, c'est toute communication qui rabaisse ou attaque un groupe en fonction de caractéristiques comme la race, la religion ou le genre. Ça se propage vite sur les réseaux sociaux, donc il est essentiel pour les chercheurs de trouver des manières efficaces de détecter et de classer ces messages nuisibles. Les méthodes classiques se basent souvent sur des listes de mots offensants prédéfinies, mais ces listes ne fonctionnent pas toujours bien. En effet, le sens des mots peut changer selon le contexte, ce qui rend difficile de dire si un message est haineux ou pas.
Approches pour Classer le Discours de Haine
Pour mieux classer le discours de haine, cet article présente deux approches principales. La première se concentre sur la mesure de la gravité des termes haineux selon leur utilisation dans divers contextes. La deuxième vise à visualiser les relations entre les termes haineux pour voir comment ils coexistent dans les messages.
Mesurer la Gravité des Termes Haineux
La première approche consiste à créer une liste de termes haineux sévères en analysant des listes existantes de mots offensants. Pour cela, trois critères sont définis pour évaluer à quel point un terme est haineux. Ces critères regardent à quelle fréquence le terme apparaît dans des contextes haineux, comment il se rapporte à d'autres mots dans les messages haineux, et son Offensivité globale.
- Haineux : Ça mesure si un terme apparaît dans des messages identifiés comme discours de haine.
- Relativité : Ça compare la fréquence d'un terme haineux avec d'autres types de messages.
- Offensivité : Ça combine les deux critères précédents pour donner un score unique qui indique à quel point un terme haineux est sévère.
En appliquant ces critères, les chercheurs peuvent générer une liste de termes haineux sévères utile pour identifier le discours de haine plus précisément.
Visualiser les Termes Haineux Co-occurrents
La deuxième approche tourne autour de l'exploration des relations entre les termes haineux. En examinant à quelle fréquence certains termes apparaissent ensemble dans les messages, les chercheurs peuvent créer des règles qui capturent ces patterns. Si deux termes haineux apparaissent souvent dans le même message, ça peut indiquer une relation intéressante.
Cette partie implique :
- Créer des séquences ordonnées de termes haineux pour comprendre leur contexte.
- Extraire des règles stables qui indiquent quand un terme est susceptible d'apparaître avec un autre.
- Visualiser ces relations sous forme de graphiques pour faciliter la compréhension des connexions entre les termes.
Analyse d'Inter-accord
La première étape de l'analyse consiste à comparer les données sur le discours de haine avec plusieurs listes de termes haineux. Ça aide à identifier quels termes sont communs dans différentes bases de données. L'idée, c'est de voir comment certains termes se comportent en classifiant les messages comme haineux ou pas.
Création de Listes d'Inter-accord
Pour créer une liste d'inter-accord, les chercheurs prennent des listes de termes haineux existantes et les comparent à un ensemble de données sur le discours de haine. L'objectif final est de créer une nouvelle liste contenant des termes souvent associés au discours de haine. Ce processus permet aux chercheurs de peaufiner les termes qu'ils utilisent pour détecter le discours de haine, assurant qu'ils sont plus efficaces.
Les étapes clés de ce processus comprennent :
- Rassembler des ensembles de données sur le discours de haine correctement étiquetés.
- Analyser comment les termes des différentes listes de haine correspondent à ces données.
- Utiliser ces informations pour créer une liste affinée de termes haineux sévères.
Création d'une Liste de Termes Haineux Sévères
À partir de l'analyse d'inter-accord, une liste de termes haineux sévères est générée. Cette liste inclut des termes qui ont obtenu de bons scores sur les critères mentionnés et est destinée à aider à classer précisément les messages comme discours de haine. On s'attend à ce qu'utiliser cette liste affinée améliore la détection du discours de haine.
Évaluation de Performance
Pour savoir comment les approches proposées fonctionnent, les chercheurs comparent la performance de la liste de termes haineux sévères avec celle des listes de termes haineux existantes. Cette évaluation utilise une matrice de confusion, qui résume combien de messages ont été classés correctement ou incorrectement.
Les critères clés à évaluer comprennent :
- Vrai Positif (VP) : Messages correctement identifiés comme discours de haine.
- Vrai Négatif (VN) : Messages correctement identifiés comme ne pas être du discours de haine.
- Faux Positif (FP) : Messages incorrectement identifiés comme discours de haine.
- Faux Négatif (FN) : Messages incorrectement identifiés comme ne pas être du discours de haine.
L'objectif est d'atteindre une grande précision, précision et rappel en utilisant la liste de termes haineux sévères.
Exploration des Co-occurrences de Termes Haineux
Une fois les termes sévères établis, les chercheurs se concentrent sur comment ces termes se rapportent les uns aux autres. En identifiant des patterns où certains termes apparaissent souvent ensemble, les chercheurs peuvent repérer des tendances et affiner davantage leurs processus de classification du discours de haine.
Extraction de Règles Stables de Haine
Des règles stables de haine sont générées en utilisant la liste affinée de termes haineux. Ces règles aident à capturer des relations communes entre les termes haineux, permettant aux chercheurs de mieux comprendre comment les termes peuvent se combiner pour former des messages haineux.
Les étapes impliquées comprennent :
- Créer une base de données intermédiaire contenant les termes haineux et leurs contextes.
- Appliquer des techniques d'extraction de règles pour extraire des relations significatives.
- Visualiser ces relations à travers des graphiques pour représenter les co-occurrences.
Comprendre les Concepts de Haine
À partir des règles stables identifiées, les chercheurs peuvent créer des concepts de haine en regroupant des termes liés ensemble. Cela aide à reconnaître des patterns plus larges de discours de haine qui peuvent ne pas être visibles en regardant uniquement des termes individuels. Les concepts représentent en gros le tableau d'ensemble de comment certains termes travaillent ensemble dans des contextes haineux.
Conclusion
Cet article discute d'une approche systématique pour classifier le discours de haine en se concentrant sur la mesure de la gravité des termes haineux et l'analyse des co-occurrences. Les méthodes proposées visent à améliorer la compréhension du discours de haine sur les réseaux sociaux, rendant plus facile le développement d'outils qui peuvent aider à identifier et minimiser son impact.
En affinant les listes de termes haineux sévères et en explorant leurs relations, les chercheurs espèrent fournir une solution complète au problème croissant du discours de haine en ligne, contribuant à un environnement numérique plus sûr.
À mesure que le discours de haine continue d'évoluer avec les normes sociétales et l'utilisation de la langue qui changent, ces méthodes devront être adaptatives et continuellement améliorées. Les insights obtenus de cette recherche pourraient servir de base pour de nouveaux progrès dans la détection et la classification du discours de haine, aidant finalement à combattre les abus en ligne et à promouvoir des interactions respectueuses sur le net.
Titre: minOffense: Inter-Agreement Hate Terms for Stable Rules, Concepts, Transitivities, and Lattices
Résumé: Hate speech classification has become an important problem due to the spread of hate speech on social media platforms. For a given set of Hate Terms lists (HTs-lists) and Hate Speech data (HS-data), it is challenging to understand which hate term contributes the most for hate speech classification. This paper contributes two approaches to quantitatively measure and qualitatively visualise the relationship between co-occurring Hate Terms (HTs). Firstly, we propose an approach for the classification of hate-speech by producing a Severe Hate Terms list (Severe HTs-list) from existing HTs-lists. To achieve our goal, we proposed three metrics (Hatefulness, Relativeness, and Offensiveness) to measure the severity of HTs. These metrics assist to create an Inter-agreement HTs-list, which explains the contribution of an individual hate term toward hate speech classification. Then, we used the Offensiveness metric values of HTs above a proposed threshold minimum Offense (minOffense) to generate a new Severe HTs-list. To evaluate our approach, we used three hate speech datasets and six hate terms lists. Our approach shown an improvement from 0.845 to 0.923 (best) as compared to the baseline. Secondly, we also proposed Stable Hate Rule (SHR) mining to provide ordered co-occurrence of various HTs with minimum Stability (minStab). The SHR mining detects frequently co-occurring HTs to form Stable Hate Rules and Concepts. These rules and concepts are used to visualise the graphs of Transitivities and Lattices formed by HTs.
Auteurs: Animesh Chaturvedi, Rajesh Sharma
Dernière mise à jour: 2023-05-29 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.17984
Source PDF: https://arxiv.org/pdf/2305.17984
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.