Confrontation avec les discours de haine : un défi mondial
Cet article examine les lois sur les discours de haine et les méthodes de détection dans le monde entier.
Katerina Korre, John Pavlopoulos, Paolo Gajo, Alberto Barrón-Cedeño
― 7 min lire
Table des matières
- Qu'est-ce que le discours de haine ?
- Le paysage Légal
- Le besoin d'un cadre unifié
- Questions de recherche
- Collecte de données
- Processus d'annotation
- Les défis de l'annotation
- Modèles d'apprentissage automatique
- Évaluation des performances
- Défis dans la performance des modèles
- Le rôle des grands modèles de langue
- Conclusion et futures recherches
- Considérations éthiques
- Dernières réflexions
- Source originale
- Liens de référence
La haine en ligne, c'est un gros souci dans notre société aujourd'hui. C'est pas juste un problème sur Internet ; ça peut avoir des conséquences bien réelles. Les pays essaient de gérer ça en créant des lois qui punissent la haine. Mais ces lois varient d'un pays à l'autre, ce qui complique la tâche des plateformes en ligne pour gérer les signalements de Discours de haine efficacement.
Qu'est-ce que le discours de haine ?
Le discours de haine, c'est toute forme de communication qui rabaisse, harcèle ou incite à la violence contre des individus ou des groupes à cause de leur race, religion, genre ou d'autres caractéristiques. Ça peut prendre plusieurs formes : commentaires en ligne, posts sur les réseaux sociaux ou même discours. Le souci, c'est que ce que quelqu'un considère comme discours de haine peut pas être vu de la même manière par un autre. Cette subjectivité rend difficile la création d'une définition claire et universelle.
Légal
Le paysageChaque pays a ses propres lois sur le discours de haine, et il y a trois grandes approches pour le définir :
-
Basé sur le contenu : Cette approche regarde le langage lui-même. Si les mots sont généralement considérés comme offensants, ils tombent dans cette catégorie.
-
Basé sur l'intention : Cette méthode se concentre sur l'intention de l'orateur. Si quelqu'un cherche à inciter à la haine ou à la violence contre un groupe particulier, ça qualifie comme discours de haine.
-
Basé sur le préjudice : Cette perspective considère les dégâts causés à la victime, comme le stress émotionnel ou l'exclusion sociale.
Ces approches ont toutes un truc en commun : elles visent à protéger les individus et les communautés contre le langage nuisible.
Le besoin d'un cadre unifié
Créer un cadre universel pour détecter le discours de haine est compliqué par le fait qu'il n'existe pas de définition unique. Différentes cultures interprètent la langue et le contexte de manières différentes. Par exemple, une blague faite dans un contexte peut être offensive dans un autre. C'est pour ça que les chercheurs se tournent vers les lois existantes sur le discours de haine. Ces lois peuvent fournir une base plus claire pour comprendre ce qui constitue un discours de haine punissable.
Questions de recherche
En essayant de s'attaquer au problème de la détection du discours de haine, certaines questions se posent :
- Comment l'utilisation des définitions légales influence-t-elle l'accord entre les experts lorsqu'ils identifient le discours de haine ?
- Les variations dans l'accord des experts se reflètent-elles dans la performance des Modèles d'apprentissage automatique pour détecter le discours de haine ?
- Étant donné les difficultés à rassembler des données sur le discours de haine punissable, les données générées par des modèles d'apprentissage automatique peuvent-elles améliorer les performances de détection ?
Collecte de données
Pour répondre à ces questions, les chercheurs rassemblent des données provenant de cas de discours de haine dans trois pays : la Grèce, l'Italie et le Royaume-Uni. En analysant les lois et en consultant des experts, ils créent un jeu de données qui sert à la fois à comprendre les implications légales et à améliorer les méthodes de détection du discours de haine.
Processus d'annotation
Le jeu de données inclut divers exemples de ce qui pourrait être considéré comme discours de haine. Des experts en droit et en criminologie évaluent ces exemples selon les lois nationales. Chaque expert examine les mêmes cas et les étiquette selon qu'il pense que le discours de haine est punissable ou pas. Le processus est long et nécessite une bonne compréhension des lois dans chaque pays.
Les défis de l'annotation
Tout au long du processus d'annotation, les experts sont souvent en désaccord. Cette incohérence peut mener à la confusion sur ce qui constitue le discours de haine. Certains cas sont simples, mais d'autres nécessitent des recherches approfondies pour interpréter le langage et l'intention. Des facteurs comme le contexte, le timing et l'actualité jouent un rôle important dans la perception du discours de haine. Les experts ont souvent des opinions différentes en fonction de leurs parcours et expériences uniques.
Modèles d'apprentissage automatique
Une fois le jeu de données créé, les chercheurs se tournent vers des modèles d'apprentissage automatique pour analyser les données. Différents modèles pré-entraînés sont utilisés pour voir s'ils peuvent identifier avec précision des cas de discours de haine. L'objectif n'est pas juste d'automatiser le processus de détection, mais aussi de s'assurer que ces modèles comprennent les nuances des lois sur lesquelles ils sont formés.
Évaluation des performances
Après avoir formé les modèles, les chercheurs évaluent leurs performances en mesurant les taux d'erreur. Des taux d'erreur plus bas indiquent une meilleure performance. Les modèles sont soumis à de nombreux tests pour vérifier comment ils interprètent le discours de haine en fonction des cadres légaux de chaque pays.
Défis dans la performance des modèles
Malgré les avancées en apprentissage automatique, les modèles ont encore du mal à saisir les aspects plus subtils du discours de haine. Ils ont tendance à être trop prudents, étiquetant souvent les cas comme "non punissables". Cette hésitation reflète les complexités auxquelles se heurtent les experts humains lorsqu'il s'agit de déterminer ce qui constitue un discours de haine.
Le rôle des grands modèles de langue
Les chercheurs expérimentent aussi avec des grands modèles de langue pour explorer leur efficacité dans la détection du discours de haine. Ces modèles sont testés avec diverses techniques pour voir s'ils peuvent améliorer l'exactitude de la classification du discours de haine. Cependant, les résultats montrent que ces modèles échouent souvent à inclure les nuances légales que les experts humains saisissent.
Conclusion et futures recherches
La détection du discours de haine est une tâche compliquée qui combine des défis légaux, sociaux et linguistiques. Cette étude met en lumière l'importance de la connaissance légale dans le développement d'algorithmes d'apprentissage automatique capables de détecter le discours de haine avec précision. Cependant, il est clair que l'apport humain reste essentiel dans ce processus.
À l'avenir, les chercheurs prévoient d'élargir leurs études pour inclure des lois d'autres pays et diverses perspectives culturelles. En continuant à affiner ces méthodes, ils veulent créer un système plus efficace pour identifier et combattre le discours de haine.
Considérations éthiques
Tout en travaillant pour détecter le discours de haine, il est essentiel de maintenir un équilibre entre la protection de la liberté d'expression et la prévention des préjudices. Les chercheurs respectent des lignes directrices éthiques et prennent en compte les implications réelles de leur étude, en veillant à ce que leur travail n'empiète pas involontairement sur les droits des individus.
En fin de compte, cette recherche vise à rendre l'espace en ligne plus sûr tout en respectant les droits des utilisateurs sur différentes plateformes. L'objectif est de favoriser un environnement où le discours respectueux peut prospérer, loin de la haine et de la discrimination.
Dernières réflexions
Détecter le discours de haine, c'est comme essayer de toucher une cible en mouvement. Avec l'évolution du langage et des normes sociétales, le défi est permanent. Mais en combinant connaissance légale et technologie avancée, on peut progresser vers une meilleure compréhension et gestion de ce problème critique dans notre monde. Après tout, la seule chose qu'on devrait haïr, c'est la haine elle-même !
Source originale
Titre: Hate Speech According to the Law: An Analysis for Effective Detection
Résumé: The issue of hate speech extends beyond the confines of the online realm. It is a problem with real-life repercussions, prompting most nations to formulate legal frameworks that classify hate speech as a punishable offence. These legal frameworks differ from one country to another, contributing to the big chaos that online platforms have to face when addressing reported instances of hate speech. With the definitions of hate speech falling short in introducing a robust framework, we turn our gaze onto hate speech laws. We consult the opinion of legal experts on a hate speech dataset and we experiment by employing various approaches such as pretrained models both on hate speech and legal data, as well as exploiting two large language models (Qwen2-7B-Instruct and Meta-Llama-3-70B). Due to the time-consuming nature of data acquisition for prosecutable hate speech, we use pseudo-labeling to improve our pretrained models. This study highlights the importance of amplifying research on prosecutable hate speech and provides insights into effective strategies for combating hate speech within the parameters of legal frameworks. Our findings show that legal knowledge in the form of annotations can be useful when classifying prosecutable hate speech, yet more focus should be paid on the differences between the laws.
Auteurs: Katerina Korre, John Pavlopoulos, Paolo Gajo, Alberto Barrón-Cedeño
Dernière mise à jour: 2024-12-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2412.06144
Source PDF: https://arxiv.org/pdf/2412.06144
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.cfr.org/backgrounder/hate-speech-social-media-global-comparisons
- https://www.theguardian.com/uk-news/2016/dec/07/racist-troll-guilty-harassing-labour-mp-luciana-berger-joshua-bonehill-paine
- https://www.coe.int/en/web/no-hate-campaign/no-hate-speech-movement
- https://www.theguardian.com/technology/2016/may/31/
- https://commission.europa.eu/law/law-topic/data-protection/data-protection-eu_en
- https://futurefreespeech.com/global-handbook-on-hate-speech-laws/
- https://github.com/google-research/bert/blob/master/multilingual.md