Hostilité en ligne envers les politiciens britanniques : une plongée profonde
Analyser l'hostilité croissante sur les réseaux sociaux envers les députés britanniques.
Mugdha Pandya, Mali Jin, Kalina Bontcheva, Diana Maynard
― 7 min lire
Table des matières
- Le Dataset
- Pourquoi c'est important ?
- Recherches Précédentes
- Méthodologie
- Collecte des Données
- Processus d'Échantillonnage
- Processus d'Annotation
- Analyse des Tweets
- Modèles Linguistiques
- Analyse Thématique
- Identification de l'Hostilité
- Résultats
- Résultats de la Détection d'Hostilité
- Tendances dans l'Hostilité
- Importance du Contexte
- Conclusion
- Source originale
- Liens de référence
Ces dernières années, les réseaux sociaux sont devenus une plateforme populaire pour les politiciens au Royaume-Uni pour interagir avec le public. Ils utilisent des sites comme X (anciennement Twitter) pour dialoguer avec les électeurs, répondre à leurs questions et recevoir des retours. Mais cette transparence peut mener à une attention indésirable. Les politiciens se prennent souvent une vague de commentaires hostiles, que ce soit sur leur rôle professionnel ou leur identité personnelle, rendant les réseaux sociaux un peu une épée à double tranchant.
Cette Hostilité peut nuire aux politiciens et à la confiance du public dans le gouvernement. Certains commentaires sont tellement graves qu'ils peuvent inciter à la violence dans le monde réel. Donc, comprendre et adresser ce problème est crucial pour maintenir un discours politique sain.
Le Dataset
Pour s'attaquer au problème de l'hostilité dans les commentaires en ligne visant les politiciens, des chercheurs ont créé un dataset contenant 3 320 Tweets collectés sur une période de deux ans. Ces tweets ont été soigneusement examinés et étiquetés selon leur degré d'hostilité envers les députés britanniques (MPs). De plus, le dataset inclut des détails sur les caractéristiques identitaires des cibles, comme la race, le genre et la religion.
Ce dataset n’est pas juste une collection de tweets aléatoires. Il vise à mettre en lumière le langage et les problèmes uniques qui surgissent dans les discussions Politiques au Royaume-Uni, qui peuvent être assez différents de ceux d'autres pays. Par exemple, des questions comme le Brexit sont particulièrement pertinentes au Royaume-Uni, et ce dataset le reflète.
Pourquoi c'est important ?
Le besoin de ce type de dataset vient du langage spécifique utilisé dans l'hostilité politique. Les modèles existants pour détecter l'hostilité générale n'arrivent souvent pas à s'appliquer à des contextes politiques. Ils passent à côté des nuances du langage et de l'état d'esprit du public concernant les questions politiques, ce qui rend essentiel d'avoir une approche plus ciblée.
Sans cet effort ciblé, la confiance du public dans les institutions politiques pourrait continuer à s'éroder. Donc, créer et analyser ce dataset aide non seulement à classifier les tweets hostiles mais ouvre aussi la voie à de futures recherches pour comprendre les abus en ligne dans un contexte politique.
Recherches Précédentes
Avant l'établissement de ce dataset, des études précédentes avaient exploré l'hostilité envers les politiciens, mais souvent de manière générale. Beaucoup de ces études se concentraient sur des incidents ou des tendances spécifiques plutôt que de fournir une analyse complète des questions de langage et d'identité en jeu.
Les recherches ont montré que les politiciennes et ceux issus de milieux minoritaires ont tendance à faire face à plus d'hostilité que leurs homologues. Des outils comme l'analyse de sentiment ont été utilisés pour mesurer le sentiment négatif en ligne, mais ils ne sont pas toujours efficaces dans le domaine politique.
Les datasets existants manquaient souvent d'étiquettes pour identifier la nature spécifique de l'hostilité. Certains se concentraient uniquement sur un type d'abus, comme l'islamophobie, tandis que d'autres incluaient un éventail plus large de discours haineux sans prêter attention aux caractéristiques identitaires.
Méthodologie
Collecte des Données
Les chercheurs ont utilisé l'API de Streaming de X pour rassembler les tweets liés aux députés sur deux ans. Ils ont suivi à la fois les tweets originaux des MPs et les réponses et retweets qui suivaient. Cette approche extensive a abouti à plus de 30 millions de tweets. Cependant, comme ce nombre était écrasant, les chercheurs ont dû échantillonner un sous-ensemble plus petit et gérable pour une analyse détaillée.
Processus d'Échantillonnage
Pour assurer la diversité, les chercheurs ont choisi des tweets de 18 MPs représentant différentes Identités et partis politiques. Ils ont équilibré l'échantillon pour inclure à la fois des groupes identitaires minoritaires et majoritaires. L'échantillonnage s'est également concentré sur diverses périodes pour capturer différents contextes et événements.
Au total, 3 330 tweets ont été collectés pour étiquetage manuel. Les tweets ont été catégorisés selon leur hostilité, permettant aux chercheurs de créer une image plus claire du paysage des abus en ligne dirigés contre les MPs.
Processus d'Annotation
Les chercheurs ont formulé des lignes directrices pour aider les annotateurs à classifier les tweets efficacement. Une série de séances de formation a assuré que tout le monde impliqué comprenne bien les définitions et les critères pour identifier l'hostilité avec précision. Les annotateurs travaillaient en équipes et étaient encouragés à consulter des ressources externes lorsqu'ils rencontraient un langage inconnu.
Trois annotateurs différents ont étiqueté chaque tweet, apportant un certain niveau de fiabilité au dataset. Ce processus d'annotation multiple a aidé à minimiser les erreurs et à garantir que les étiquettes étaient aussi précises que possible.
Analyse des Tweets
Modèles Linguistiques
Pour comprendre le langage utilisé dans les tweets hostiles, les chercheurs ont mené une analyse linguistique. Ils ont trouvé que les tweets hostiles contenaient souvent des termes et des phrases négatifs visant à discréditer les politiciens. Des mots comme "menteur," "corrompu," et "maléfiques" étaient particulièrement courants parmi les commentaires hostiles.
D'un autre côté, les tweets non hostiles avaient tendance à présenter des phrases positives. Au lieu d'insultes, ces tweets exprimaient souvent de la gratitude ou des retours constructifs, utilisant un langage qui respectait les normes sociales.
Analyse Thématique
Les chercheurs ont également exploré les thèmes associés aux tweets hostiles et non hostiles. Ils ont identifié que de nombreux tweets étaient liés à des événements politiques en cours, comme le Brexit ou la gestion des soins de santé pendant la pandémie. Ce lien entre événements d'actualité et hostilité en ligne souligne comment certains enjeux peuvent exacerber la colère du public envers les politiciens.
Identification de l'Hostilité
Les chercheurs ont utilisé le dataset pour entraîner des modèles à détecter l'hostilité dans les tweets. Cela impliquait deux tâches principales : d'abord, identifier si un tweet était hostile ou non, et ensuite, catégoriser le type d'hostilité basé sur des caractéristiques identitaires comme la race, le genre ou la religion.
Plusieurs modèles ont été testés pour voir lequel performait le mieux à identifier à la fois l'hostilité binaire (hostile vs. non-hostile) et les types d'hostilité multi-classes.
Résultats
Résultats de la Détection d'Hostilité
En analysant la performance des modèles, les chercheurs ont découvert que certains modèles, comme RoBERTa-Hate, étaient particulièrement efficaces pour détecter l'hostilité, atteignant un score macro F1 élevé. Il est devenu clair que les modèles entraînés sur le dataset avec des scores de confiance donnaient de meilleurs résultats que ceux entraînés sur des datasets précédents.
Tendances dans l'Hostilité
Une tendance notable trouvée dans les données est que les politiciens issus de certaines origines identitaires, comme les femmes et ceux de races ou religions minoritaires, reçoivent souvent un volume plus élevé d'hostilité. Cela met en lumière l'intersection des différentes identités, où la combinaison race, genre et religion peut amplifier la quantité d'abus subis par les politiciens.
Importance du Contexte
La recherche a également montré que le contexte dans lequel un tweet est envoyé joue un rôle significatif dans le langage utilisé. L'hostilité atteignait souvent son pic autour d'événements politiques importants, révélant la relation étroite entre le commentaire social et la politique.
Conclusion
La création de ce dataset est un pas vers une meilleure compréhension et identification de l'hostilité en ligne visant les politiciens britanniques. Il met en lumière le besoin d'outils spécialisés pour s'attaquer efficacement à ce problème dans un contexte politique.
En se concentrant sur le langage et les caractéristiques identitaires impliquées dans les commentaires hostiles, les chercheurs peuvent obtenir des insights vitaux qui ouvrent la voie à de futures recherches visant à réduire les abus en ligne.
Alors, si seulement les MPs pouvaient avoir une peau plus épaisse, un sens de l'humour, et peut-être un bouclier numérique, ils pourraient survivre à la tempête des commentaires en ligne !
Source originale
Titre: Hostility Detection in UK Politics: A Dataset on Online Abuse Targeting MPs
Résumé: Numerous politicians use social media platforms, particularly X, to engage with their constituents. This interaction allows constituents to pose questions and offer feedback but also exposes politicians to a barrage of hostile responses, especially given the anonymity afforded by social media. They are typically targeted in relation to their governmental role, but the comments also tend to attack their personal identity. This can discredit politicians and reduce public trust in the government. It can also incite anger and disrespect, leading to offline harm and violence. While numerous models exist for detecting hostility in general, they lack the specificity required for political contexts. Furthermore, addressing hostility towards politicians demands tailored approaches due to the distinct language and issues inherent to each country (e.g., Brexit for the UK). To bridge this gap, we construct a dataset of 3,320 English tweets spanning a two-year period manually annotated for hostility towards UK MPs. Our dataset also captures the targeted identity characteristics (race, gender, religion, none) in hostile tweets. We perform linguistic and topical analyses to delve into the unique content of the UK political data. Finally, we evaluate the performance of pre-trained language models and large language models on binary hostility detection and multi-class targeted identity type classification tasks. Our study offers valuable data and insights for future research on the prevalence and nature of politics-related hostility specific to the UK.
Auteurs: Mugdha Pandya, Mali Jin, Kalina Bontcheva, Diana Maynard
Dernière mise à jour: 2024-12-05 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2412.04046
Source PDF: https://arxiv.org/pdf/2412.04046
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://zenodo.org/records/10809695
- https://anonymous.4open.science/r/ohtukmp-21D8
- https://huggingface.co/cardiffnlp/twitter-roberta-base-hate-latest
- https://huggingface.co/meta-llama/Meta-Llama-3-8B
- https://platform.openai.com/docs/models/gpt-3-5-turbo
- https://developer.twitter.com/en/docs/twitter-api/tweets/lookup/api-reference/get-tweets-id