Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Surveillance des messages politiques dans le paysage des réseaux sociaux en Pologne

Analyser l'agitation électorale sur les réseaux sociaux pendant la campagne présidentielle de Pologne en 2020.

― 6 min lire


Instruments de médiasInstruments de médiassociaux politiques enPolognel'élection présidentielle de 2020.Suivi des messages électoraux pendant
Table des matières

Les réseaux sociaux sont super utilisés par les politiciens pour faire de la pub pendant les campagnes électorales. Ça a causé une explosion de messages promotionnels, rendant difficile pour les autorités électorales de suivre la diffusion et la quantité de ces messages. Ce problème est particulièrement important en Pologne, où les règles sur le discours politique sont définies dans le Code électoral polonais. Notre travail vise à combler cette lacune en présentant un nouveau jeu de données axé sur la détection des messages politiques, connus sous le nom d'agitation électorale, spécifiquement en polonais.

L'importance de surveiller l'agitation électorale

Ces dernières années, les réseaux sociaux ont vraiment influencé la façon dont les messages politiques sont partagés. Ça a résulté en un mélange de soutien positif pour les candidats et de campagnes négatives contre les opposants. Le côté nocif de ça inclut le trolling, les discours de haine et le partage d'infos trompeuses. Beaucoup de pays européens, y compris la Pologne, ont des lois pour gérer ces problèmes. Par exemple, le Comité national des élections en Pologne est responsable d'assurer des élections justes et de surveiller le discours électoral.

Cependant, il y a eu un manque d'outils pour suivre efficacement ces messages. Notre jeu de données permet d'identifier des types spécifiques de messages politiques sur Twitter qui correspondent aux lois existantes. Ça pourrait donner des idées précieuses sur combien de messages soutiennent un candidat, combien violent les règles électorales, et offrir des ressources pour les journalistes et chercheurs intéressés par la politique polonaise.

Ressources existantes

Alors qu'il y a quelques ressources disponibles pour analyser le contenu politique sur les réseaux sociaux dans des pays comme l'Espagne et la France, la Pologne manque de jeux de données similaires. Ça crée une demande pour des données bien annotées qui suivent les définitions légales du discours politique. Notre objectif est de répondre à ce besoin en présentant un jeu de données qui capture les messages chargés politiquement durant l'élection présidentielle polonaise de 2020.

Processus de collecte de données

On a récupéré nos données sur Twitter pendant la campagne électorale présidentielle de 2020, qui a eu lieu entre le 5 février et le 12 juillet 2020. La collecte a impliqué près de 10 millions de Tweets en utilisant des hashtags spécifiques liés à l'élection. Après avoir filtré les doublons et les tweets non polonais, il nous reste environ 4,9 millions de tweets. Un autre filtrage a exclu les tweets de moins de 100 caractères et les posts mentionnant directement des candidats, ce qui nous a laissé 15 790 tweets pour notre analyse principale.

Annotation des tweets

Pour identifier l'agitation politique, nous avons classé les tweets en deux groupes principaux : agités et non agités. Après une analyse soignée, nous avons défini quatre catégories pour l'annotation :

  1. Incitation – Ces tweets encouragent explicitement à voter pour ou contre un candidat.
  2. Encouragement – Cela inclut les tweets qui partagent des opinions sur les candidats sans demander directement de votes.
  3. Participation électorale – Ces tweets visent à encourager les gens à voter ou à les en dissuader.
  4. Normal – Tweets qui ne rentrent dans aucune des catégories ci-dessus.

Notre processus a impliqué cinq locuteurs natifs polonais qui ont annoté les tweets. Chaque tweet a été examiné par deux annotateurs, et les divergences ont été résolues par un troisième. Au final, on a annoté 6 112 tweets et on a obtenu un score indiquant un bon accord entre les annotateurs.

Entraînement du modèle

Avec le jeu de données, on a entraîné un classificateur basé sur un modèle de langue polonais appelé HerBERT. Ce modèle vise à identifier et classer les types d'agitation électorale trouvés dans nos tweets. Notre modèle a obtenu un score F1 de 68%, ce qui indique un niveau de performance correct pour cette tâche.

Analyse de l'élection présidentielle polonaise

Notre jeu de données permet d'analyser l'agitation électorale sur les réseaux sociaux. On a examiné les tweets des dernières semaines de la campagne électorale présidentielle de 2020. On a trouvé qu'une grande partie des tweets contenait du contenu agité, surtout pendant une période de soi-disant "silence préélectoral", où la campagne est censée s'arrêter par la loi.

Étonnamment, même pendant ce silence, de nombreux tweets continuaient de promouvoir des candidats, suggérant que les règlements existants ne préviennent pas efficacement le discours politique en ligne. On a observé qu'environ un tiers des tweets analysés étaient liés à l'agitation, révélant une tendance croissante dans les dernières semaines avant l'élection.

Analyse de sentiment

En plus d'identifier les types d'agitation électorale, on a aussi analysé le sentiment derrière les tweets. Les tweets classés comme normaux avaient tendance à avoir un sentiment neutre, tandis que les tweets agités, surtout dans la catégorie encouragement, étaient souvent négatifs. Ça montre une tendance où le sentiment négatif joue un rôle significatif dans la façon dont les messages politiques sont partagés sur les réseaux sociaux.

Les résultats montrent que même quand les médias sont impliqués, leurs messages ont tendance à être neutres par rapport à la nature plus chargée du contenu des réseaux sociaux. Ça renforce l'idée que les réseaux sociaux sont souvent une plateforme pour des récits plus polarisés et négatifs pendant les élections.

Conclusion et perspectives d'avenir

Notre jeu de données et notre modèle fournissent un outil essentiel pour catégoriser et analyser les posts sur les réseaux sociaux liés à l'agitation électorale. Ça sert une variété de publics, y compris les chercheurs, les reporters, et les autorités électorales, qui s'intéressent à comprendre les dynamiques des campagnes politiques.

On vise à continuer à développer ce domaine de recherche. Les travaux futurs se concentreront sur l'expansion de nos jeux de données et le perfectionnement de nos modèles pour soutenir des processus électoraux équitables et réduire la propagande politique trompeuse sur les réseaux sociaux. Ces initiatives peuvent aider à garantir que les campagnes politiques restent transparentes et dignes de confiance pour les électeurs.

Source originale

Titre: Electoral Agitation Data Set: The Use Case of the Polish Election

Résumé: The popularity of social media makes politicians use it for political advertisement. Therefore, social media is full of electoral agitation (electioneering), especially during the election campaigns. The election administration cannot track the spread and quantity of messages that count as agitation under the election code. It addresses a crucial problem, while also uncovering a niche that has not been effectively targeted so far. Hence, we present the first publicly open data set for detecting electoral agitation in the Polish language. It contains 6,112 human-annotated tweets tagged with four legally conditioned categories. We achieved a 0.66 inter-annotator agreement (Cohen's kappa score). An additional annotator resolved the mismatches between the first two improving the consistency and complexity of the annotation process. The newly created data set was used to fine-tune a Polish Language Model called HerBERT (achieving a 68% F1 score). We also present a number of potential use cases for such data sets and models, enriching the paper with an analysis of the Polish 2020 Presidential Election on Twitter.

Auteurs: Mateusz Baran, Mateusz Wójcik, Piotr Kolebski, Michał Bernaczyk, Krzysztof Rajda, Łukasz Augustyniak, Tomasz Kajdanowicz

Dernière mise à jour: 2023-07-13 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.07007

Source PDF: https://arxiv.org/pdf/2307.07007

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires