Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Apprentissage automatique

Identifier la propagande dans les articles de presse

Cet article examine comment reconnaître la propagande en utilisant des méthodes humaines et d'apprentissage automatique.

― 6 min lire


Repérer la propagandeRepérer la propagandedans les infosle contenu d'actualité trompeur.Apprends des méthodes pour identifier
Table des matières

La Propagande, c'est une façon de communiquer qui vise à influencer les croyances et les actions des gens. Elle utilise souvent des styles de langage spécifiques qu'on peut reconnaître et analyser. Cet article examine comment identifier ces caractéristiques stylistiques dans la propagande, en se concentrant sur des articles de news provenant de sources connues pour diffuser de fausses informations.

Le Dataset

Un dataset a été créé à partir de diverses sources connues pour promouvoir la propagande, surtout pendant le conflit actuel lié à l'Ukraine. Ce dataset inclut des articles de news dans plusieurs langues provenant de sites identifiés par des experts. Le dataset est diversifié, contenant du contenu sur une gamme de sujets et utilisant différentes langues.

Pour faire une comparaison équitable, des articles de journaux français grand public ont aussi été inclus dans le dataset. Ce mélange a permis de mieux comprendre comment la propagande diffère des nouvelles normales.

Annotation Humaine

Une expérience a été réalisée où des gens ont annoté les articles. Ils devaient étiqueter les articles selon des critères spécifiques, comme si le contenu était manipulateur ou exagéré. Au total, 11 étiquettes différentes ont été créées pour cette tâche. Les annotateurs devaient identifier si un article contenait des éléments comme "Fake News", "Exagération" ou "Titre Malhonnête". Ce processus impliquait un jugement humain pour déterminer la présence de ces caractéristiques dans chaque article.

Les résultats ont montré que les gens étaient généralement bons pour identifier les différences entre les articles de propagande et les nouvelles normales. Ils pouvaient reconnaître quels articles appartenaient à quelle catégorie, même quand les deux types parlaient de sujets similaires.

Analyse des Annotations Humaines

Une fois les articles annotés, les chercheurs ont examiné les résultats pour voir à quel point les annotateurs étaient cohérents. Ils ont mesuré la fréquence à laquelle les annotateurs s'accordaient quand ils étiquetaient les articles. Les résultats indiquaient un niveau d'accord modéré à élevé parmi les annotateurs, montrant qu'ils pouvaient distinguer de manière fiable entre les deux types de presse.

Certaines étiquettes étaient utilisées plus fréquemment dans un type d'article que dans l'autre. Par exemple, les étiquettes liées à la Manipulation, comme "Exagération", étaient beaucoup plus courantes dans les articles de propagande que dans les nouvelles normales.

Examen des Caractéristiques Textuelles

Après le processus d'annotation, l'étape suivante était d'analyser le langage utilisé dans les articles. Des caractéristiques spécifiques du texte, telles que l'imprécision, la Subjectivité et le détail, ont été examinées pour comprendre ce qui rendait les articles de propagande distincts. Par exemple, les articles de propagande utilisaient souvent des expressions vagues plus fréquemment que les articles normaux.

Les chercheurs ont utilisé des outils spéciaux pour calculer des scores liés à ces caractéristiques dans les articles. L'analyse a montré que des scores d'imprécision plus élevés avaient tendance à être corrélés avec les étiquettes de propagande.

Apprentissage Automatique pour la Classification

Pour améliorer la détection de la propagande, des modèles d'apprentissage automatique ont été entraînés. Ces modèles étaient conçus pour classifier les articles en tant que propagande ou nouvelles normales en fonction des caractéristiques textuelles identifiées plus tôt. Différents types de modèles ont été utilisés, certains se concentrant sur la structure des phrases tandis que d'autres prenaient en compte les caractéristiques globales du texte.

Les modèles ont été entraînés sur un grand ensemble d'articles. Ils ont été testés pour voir à quel point ils pouvaient identifier la propagande dans des données non vues. Les résultats ont indiqué que les modèles fonctionnaient bien sur ce sujet spécifique, atteignant une grande précision dans la distinction entre la propagande et les articles réguliers.

Caractéristiques Clés de la Propagande

Les modèles d'apprentissage automatique ont identifié certains marqueurs communs dans les articles de propagande. En analysant les contributions des différentes parties du texte, les chercheurs ont pu repérer des mots et des phrases spécifiques qui signalaient souvent la propagande. Par exemple, les articles bourrés d'Exagérations ou de langage subjectif étaient plus susceptibles d'être classés comme propagande.

De plus, l'utilisation de la ponctuation différait considérablement entre les deux types d'articles. Les articles de propagande avaient moins de virgules et de guillemets mais plus de points par rapport aux articles de news normales. Cette différence syntaxique a fourni d'autres éclaircissements sur la façon dont la propagande est structurée.

Biais Potentiels dans l'Apprentissage Automatique

Bien que les modèles d'apprentissage automatique aient montré de bonnes performances dans la détection de la propagande, il existe des préoccupations concernant les biais dans le dataset qui pourraient affecter les résultats. Les modèles entraînés sur des sujets spécifiques peuvent ne pas aussi bien fonctionner sur d'autres sujets. Comme la qualité du dataset peut varier, cela pose un défi pour garantir que les modèles peuvent bien généraliser à d'autres domaines.

Conclusion et Directions Futures

La recherche a montré des moyens efficaces d'identifier la propagande grâce aux annotations humaines et aux modèles d'apprentissage automatique. En analysant le langage et le style des articles, des caractéristiques distinctes de la propagande ont été révélées. Les résultats suggèrent que le langage propagandiste contient souvent exagération et imprécision.

Les efforts futurs devraient se concentrer sur l'amélioration de l'explicabilité des modèles et leur capacité à détecter la propagande dans d'autres contextes. Il y a aussi un besoin de recherche continue pour analyser comment la propagande est perçue à travers différentes langues et cultures.

Ce travail fournit une base pour de futures investigations dans le monde complexe de la détection de la propagande, ce qui est essentiel pour maintenir un discours public sain.

Source originale

Titre: Exposing propaganda: an analysis of stylistic cues comparing human annotations and machine classification

Résumé: This paper investigates the language of propaganda and its stylistic features. It presents the PPN dataset, standing for Propagandist Pseudo-News, a multisource, multilingual, multimodal dataset composed of news articles extracted from websites identified as propaganda sources by expert agencies. A limited sample from this set was randomly mixed with papers from the regular French press, and their URL masked, to conduct an annotation-experiment by humans, using 11 distinct labels. The results show that human annotators were able to reliably discriminate between the two types of press across each of the labels. We propose different NLP techniques to identify the cues used by the annotators, and to compare them with machine classification. They include the analyzer VAGO to measure discourse vagueness and subjectivity, a TF-IDF to serve as a baseline, and four different classifiers: two RoBERTa-based models, CATS using syntax, and one XGBoost combining syntactic and semantic features.

Auteurs: Géraud Faye, Benjamin Icard, Morgane Casanova, Julien Chanson, François Maine, François Bancilhon, Guillaume Gadek, Guillaume Gravier, Paul Égré

Dernière mise à jour: 2024-02-26 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.03780

Source PDF: https://arxiv.org/pdf/2402.03780

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires