Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Réseaux sociaux et d'information

Classer les théories du complot dans les espaces en ligne

Un nouveau système pour identifier et classer les théories du complot en ligne.

― 8 min lire


Classer les conspirationsClasser les conspirationsen lignethéories du complot en ligne.Nouvelles méthodes pour s'attaquer aux
Table des matières

Les théories du complot sont de plus en plus fréquentes dans les discussions en ligne, surtout sur les réseaux sociaux. Alors que certaines discussions cherchent à soutenir ces théories, d'autres tentent de les contrecarrer. Comprendre les dynamiques de ces conversations est essentiel, car les théories du complot peuvent avoir des implications réelles importantes, comme influencer la santé publique et miner la confiance dans les institutions.

Identifier et classer les théories du complot en ligne est un vrai casse-tête à cause de leur nature complexe. Les méthodes traditionnelles ont leurs limites, ce qui entraîne souvent des erreurs de Classification. Ce travail vise à créer un système complet pour classer les discussions liées aux théories du complot, en se concentrant sur la manière dont les auteurs expriment leurs croyances.

L'Importance d'Identifier les Théories du Complot

Les théories du complot peuvent sembler inoffensives mais peuvent mener à des conséquences graves. Elles peuvent propager de la désinformation et créer du scepticisme sur des questions importantes, comme la santé publique et les processus démocratiques. La pandémie de COVID-19 a mis en lumière les dangers des théories du complot, montrant comment elles peuvent mener à des risques sanitaires et à des troubles civils.

Il est donc crucial de faire la distinction entre les discussions qui soutiennent et celles qui réfutent ces théories. Identifier avec précision ce type de contenu peut aider les chercheurs et les décideurs à comprendre comment les théories du complot évoluent et se répandent dans les communautés en ligne.

Problèmes avec les Approches Actuelles

De nombreuses études existantes se sont fiées à des méthodes basiques pour identifier les théories du complot, ce qui limite leur efficacité. Par exemple, certaines approches classifient tous les posts dans les forums liés aux complots comme complotistes, ce qui entraîne de nombreux faux positifs. D'autres méthodes peuvent se concentrer sur des mots-clés spécifiques, ce qui peut faire passer à côté de nuances importantes ou manquer complètement de contenu pertinent.

Des techniques d'apprentissage automatique ont été utilisées pour automatiser le processus d'identification, mais elles se concentrent souvent sur des sujets étroits et manquent de critères clairs pour définir le contenu complotiste. Ça complique la comparaison des résultats entre différentes études.

Une Nouvelle Approche de Classification

Pour remédier aux lacunes des méthodes précédentes, ce travail établit un nouveau schéma de classification pour les théories du complot. La définition proposée est : "Une théorie du complot est un ensemble de Récits visant à accuser un ou plusieurs agents d'avoir commis des actions spécifiques censées œuvrer vers un objectif secret et nuisible." Cette définition met en lumière trois éléments clés : l'agent (qui est censé être impliqué), l'action (ce dont ils sont accusés), et l'objectif (le but caché supposé).

Cette nouvelle approche prend en compte divers aspects des récits complotistes, y compris la façon dont les auteurs expriment leurs croyances, s'ils soutiennent ou réfutent une théorie, et comment ils font référence à des complots connus. En se concentrant sur ces éléments, le système de classification offre une compréhension plus nuancée des discussions conspiratrices en ligne.

Méthodologie

Collecte de Données

Les données pour cette étude proviennent des forums liés aux théories du complot les plus actifs sur Reddit. Les chercheurs ont identifié des subreddits populaires dédiés aux théories du complot et ont collecté des publications sur plusieurs années. La période choisie permet une analyse riche des discussions en ligne et de leur évolution durant cette période.

La collecte de données a également pris en compte la suppression des posts courts ou supprimés. Ce processus de filtrage garantit que l'analyse se concentre sur du contenu substantiel pertinent pour les questions de recherche.

Établir la Vérité de Base

Pour valider le système de classification, une équipe d'annotateurs formés a évalué un échantillon de posts des subreddits sélectionnés. Ces codeurs ont reçu des directives pour s'assurer qu'ils comprenaient le contexte et les complexités des théories du complot. Ils ont classé les posts comme complotistes (Soutenant) ou non complotistes (réfutant ou neutres).

Les codeurs ont suivi un processus de formation rigoureux, développant leur capacité à reconnaître les différents éléments narratifs dans les posts. Leur objectif était de constituer un ensemble de données fiable à partir duquel le système de classification pourrait apprendre.

Classificateurs d'Apprentissage Automatique

En utilisant les données annotées par des humains, plusieurs classificateurs d'apprentissage automatique ont été entraînés pour identifier automatiquement les théories du complot. Les chercheurs ont exploré divers modèles, y compris des méthodes d'apprentissage automatique traditionnelles et des techniques d'apprentissage profond plus avancées utilisant de grands modèles de langage.

En comparant les performances de ces classificateurs, les chercheurs ont cherché à déterminer quels modèles étaient les plus efficaces pour identifier le contenu complotiste.

Évaluation de la Performance de GPT

En plus des classificateurs traditionnels, les chercheurs ont également testé le modèle Generative Pre-trained Transformer (GPT) pour voir comment il pouvait bien classifier les théories du complot en ligne. Ce modèle est connu pour sa compréhension contextuelle et sa capacité d'expression.

Différentes stratégies de prompt ont été employées pour évaluer les capacités de classification de GPT. Les chercheurs ont trouvé à la fois des forces et des faiblesses dans sa performance, révélant que bien qu'il puisse identifier des théories du complot bien connues, il avait du mal avec des récits plus nuancés ou émergents.

Résultats Clés

Prévalence des Théories du Complot

L'analyse a révélé qu'environ un tiers des posts dans les forums Reddit examinés étaient classés comme soutenant les théories du complot. Cette constatation remet en question les hypothèses couramment acceptées sur la prévalence du contenu complotiste dans ces communautés en ligne. Comprendre la proportion réelle des discussions liées aux complots peut informer des stratégies pour traiter la désinformation.

Engagement avec les Récits de Complot

Les posts qui soutenaient les théories du complot avaient tendance à recevoir plus de commentaires et de scores de karma plus élevés, ce qui indique un engagement accru. Cela suggère que le contenu promouvant les théories du complot est plus susceptible de prospérer sur ces plateformes en ligne grâce à une interaction accrue des utilisateurs.

Comparaison des Modèles de Classification

L'étude a comparé les performances de différentes méthodes d'apprentissage automatique, certains modèles, comme RoBERTa, montrant des résultats supérieurs. Bien que GPT ait montré des capacités solides, il a aussi révélé d'importants défauts de raisonnement, notamment lors de la classification de théories du complot plus complexes ou moins connues.

Discussion

Identifier les théories du complot dans les discussions en ligne pose d'importants défis. Ce travail a établi un schéma de classification complet qui offre des perspectives sur les complexités des récits complotistes. En se concentrant sur les perspectives des auteurs et les éléments narratifs, la nouvelle approche améliore les méthodes précédentes.

Les résultats soulignent la nécessité de stratégies de modération de contenu nuancées sur les plateformes de médias sociaux. Alors que les théories du complot continuent de proliférer, comprendre comment elles sont discutées en ligne peut aider à atténuer leur potentiel de nuisance.

Limitations

Malgré ses forces, l'étude a des limites. Comme les discussions en ligne peuvent être ambiguës, interpréter avec précision les intentions des auteurs est souvent difficile. La variabilité dans la façon dont les codeurs interprètent les posts pourrait introduire de la subjectivité dans le processus d'annotation. Les futures études pourraient bénéficier d'un raffinement des critères de classification et d'une expansion des ensembles de données d'entraînement.

Considérations Éthiques

Collecter des données sur des plateformes en ligne soulève des questions éthiques, notamment en ce qui concerne la vie privée des utilisateurs et le potentiel de conséquences non souhaitées. Cette recherche a respecté des directives conçues pour protéger l'anonymat des utilisateurs et a cherché à éviter de promouvoir les théories du complot sous le couvert de l'analyse.

Conclusion

La classification des théories du complot dans les discussions en ligne est un domaine d'étude clé, surtout compte tenu de la montée rapide de la désinformation et de ses implications réelles. En développant un système de classification complet et en s'appuyant sur des techniques d'apprentissage automatique, cette recherche contribue à une meilleure compréhension de la façon dont les théories du complot fonctionnent dans les environnements en ligne.

Les travaux futurs devraient continuer à affiner ces méthodes et explorer leurs applications dans d'autres contextes, visant à obtenir une image plus précise du discours en ligne et de ses effets sur les croyances et les comportements.

Source originale

Titre: Classifying Conspiratorial Narratives At Scale: False Alarms and Erroneous Connections

Résumé: Online discussions frequently involve conspiracy theories, which can contribute to the proliferation of belief in them. However, not all discussions surrounding conspiracy theories promote them, as some are intended to debunk them. Existing research has relied on simple proxies or focused on a constrained set of signals to identify conspiracy theories, which limits our understanding of conspiratorial discussions across different topics and online communities. This work establishes a general scheme for classifying discussions related to conspiracy theories based on authors' perspectives on the conspiracy belief, which can be expressed explicitly through narrative elements, such as the agent, action, or objective, or implicitly through references to known theories, such as chemtrails or the New World Order. We leverage human-labeled ground truth to train a BERT-based model for classifying online CTs, which we then compared to the Generative Pre-trained Transformer machine (GPT) for detecting online conspiratorial content. Despite GPT's known strengths in its expressiveness and contextual understanding, our study revealed significant flaws in its logical reasoning, while also demonstrating comparable strengths from our classifiers. We present the first large-scale classification study using posts from the most active conspiracy-related Reddit forums and find that only one-third of the posts are classified as positive. This research sheds light on the potential applications of large language models in tasks demanding nuanced contextual comprehension.

Auteurs: Ahmad Diab, Rr. Nefriana, Yu-Ru Lin

Dernière mise à jour: 2024-03-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.00141

Source PDF: https://arxiv.org/pdf/2404.00141

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires