Le défi ACTI s'attaque aux théories du complot en ligne
Un concours axé sur l'identification des théories du complot dans les commentaires Telegram.
― 9 min lire
Table des matières
- Contexte Historique des Théories du Complot
- Description de la Tâche
- Collecte de Contenu Complotiste
- Mesures d'Évaluation et Lignes de Base
- Résultats pour la Classification du Contenu Complotiste
- Résultats pour la Reconnaissance des Catégories Complotistes
- Le Rôle des Grands Modèles de Langage
- Source originale
La tâche d'identification des théories du complot est un nouveau défi qui a commencé à Evalita 2023. Cette tâche se concentre sur l'identification des théories du complot dans les commentaires de Telegram, une plateforme de messagerie. Le défi se divise en deux parties : d'abord, vérifier si un commentaire contient du contenu complotiste, et ensuite, identifier à quelle théorie du complot spécifique il se rattache. Au total, quinze équipes ont participé, avec 81 soumissions au total. Les meilleures méthodes ont utilisé de grands modèles de langage pour obtenir de bons résultats.
Contexte Historique des Théories du Complot
Les théories du complot font partie de l'histoire humaine depuis longtemps. Elles attirent les gens avec leurs histoires intéressantes et leurs explications floues. Par exemple, au Moyen Âge, il y avait une théorie du complot néfaste connue sous le nom de "Blood Libel". Cette théorie accusait faussement les Juifs d'enlever et de tuer des enfants chrétiens pour des rituels religieux. Bien que cette affirmation ait été complètement désavouée, elle montre à quel point ces théories peuvent être dangereuses pour les groupes ciblés.
Avec l'émergence d'Internet, les théories du complot ont trouvé de nouveaux moyens de se propager. Elles peuvent facilement être partagées sur des plateformes populaires comme Twitter et Reddit, ainsi que sur des sites de niche comme 4chan et Telegram. Cette propagation en ligne a des effets sérieux, entraînant de la désinformation et un déclin de la confiance envers les sources d'information établies. Une telle désinformation peut nuire aux discussions publiques, aux événements politiques, et même aux efforts de santé.
Un exemple moderne du danger des théories du complot est Qanon. Cette théorie a commencé sur des forums en ligne marginaux et a gagné en popularité pendant l'ère Trump, contribuant finalement à des événements comme l'attaque du Capitole américain en 2021. L'exposition aux théories du complot peut changer la façon dont les gens pensent. Des études montrent qu'une fois que les individus entendent une théorie du complot, ils peuvent commencer à croire à d'autres, créant un cycle de méfiance et de paranoïa.
La pandémie de COVID-19 a encore alimenté la pensée complotiste. Les doutes sur les vaccins, le scepticisme vis-à-vis des mesures de santé publique et des narratives alternatives ont entraîné une augmentation significative des théories du complot dans le monde entier. Le résultat est une grande quantité de contenu lié aux conspirations dans de nombreuses langues.
Les plateformes de réseaux sociaux ont commencé à limiter la propagation de ce contenu grâce à leurs politiques de modération. Cependant, il y a un débat en cours sur l'efficacité de ces méthodes. Il y a un besoin clair de nouvelles manières de reconnaître et de gérer rapidement ce contenu en constante évolution. Ce défi a conduit à la création de la tâche d'identification automatique des théories du complot (ACTI). L'objectif est de s'attaquer à ce problème croissant des théories du complot dans d'autres langues que l'anglais.
Description de la Tâche
La tâche ACTI est divisée en deux parties. La première partie consiste à déterminer si un texte est complotiste ou non. Un texte est considéré comme complotiste s'il suggère que des événements majeurs, comme la pandémie de COVID-19, sont fabriqués par des personnes puissantes pour leur propre bénéfice. Il peut également inclure des déclarations qui soutiennent une narration de théorie du complot.
Par exemple, une déclaration disant "le cancer féministe est en train de prendre le dessus" serait considérée comme complotiste, car elle soutient subtilement l'idée que les droits des femmes nuisent à la société. D'un autre côté, un texte qui ne promeut aucune croyance complotiste est classé comme non complotiste.
La deuxième partie implique de classifier à laquelle théorie du complot spécifique un post appartient. La tâche couvre quatre théories principales :
- Théorie COVID : Posts liés aux vaccins, à la technologie 5G, ou à toute affirmation qui minimise la gravité de la pandémie.
- Théorie Qanon : Posts sur une théorie affirmant qu'un groupe de personnes puissantes est impliqué dans des activités nuisibles contre des leaders politiques.
- Théorie de la Terre Plate : Affirmer que la Terre est plate et qu'il y a un complot pour cacher cette vérité.
- Théorie Pro-Russie : Théories qui dépeignent la Russie comme une victime d'un conflit provoqué par d'autres pays.
Collecte de Contenu Complotiste
Pour rassembler les données nécessaires à la tâche ACTI, un webcrawler a été utilisé. Cet outil a cherché des sources spécifiques connues pour partager du contenu complotiste sur Telegram. Les chaînes sélectionnées se concentraient sur des idéologies d'extrême droite et des théories du complot, comme Qlobal-Change Italia et Basta Dittatura. La collecte de données a eu lieu sur six mois, rassemblant des commentaires écrits en italien tout en filtrant les commentaires très courts.
Des annotateurs humains ont joué un rôle critique dans l'assurance de la fiabilité des données. Ils ont travaillé à étiqueter les commentaires en trois catégories : "Non Pertinent", "Non Complotiste", et "Complotiste". Les commentaires contenant des pensées sans rapport avec le sujet étaient étiquetés comme "Non Pertinent", tandis que ceux qui n'impliquaient pas de théories du complot étaient marqués comme "Non Complotiste". Le label "Complotiste" a été attribué aux commentaires qui contenaient ou soutenaient des idées complotistes.
Une catégorisation supplémentaire a été faite pour les commentaires marqués comme "Complotiste", les décomposant en quatre théories du complot principales mentionnées précédemment. Cette approche structurée a permis une meilleure analyse des types spécifiques de complots.
Mesures d'Évaluation et Lignes de Base
Pour évaluer les différentes soumissions dans la compétition, différentes métriques ont été employées pour les deux tâches. Pour la première tâche centrée sur la classification complotiste, la précision des soumissions a aidé à classer les équipes. Dans la deuxième tâche, qui impliquait la reconnaissance des types de complots, le score F1 a été utilisé. Ce score prend en compte à la fois la précision et le rappel, fournissant une mesure équilibrée de la performance.
Pour créer une ligne de base pour les tâches, un modèle de Forêt Aléatoire a été entraîné. Le modèle a fourni un point de départ pour la comparaison. Au total, quinze équipes de plusieurs institutions ont participé, produisant 81 soumissions.
Résultats pour la Classification du Contenu Complotiste
Dans la première tâche, les meilleurs résultats venaient d'une équipe appelée "Andy P." de l'Université Politehnica de Bucarest. Ils ont atteint une précision impressionnante de 0.85 en utilisant un modèle conçu pour la langue italienne. Ils ont également appliqué une technique appelée entraînement contrastif et intégré des méthodes pour créer plus de données d'entraînement.
D'autres équipes ont utilisé des variations de grands modèles de langage et de modèles transformateurs. Beaucoup d'équipes ont atteint des précisions supérieures à 0.80%, montrant une forte performance dans l'ensemble.
Résultats pour la Reconnaissance des Catégories Complotistes
Dans la deuxième tâche, encore une fois, "Andy P." a mené avec un score F1 de 0.91. Il est intéressant de noter que leur méthode sans augmentation de données a mieux fonctionné que celle avec. Une équipe de l'Université Tor Vergata a également bien performé, atteignant un score F1 de 0.89 grâce à l'utilisation d'une combinaison de différents modèles.
Le Rôle des Grands Modèles de Langage
La propagation de la désinformation et des théories du complot crée des défis significatifs. De nombreuses équipes dans la compétition ont utilisé de grands modèles de langage (LLMs) pour aborder ces problèmes.
Une stratégie réussie était d'utiliser des LLMs pour créer des données synthétiques, ce qui a aidé les équipes à rassembler plus de matériel d'entraînement. Cette approche répond aux difficultés de trouver du contenu réel et du besoin d'un étiquetage manuel étendu. Cependant, il est vital d'évaluer la qualité de ces données générées. Une évaluation humaine peut vérifier si le contenu synthétique s'aligne avec de réelles notions complotistes.
De plus, les participants ont utilisé des techniques de prompting avec les LLMs pour détecter du matériel complotiste. Cette méthode s'est révélée efficace dans les deux sous-tâches de la compétition. En utilisant divers prompts, les équipes ont montré le potentiel de ces modèles pour identifier des motifs et des indices linguistiques liés aux conspirations.
Combiner les forces de ces approches peut conduire à de nouveaux progrès dans la lutte contre la désinformation. En intégrant des évaluations humaines avec le raffinement des techniques de prompting, les futurs outils peuvent devenir plus précis et fiables dans l'identification et la réponse aux théories du complot.
En conclusion, la tâche ACTI a fourni des informations précieuses sur le défi continu des théories du complot dans les espaces en ligne. Les résultats soulignent l'importance d'une recherche continue et l'application de techniques d'analyse de données avancées pour combattre efficacement la désinformation.
Titre: ACTI at EVALITA 2023: Overview of the Conspiracy Theory Identification Task
Résumé: Conspiracy Theory Identication task is a new shared task proposed for the first time at the Evalita 2023. The ACTI challenge, based exclusively on comments published on conspiratorial channels of telegram, is divided into two subtasks: (i) Conspiratorial Content Classification: identifying conspiratorial content and (ii) Conspiratorial Category Classification about specific conspiracy theory classification. A total of fifteen teams participated in the task for a total of 81 submissions. We illustrate the best performing approaches were based on the utilization of large language models. We finally draw conclusions about the utilization of these models for counteracting the spreading of misinformation in online platforms.
Auteurs: Giuseppe Russo, Niklas Stoehr, Manoel Horta Ribeiro
Dernière mise à jour: 2023-09-02 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.06954
Source PDF: https://arxiv.org/pdf/2307.06954
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.