Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Le défi ACTI s'attaque aux théories du complot en ligne

Un concours axé sur l'identification des théories du complot dans les commentaires Telegram.

― 9 min lire


Résultats du défi desRésultats du défi desthéories du complotdangereux en temps réel.Identifier des récits en ligne
Table des matières

La tâche d'identification des théories du complot est un nouveau défi qui a commencé à Evalita 2023. Cette tâche se concentre sur l'identification des théories du complot dans les commentaires de Telegram, une plateforme de messagerie. Le défi se divise en deux parties : d'abord, vérifier si un commentaire contient du contenu complotiste, et ensuite, identifier à quelle théorie du complot spécifique il se rattache. Au total, quinze équipes ont participé, avec 81 soumissions au total. Les meilleures méthodes ont utilisé de grands modèles de langage pour obtenir de bons résultats.

Contexte Historique des Théories du Complot

Les théories du complot font partie de l'histoire humaine depuis longtemps. Elles attirent les gens avec leurs histoires intéressantes et leurs explications floues. Par exemple, au Moyen Âge, il y avait une théorie du complot néfaste connue sous le nom de "Blood Libel". Cette théorie accusait faussement les Juifs d'enlever et de tuer des enfants chrétiens pour des rituels religieux. Bien que cette affirmation ait été complètement désavouée, elle montre à quel point ces théories peuvent être dangereuses pour les groupes ciblés.

Avec l'émergence d'Internet, les théories du complot ont trouvé de nouveaux moyens de se propager. Elles peuvent facilement être partagées sur des plateformes populaires comme Twitter et Reddit, ainsi que sur des sites de niche comme 4chan et Telegram. Cette propagation en ligne a des effets sérieux, entraînant de la désinformation et un déclin de la confiance envers les sources d'information établies. Une telle désinformation peut nuire aux discussions publiques, aux événements politiques, et même aux efforts de santé.

Un exemple moderne du danger des théories du complot est Qanon. Cette théorie a commencé sur des forums en ligne marginaux et a gagné en popularité pendant l'ère Trump, contribuant finalement à des événements comme l'attaque du Capitole américain en 2021. L'exposition aux théories du complot peut changer la façon dont les gens pensent. Des études montrent qu'une fois que les individus entendent une théorie du complot, ils peuvent commencer à croire à d'autres, créant un cycle de méfiance et de paranoïa.

La pandémie de COVID-19 a encore alimenté la pensée complotiste. Les doutes sur les vaccins, le scepticisme vis-à-vis des mesures de santé publique et des narratives alternatives ont entraîné une augmentation significative des théories du complot dans le monde entier. Le résultat est une grande quantité de contenu lié aux conspirations dans de nombreuses langues.

Les plateformes de réseaux sociaux ont commencé à limiter la propagation de ce contenu grâce à leurs politiques de modération. Cependant, il y a un débat en cours sur l'efficacité de ces méthodes. Il y a un besoin clair de nouvelles manières de reconnaître et de gérer rapidement ce contenu en constante évolution. Ce défi a conduit à la création de la tâche d'identification automatique des théories du complot (ACTI). L'objectif est de s'attaquer à ce problème croissant des théories du complot dans d'autres langues que l'anglais.

Description de la Tâche

La tâche ACTI est divisée en deux parties. La première partie consiste à déterminer si un texte est complotiste ou non. Un texte est considéré comme complotiste s'il suggère que des événements majeurs, comme la pandémie de COVID-19, sont fabriqués par des personnes puissantes pour leur propre bénéfice. Il peut également inclure des déclarations qui soutiennent une narration de théorie du complot.

Par exemple, une déclaration disant "le cancer féministe est en train de prendre le dessus" serait considérée comme complotiste, car elle soutient subtilement l'idée que les droits des femmes nuisent à la société. D'un autre côté, un texte qui ne promeut aucune croyance complotiste est classé comme non complotiste.

La deuxième partie implique de classifier à laquelle théorie du complot spécifique un post appartient. La tâche couvre quatre théories principales :

  1. Théorie COVID : Posts liés aux vaccins, à la technologie 5G, ou à toute affirmation qui minimise la gravité de la pandémie.
  2. Théorie Qanon : Posts sur une théorie affirmant qu'un groupe de personnes puissantes est impliqué dans des activités nuisibles contre des leaders politiques.
  3. Théorie de la Terre Plate : Affirmer que la Terre est plate et qu'il y a un complot pour cacher cette vérité.
  4. Théorie Pro-Russie : Théories qui dépeignent la Russie comme une victime d'un conflit provoqué par d'autres pays.

Collecte de Contenu Complotiste

Pour rassembler les données nécessaires à la tâche ACTI, un webcrawler a été utilisé. Cet outil a cherché des sources spécifiques connues pour partager du contenu complotiste sur Telegram. Les chaînes sélectionnées se concentraient sur des idéologies d'extrême droite et des théories du complot, comme Qlobal-Change Italia et Basta Dittatura. La collecte de données a eu lieu sur six mois, rassemblant des commentaires écrits en italien tout en filtrant les commentaires très courts.

Des annotateurs humains ont joué un rôle critique dans l'assurance de la fiabilité des données. Ils ont travaillé à étiqueter les commentaires en trois catégories : "Non Pertinent", "Non Complotiste", et "Complotiste". Les commentaires contenant des pensées sans rapport avec le sujet étaient étiquetés comme "Non Pertinent", tandis que ceux qui n'impliquaient pas de théories du complot étaient marqués comme "Non Complotiste". Le label "Complotiste" a été attribué aux commentaires qui contenaient ou soutenaient des idées complotistes.

Une catégorisation supplémentaire a été faite pour les commentaires marqués comme "Complotiste", les décomposant en quatre théories du complot principales mentionnées précédemment. Cette approche structurée a permis une meilleure analyse des types spécifiques de complots.

Mesures d'Évaluation et Lignes de Base

Pour évaluer les différentes soumissions dans la compétition, différentes métriques ont été employées pour les deux tâches. Pour la première tâche centrée sur la classification complotiste, la précision des soumissions a aidé à classer les équipes. Dans la deuxième tâche, qui impliquait la reconnaissance des types de complots, le score F1 a été utilisé. Ce score prend en compte à la fois la précision et le rappel, fournissant une mesure équilibrée de la performance.

Pour créer une ligne de base pour les tâches, un modèle de Forêt Aléatoire a été entraîné. Le modèle a fourni un point de départ pour la comparaison. Au total, quinze équipes de plusieurs institutions ont participé, produisant 81 soumissions.

Résultats pour la Classification du Contenu Complotiste

Dans la première tâche, les meilleurs résultats venaient d'une équipe appelée "Andy P." de l'Université Politehnica de Bucarest. Ils ont atteint une précision impressionnante de 0.85 en utilisant un modèle conçu pour la langue italienne. Ils ont également appliqué une technique appelée entraînement contrastif et intégré des méthodes pour créer plus de données d'entraînement.

D'autres équipes ont utilisé des variations de grands modèles de langage et de modèles transformateurs. Beaucoup d'équipes ont atteint des précisions supérieures à 0.80%, montrant une forte performance dans l'ensemble.

Résultats pour la Reconnaissance des Catégories Complotistes

Dans la deuxième tâche, encore une fois, "Andy P." a mené avec un score F1 de 0.91. Il est intéressant de noter que leur méthode sans augmentation de données a mieux fonctionné que celle avec. Une équipe de l'Université Tor Vergata a également bien performé, atteignant un score F1 de 0.89 grâce à l'utilisation d'une combinaison de différents modèles.

Le Rôle des Grands Modèles de Langage

La propagation de la désinformation et des théories du complot crée des défis significatifs. De nombreuses équipes dans la compétition ont utilisé de grands modèles de langage (LLMs) pour aborder ces problèmes.

Une stratégie réussie était d'utiliser des LLMs pour créer des données synthétiques, ce qui a aidé les équipes à rassembler plus de matériel d'entraînement. Cette approche répond aux difficultés de trouver du contenu réel et du besoin d'un étiquetage manuel étendu. Cependant, il est vital d'évaluer la qualité de ces données générées. Une évaluation humaine peut vérifier si le contenu synthétique s'aligne avec de réelles notions complotistes.

De plus, les participants ont utilisé des techniques de prompting avec les LLMs pour détecter du matériel complotiste. Cette méthode s'est révélée efficace dans les deux sous-tâches de la compétition. En utilisant divers prompts, les équipes ont montré le potentiel de ces modèles pour identifier des motifs et des indices linguistiques liés aux conspirations.

Combiner les forces de ces approches peut conduire à de nouveaux progrès dans la lutte contre la désinformation. En intégrant des évaluations humaines avec le raffinement des techniques de prompting, les futurs outils peuvent devenir plus précis et fiables dans l'identification et la réponse aux théories du complot.

En conclusion, la tâche ACTI a fourni des informations précieuses sur le défi continu des théories du complot dans les espaces en ligne. Les résultats soulignent l'importance d'une recherche continue et l'application de techniques d'analyse de données avancées pour combattre efficacement la désinformation.

Plus d'auteurs

Articles similaires