Simple Science

La science de pointe expliquée simplement

# Informatique# Ordinateurs et société

Identifier les profils trompeurs sur Twitter

Cette étude examine les profils Twitter nuisibles qui propagent des infos trompeuses.

― 7 min lire


Détecter les profilsDétecter les profilsnuisibles sur Twittersociaux.comptes trompeurs sur les réseauxUne étude sur l'identification des
Table des matières

Les réseaux sociaux sont devenus une grosse plateforme de communication, mais ils ont aussi des problèmes avec du contenu trompeur et des comportements nuisibles. Certains comptes, souvent appelés "profils en mission", diffusent des informations trompeuses et des commentaires toxiques sur des sujets spécifiques. Cette étude se concentre sur l'identification de ces profils sur Twitter et sur la compréhension de leur comportement, surtout comment ils utilisent différents thèmes pour cacher leurs véritables intentions.

La montée des Opérations d'influence

Ces dernières années, il y a eu pas mal d'efforts pour manipuler les discussions sur les réseaux sociaux. Certains groupes sponsorisent des individus ou utilisent des comptes automatisés pour partager du matériel polarisant ou faux. Ces "opérations d'influence" peuvent changer la façon dont les gens pensent et ressentent les événements actuels, surtout pendant les élections ou les crises. Beaucoup de ces cas impliquent des petits groupes qui agissent ensemble pour paraître plus crédibles.

Identifier ces comptes problématiques peut être difficile, car ils participent souvent à des discussions quotidiennes sans rapport avec leur agenda principal. Ça rend compliqué de les repérer parmi les utilisateurs normaux. On a besoin de meilleures méthodes pour détecter ces comptes manipulés sans se baser sur des connaissances préalables à leur sujet.

Identifier les "Profils en Mission"

Cette étude examine des profils sur Twitter qui semblent suivre un modèle de partage de contenu nuisible, que nous appelons "profils en mission". En étudiant des milliers de comptes et de tweets, on cherche à regrouper ces profils selon la diversité de leurs sujets et la quantité de contenu toxique qu'ils produisent.

En utilisant un gros ensemble de données de comptes Twitter et de leurs tweets, on analyse les différents sujets qu'ils abordent. On découvre que les profils avec une large gamme de sujets génèrent souvent des tweets toxiques liés à la politique, la santé et l'actualité. Cela suggère qu'ils pourraient être impliqués dans des opérations d'influence.

Construire un Classificateur

Pour identifier ces profils en mission, on développe un classificateur, qui est un outil qui aide à faire la distinction entre les comptes normaux et ceux qui montrent des comportements douteux. On utilise un modèle spécifique qui atteint une excellente précision pour détecter ces profils en fonction de leur contenu et de leurs schémas d'activité.

Le classificateur est formé sur les profils les plus thématiquement divers et est conçu pour fonctionner même sur de nouvelles données non étiquetées. On obtient une précision parfaite dans nos tests, ce qui aide à trouver plus de profils en mission dans la nature.

Collecte de Données

Pour rassembler les données nécessaires, on collecte des informations à partir de nombreux ensembles de données publics qui se concentrent sur le comportement sur Twitter. Au total, on rassemble 143 000 identifiants de profils et collecte des données historiques de tweets pour chacun. Cela nous donne accès à 293 millions de tweets sur plusieurs années, ce qui nous permet d'analyser différents aspects des comptes.

Ces données incluent non seulement le contenu des tweets mais aussi divers détails sur les profils, comme les noms et le nombre de followers. Ces données complètes nous aident à identifier des schémas qui pourraient indiquer des opérations d'influence.

Comprendre les Sujets

Pour comprendre le contenu partagé par ces profils, on utilise la modélisation de sujets. Cela implique de classer les tweets dans différentes catégories ou thèmes en fonction de leur contenu. On identifie plusieurs thèmes majeurs qui émergent des tweets des profils, notamment la politique, la santé et les actualités générales.

En catégorisant les tweets, on peut examiner comment différents profils partagent du contenu. Certains profils peuvent se concentrer sur des thèmes spécifiques et produire plus de contenu toxique dans ces domaines, révélant leur potentiel intention de manipuler les discussions.

Diversité Thématique et Toxicité

Un des principaux constats de notre étude est que la diversité thématique est liée au niveau de toxicité dans les tweets d'un profil. Les profils qui discutent d'une plus grande variété de sujets tendent à produire plus de contenu nuisible. En analysant la toxicité des tweets à travers différents thèmes, on peut identifier les profils qui sont plus susceptibles de faire partie des opérations d'influence.

On calcule une mesure de diversité pour chaque profil en fonction de la gamme de sujets qu'ils abordent. Les profils avec des scores de diversité plus élevés montrent souvent des schémas de comportement toxique, indiquant un potentiel agenda pour diffuser de la désinformation ou du contenu polarisant.

Schémas d'Activité

Un autre aspect qu'on examine est à quelle fréquence ces profils tweetent. En étudiant le timing de leurs tweets, on peut déterminer s'ils suivent un schéma régulier ou tweetent de manière sporadique. Les profils qui tweetent dans une soudaine explosion d'activité peuvent indiquer des efforts coordonnés pour influencer les discussions à des moments précis, tandis que les profils plus authentiques peuvent tweeter de manière plus uniforme.

On découvre que de nombreux profils identifiés comme étant en mission montrent des schémas de tweet irréguliers, souvent postant par vagues pour créer une impression d'engagement actif. Cela peut les aider à éviter d'être détectés tout en poussant leur agenda.

Caractéristiques des Profils

On regarde aussi les métadonnées associées à chaque profil. Ça inclut des données comme le nombre de followers, le nombre de comptes qu'ils suivent, et les dates de création des profils. Ces caractéristiques peuvent aider à distinguer entre les utilisateurs authentiques et ceux qui pourraient agir de manière manipulatrice.

Les profils qui affichent un ratio de followers à comptes suivis particulièrement élevé ou qui ont été créés récemment peuvent indiquer un comportement de type bot. On analyse ces caractéristiques à travers différents groupes de profils pour comprendre comment elles se rapportent à la présence de contenu toxique.

Étude de Cas : Analyse de Groupe

Dans cette section, on analyse des profils divisés en groupes selon leur diversité thématique. Par exemple, certains groupes se concentrent sur la politique, tandis que d'autres peuvent participer à des discussions sur la santé ou le divertissement. On cherche à voir comment ces profils communiquent différemment selon leurs thèmes principaux.

En examinant les clusters, on peut comprendre quels groupes sont les plus susceptibles de produire du contenu toxique et comment leurs comportements de publication diffèrent les uns des autres. Cette analyse aide à affiner notre compréhension de la façon dont les profils en mission opèrent sur Twitter.

Conclusion

Cette étude fournit des insights précieux sur le fonctionnement de la diffusion d'informations fausses et nuisibles sur les plateformes de réseaux sociaux. En identifiant les profils en mission, on peut mieux comprendre les tactiques utilisées dans les opérations d'influence et le comportement de ces profils.

Alors que les réseaux sociaux continuent à jouer un rôle crucial dans la formation de la perception publique, identifier et comprendre ces tactiques manipulatrices devient vital pour combattre la désinformation. Nos résultats soulignent l'importance de la diversité de contenu et du comportement toxique pour attraper des profils qui se cachent derrière un masque de normalité tout en poussant un agenda.

En créant des outils de détection efficaces, on espère contribuer aux efforts visant à rendre les réseaux sociaux plus sûrs et plus fiables pour les utilisateurs. Les travaux futurs impliqueront de peaufiner nos méthodes et d'explorer comment elles peuvent être adaptées pour identifier des opérations d'influence similaires à travers diverses plateformes de réseaux sociaux.

Source originale

Titre: On mission Twitter Profiles: A Study of Selective Toxic Behavior

Résumé: The argument for persistent social media influence campaigns, often funded by malicious entities, is gaining traction. These entities utilize instrumented profiles to disseminate divisive content and disinformation, shaping public perception. Despite ample evidence of these instrumented profiles, few identification methods exist to locate them in the wild. To evade detection and appear genuine, small clusters of instrumented profiles engage in unrelated discussions, diverting attention from their true goals. This strategic thematic diversity conceals their selective polarity towards certain topics and fosters public trust. This study aims to characterize profiles potentially used for influence operations, termed 'on-mission profiles,' relying solely on thematic content diversity within unlabeled data. Distinguishing this work is its focus on content volume and toxicity towards specific themes. Longitudinal data from 138K Twitter or X, profiles and 293M tweets enables profiling based on theme diversity. High thematic diversity groups predominantly produce toxic content concerning specific themes, like politics, health, and news classifying them as 'on-mission' profiles. Using the identified ``on-mission" profiles, we design a classifier for unseen, unlabeled data. Employing a linear SVM model, we train and test it on an 80/20% split of the most diverse profiles. The classifier achieves a flawless 100% accuracy, facilitating the discovery of previously unknown ``on-mission" profiles in the wild.

Auteurs: Hina Qayyum, Muhammad Ikram, Benjamin Zi Hao Zhao, an D. Wood, Nicolas Kourtellis, Mohamed Ali Kaafar

Dernière mise à jour: 2024-01-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2401.14252

Source PDF: https://arxiv.org/pdf/2401.14252

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires