Simple Science

La science de pointe expliquée simplement

# Informatique# Ordinateurs et société# Réseaux sociaux et d'information

Traiter les fausses infos dans les tweets chinois pendant le COVID-19

Une étude sur l'identification des fake news sur les réseaux sociaux chinois pendant la pandémie.

― 8 min lire


Détection de faussesDétection de faussesnouvelles dans les tweetschinoisréseaux sociaux pendant la pandémie.Identifier les infos trompeuses sur les
Table des matières

La pandémie de COVID-19 a entraîné une augmentation des attitudes négatives envers les Chinois, en partie à cause de fausses infos et de rumeurs qui circulent en ligne. Cet article parle d'un nouveau système conçu pour identifier les Fake news dans les tweets en chinois liés à la Chine. Le système a montré de bons résultats, avec un score F1 de 0,64 et une précision de 93%. Un ensemble de données de 18 425 tweets est fourni pour d'autres chercheurs intéressés par l'étude des fake news en langue chinoise pendant la période COVID-19.

Contexte

Pendant la pandémie de COVID-19, la désinformation et les fake news ont considérablement augmenté sur des plateformes comme Twitter, Facebook et TikTok. Les autorités et le public se sont inquiétés de ce problème vaste. Alors que de nombreux chercheurs ont développé des outils pour détecter les fake news sur les réseaux sociaux, beaucoup de ces travaux se sont concentrés sur l'anglais et l'allemand, négligeant d'autres langues comme le chinois. Cette étude vise à améliorer les méthodes de détection des fake news en langue chinoise, surtout étant donné le rôle de la Chine dans les premiers moments de la pandémie.

Importance de l'étude

Les fake news peuvent se propager rapidement, en particulier au sein de communautés spécifiques. Au départ, des informations fausses liées à COVID-19 ont circulé largement dans les communautés chinoises avant de se répandre dans d'autres groupes. Cette étude met en lumière le besoin de données qui peuvent aider à révéler comment les fake news ont circulé liées à la Chine pendant cette période.

Approche

Pour identifier les fake news, les auteurs ont utilisé une méthode subjective. Contrairement à la vérification des faits traditionnelle qui s'appuie sur des sources externes pour vérifier les affirmations, cette approche se concentre sur la perception des lecteurs concernant les tweets. Les chercheurs ont analysé si les utilisateurs des réseaux sociaux croyaient que les messages étaient des fake news.

Contributions

L'étude contribue de trois manières principales :

  1. Ensemble de données unique : Un ensemble de données d'entraînement contenant plus de 18 000 tweets annotés liés aux fake news sur la Chine pendant la pandémie.

  2. Développement de Classificateurs : Les chercheurs ont développé des classificateurs incorporant des techniques d'algorithmes avancés pour déterminer si un tweet est une fake news.

  3. Aperçu d'un grand ensemble de données : Les auteurs ont rassemblé plus de 25 millions de tweets chinois mentionnant des termes pertinents, permettant de mieux comprendre la propagation des fake news pendant la pandémie.

Recherche connexe

La recherche sur les fake news a augmenté ces dernières années en raison des préoccupations concernant leurs impacts négatifs. De nombreux ensembles de données sur les fake news existent, mais la plupart sont en anglais. Des études ont été menées pour explorer diverses définitions de fake news, ainsi que des méthodes pour les détecter.

Définir les Fake News

Définir les fake news est compliqué car les chercheurs utilisent divers termes pour désigner des informations trompeuses, y compris la désinformation et la mésinformation. En général, les fake news peuvent désigner toute information fausse, mais elles sont souvent utilisées pour décrire des nouvelles intentionnellement trompeuses.

Méthodes de Détection

Il y a trois principales méthodes utilisées pour détecter les fake news :

  1. Vérification des faits : Cette méthode repose sur la vérification des affirmations via des sources tierces. Cependant, cela peut manquer de clarté et d'interprétabilité.

  2. Classification de style : Cette méthode examine les caractéristiques textuelles et contextuelles des nouvelles. Elle dépend beaucoup du contexte et n'est pas toujours fiable.

  3. Basée sur les réseaux : Cette approche analyse comment les fake news se diffusent à travers les communautés et les réseaux, utilisant des données sur la propagation de l'information dans le temps.

Ensembles de données pour les Fake News

Plusieurs ensembles de données sont disponibles pour étudier les fake news, mais beaucoup se concentrent sur le contenu en anglais. Des ensembles de données spécifiques liés au problème des fake news COVID-19 incluent des ensembles de données de fake news spécifiques au COVID-19, qui restent principalement en anglais.

Les ensembles de données de l'étude

Deux ensembles de données clés ont été utilisés dans cette étude : CNTweets et CNFakeTweets.

Données CNTweets

CNTweets est une base de données complète qui contient tous les tweets chinois mentionnant des termes comme "Chine" ou "Parti communiste chinois." Cet ensemble de données comprend plus de 25 millions de tweets provenant de 1,32 million d'utilisateurs, collectés à partir de la base de données historique de Twitter.

Données CNFakeTweets

CNFakeTweets sert d'ensemble de données d'entraînement pour identifier les fake news. Il inclut des tweets d'utilisateurs susceptibles de publier des fake news, ainsi que ceux tweetant avec des opinions à la fois favorables et critiques envers la Chine. Après avoir sélectionné et annoté environ 15 000 tweets, les chercheurs ont effectué un autre tour de classification, ajoutant plus d'exemples à l'ensemble de données d'entraînement.

Processus d'Annotation des données

Dans la phase d'annotation des données, les chercheurs ont utilisé des opinions pour évaluer les tweets. Les fake news ont été définies comme des affirmations fausses qui ressemblent à des nouvelles et visent à induire en erreur. Chaque tweet a été examiné par au moins deux annotateurs, et si l'un le considérait comme une fake news, il était étiqueté comme tel.

Entraînement et performance du modèle

Les chercheurs ont utilisé des techniques avancées d'apprentissage automatique pour identifier les fake news. Ils ont affiné des modèles de transformateurs pour s'adapter à la spécificité de la langue chinoise et ont évalué leur performance en fonction de leur capacité à classifier les tweets avec précision.

Résultats du modèle

Les résultats de cette étude fournissent des références initiales pour d'autres chercheurs intéressés par la détection des fake news en chinois. L'accent était uniquement mis sur le contenu textuel des tweets, ce qui a donné lieu à des insights importants.

Aperçu des Fake News dans les tweets en chinois

L'étude a révélé que parmi les 25 millions de tweets analysés, environ 970 000 étaient étiquetés comme des fake news. Cela indique qu'environ 4 % des tweets en chinois pendant le début de la pandémie étaient trompeurs.

Tendances au fil du temps

La recherche a également suivi les tendances des fake news au fil du temps. Des pics majeurs ont été observés autour de points critiques en 2020, notamment lorsque des théories du complot sur les origines du virus ont gagné du terrain.

Thèmes de contenu des Fake News

Pour mieux comprendre les types de fake news circulant, les chercheurs ont analysé les thèmes présents dans les tweets trompeurs. Beaucoup étaient liés aux théories du complot autour de COVID-19, ainsi que des informations erronées liées à l'élection présidentielle américaine de 2020.

Conclusion

Cet article marque un effort significatif pour comprendre et aborder les fake news en langue chinoise sur Twitter. Les chercheurs ont créé un ensemble de données annotées à des fins d'entraînement et ont développé un système de classification pour identifier les tweets trompeurs. Les résultats ont montré des schémas clairs de la manière dont les fake news ont circulé dans la communauté linguistique chinoise pendant la pandémie.

En regardant vers l'avenir, d'autres études pourraient impliquer l'intégration de profils d'utilisateur et d'interactions sociales pour améliorer la précision des systèmes de classification. De plus, explorer les fake news au-delà de la période de début de pandémie pourrait donner des insights plus profonds sur leur évolution continue et leur impact sur la société.

Considérations éthiques

Cette étude a souligné plusieurs préoccupations éthiques, y compris le potentiel impact sur la santé mentale des personnes examinant du contenu sensible ou nuisible. Il est essentiel que les chercheurs préparent adéquatement les annotateurs et maintiennent la confidentialité et le respect pour les personnes affectées.

Les recherches futures peuvent aider à affiner les méthodes d'identification des fake news tout en abordant les préoccupations éthiques et de bien-être mental parmi ceux impliqués dans le processus de recherche. Cela contribuera à un cadre plus complet pour détecter et traiter la désinformation dans divers contextes.

Plus d'auteurs

Articles similaires