Analyser la désinformation sur les vaccins dans les tweets roumains
Une étude analyse les tweets roumains pour identifier la désinformation sur les vaccins et les sentiments du public.
― 6 min lire
Table des matières
Les Vaccins jouent un rôle clé dans la prévention des maladies et ont sauvé des millions de vies à travers le monde. Ils ont aidé à éliminer la variole et ont considérablement réduit le nombre de cas de polio. Plus récemment, les vaccins Covid-19 ont également sauvé de nombreuses vies, surtout chez les personnes âgées.
Malgré leur efficacité et leur sécurité, la Désinformation sur les vaccins a augmenté, surtout à l'ère des réseaux sociaux. Beaucoup d'articles, de publications et de messages propagent de fausses informations, ce qui a conduit à une montée du mouvement anti-vaccin. Cette désinformation peut affecter négativement les taux de vaccination, ce qui peut, à son tour, augmenter les chances de retour des maladies.
Pendant la pandémie, de nombreuses affirmations fausses sur les vaccins Covid-19 ont circulé en ligne. Des facteurs comme l'utilisation des réseaux sociaux, le niveau d'éducation et la confiance envers les autorités sanitaires ont été liés au choix des gens de se faire vacciner. Des plateformes comme Facebook et Twitter jouent un rôle clé dans la diffusion à la fois d'informations exactes sur les vaccins et de désinformation.
Étant donné l'importance d'informer correctement, analyser le contenu partagé sur ces plateformes est crucial. De nombreuses études ont examiné les discussions sur les vaccins sur Twitter, principalement en anglais, mais peu se sont concentrées sur le contenu roumain. Cette étude vise à analyser les Tweets roumains sur les vaccins pour identifier la désinformation et comprendre le sentiment du public.
Collecte de données
Pour rassembler des tweets liés aux vaccins, un outil a été utilisé pour extraire des données de Twitter. La recherche a inclus divers mots roumains pour "vaccin" et des termes connexes. Des tweets de quatre périodes spécifiques pendant la pandémie de Covid-19 ont été collectés, ciblant particulièrement les moments où des changements significatifs se sont produits dans les efforts de vaccination en Roumanie.
Après avoir collecté les tweets, les chercheurs ont filtré les données pour ne garder que ceux qui ont reçu au moins un retweet. Ce processus de sélection visait à s'assurer que les tweets étaient largement engageants et pertinents pour un examen manuel. Un lot aléatoire de tweets supplémentaires a également été collecté pour une validation ultérieure.
Pour l'Analyse, des détails importants ont été extraits de chaque tweet, comme le contenu, le nombre de likes, de retweets, de réponses et l'horodatage. Ces infos sont essentielles pour comprendre la portée et l'impact du tweet.
Annotation manuelle
Pour analyser les tweets avec précision, les chercheurs les ont classés manuellement en trois catégories : vrai, neutre ou faux. Les tweets vrais contenaient des informations exactes sur les vaccins, les tweets neutres étaient sans rapport ou sarcastiques, et les tweets faux diffusaient des informations fausses ou trompeuses. La classification s'appuyait sur des sources scientifiques et des informations de santé officielles.
Neuf annotateurs ont participé à ce processus. Pour l'ensemble de données externe, tous les annotateurs ont voté sur la classification de chaque tweet, tandis que pour l'ensemble de données interne plus large, les votes provenaient de groupes de trois annotateurs pour parvenir à un consensus. En cas d'égalité, le tweet était classé comme neutre.
L'accord entre les annotateurs a été mesuré pour garantir la cohérence. L'ensemble de données interne avait un niveau d'accord modéré, tandis que l'ensemble externe montrait une plus grande cohérence parmi les annotateurs.
Prétraitement du texte
Avant d'analyser les tweets, les chercheurs ont dû nettoyer les données textuelles. Cela a impliqué de supprimer les caractères spéciaux, les mots courants mais sans importance (mots vides), et de convertir tout le texte en minuscules. Les liens hypertextes et les mentions ont également été supprimés pour réduire les biais.
Aucune tentative n'a été faite pour simplifier davantage les mots, car différentes formes de mots pourraient impliquer des significations différentes en roumain. Cette approche a préservé la richesse de la langue dans les tweets.
Analyse préliminaire
Les chercheurs ont réalisé une analyse préliminaire pour identifier les mots et phrases communs utilisés parmi les différentes classifications de tweets. Cela a impliqué la création de représentations visuelles pour mettre en évidence les termes les plus fréquemment utilisés.
Ils ont également exploré les relations entre la classification des tweets et les métriques d'engagement, comme le nombre de likes, de retweets et de réponses. Il a été noté que la désinformation recevait généralement plus d'engagement par rapport aux informations vraies.
Construction et validation des modèles d'apprentissage automatique
Plusieurs modèles d'apprentissage automatique ont été développés pour prédire si un tweet était vrai, neutre ou faux. Cela incluait des modèles traditionnels comme les machines à vecteurs de support, les forêts aléatoires, et des méthodes plus récentes comme les modèles d'apprentissage profond, y compris BERT.
Chaque modèle a été entraîné sur la collection de tweets et testé pour sa capacité à les classer avec précision. Divers indicateurs ont été utilisés pour évaluer leur performance, en se concentrant sur la façon dont ils prédisaient la véracité des tweets.
Le meilleur modèle a été sélectionné en fonction de sa capacité à fournir des prédictions fiables. Le classificateur de vecteurs de support s'est démarqué comme le modèle leader, excelling particulièrement dans la prévision des probabilités associées à chaque classification.
Résultats de l'analyse
L'analyse a révélé diverses informations sur les tweets liés aux vaccins en roumain. Un total de 1 400 tweets a été rassemblé, une part significative étant classée comme vraie ou fausse. L'analyse des métriques d'engagement a indiqué que les tweets faux attiraient plus d'attention en ligne.
Les modèles d'apprentissage automatique ont montré des performances variées, le classificateur de vecteurs de support atteignant de meilleurs résultats pour prédire avec précision la catégorie des tweets. L'étude souligne que la désinformation se propage souvent plus efficacement sur les plateformes de médias sociaux, soulignant l'urgence de diffuser des informations précises.
Conclusion
La désinformation sur les vaccins est un problème majeur, particulièrement durant des crises de santé comme la pandémie de Covid-19. Cette étude a analysé des tweets roumains sur les vaccins pour mieux comprendre comment la désinformation se propage et son impact sur la perception publique. En identifiant des modèles dans les fake news et en développant des modèles d'apprentissage automatique pour classer les tweets, la recherche vise à contribuer à la lutte continue contre la désinformation sur les vaccins.
Les efforts futurs devraient se concentrer sur la collecte de plus grands ensembles de données et l'amélioration des techniques d'apprentissage automatique pour améliorer encore la précision prédictive. En identifiant efficacement la désinformation, les campagnes de sensibilisation du public peuvent être mieux dirigées pour contrer les narrations fausses et soutenir les efforts de vaccination.
Titre: Identification, analysis and prediction of valid and false information related to vaccines from Romanian tweets
Résumé: The online misinformation might undermine the vaccination efforts. Therefore, given the fact that no study specifically analyzed online vaccine related content written in Romanian, the main objective of the study was to detect and evaluate tweets related to vaccines and written in Romanian language. 1400 Romanian vaccine related tweets were manually classified in true, neutral and fake information and analyzed based on wordcloud representations, a correlation analysis between the three classes and specific tweet characteristics and the validation of several predictive machine learning algorithms. The tweets annotated as misinformation showed specific word patterns and were liked and reshared more often as compared to the true and neutral ones. The validation of the machine learning algorithms yielded enhanced results in terms of Area Under the Receiver Operating Characteristic Curve Score (0.744-0.843) when evaluating the Support Vector Classifier. The predictive model estimates in a well calibrated manner the probability that a specific Twitter post is true, neutral or fake. The current study offers important insights regarding vaccine related online content written in an Eastern European language. Future studies must aim at building an online platform for rapid identification of vaccine misinformation and raising awareness for the general population.
Auteurs: Dragos Paul Mihai, A. Valeanu, C. Andrei, C. Puscasu, A. M. Ionica, M. I. Hinoveanu, V. P. Predoi, E. Bulancea, C. Chirita, S. Negres, C. D. Marineci
Dernière mise à jour: 2023-08-25 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.08.19.23294319
Source PDF: https://www.medrxiv.org/content/10.1101/2023.08.19.23294319.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.