Analyse des sentiments publics et de la désinformation pendant COVID-19
Cet article explore l'analyse des sentiments et la détection des fake news liées à COVID-19.
― 6 min lire
Table des matières
La pandémie de COVID-19 a changé la vie de tout le monde. En octobre 2022, plus de 600 millions de cas avaient été signalés dans le monde. Pour contrôler la propagation du virus, les gouvernements ont pris des mesures comme l'apprentissage à distance, la quarantaine et la distanciation sociale. Ces actions ont conduit beaucoup de gens à partager leurs pensées et leurs sentiments sur les réseaux sociaux. Analyser ces opinions est important, et une des façons de le faire, c'est l'analyse de sentiments (AS). Cette méthode aide à identifier les opinions et les émotions des utilisateurs à partir de textes écrits.
Cependant, les infos sur les réseaux sociaux peuvent souvent être vraies ou fausses. La désinformation se propage rapidement, et cela s'appelle les Fake news (FN). Cela peut avoir des effets graves sur la santé mentale, entraînant des problèmes comme la dépression et l'anxiété. Donc, c'est crucial d'identifier les fake news, surtout dans une situation critique comme la pandémie de COVID-19. L'augmentation des recherches dans ce domaine montre le besoin de déterminer si certains articles sont authentiques ou faux.
Analyse de Sentiments et Détection de Fake News
Pour comprendre l'opinion publique sur le COVID-19, l'analyse de sentiments et la détection de fake news sont deux aspects clés de la recherche. Elles aident à évaluer comment les gens se sentent et si les infos qu'ils partagent sont fiables. Plusieurs méthodes peuvent être utilisées pour ces tâches, mais l'une qui a montré beaucoup de promesse, c'est l'utilisation de Modèles pré-entraînés comme BERT.
BERT, qui signifie Bidirectional Encoder Representations from Transformers, est un modèle de langue qui traite les données textuelles de manière à capturer le contexte et le sens. Il permet aux chercheurs de peaufiner le modèle pour des tâches spécifiques, comme l'analyse de sentiments ou la détection de fake news, sans partir de zéro. Le modèle ajuste ses paramètres en fonction des ensembles de données étiquetés, ce qui lui permet d'apprendre et de prédire les bonnes étiquettes pour des données non vues.
Recherche Connexe
Différentes études se sont concentrées sur l'analyse de sentiments liée au COVID-19. Ces études ont utilisé différentes méthodes, en particulier des approches d'Apprentissage profond, pour analyser de grands ensembles de tweets. Par exemple, une étude a analysé plus de 416 000 tweets et a souligné que des mots comme "corona" et "virus" étaient fréquemment mentionnés. Les résultats ont montré une domination des sentiments négatifs par rapport aux positifs et neutres.
Des pays du monde entier ont mis en place des mesures strictes pour contrôler la pandémie. En Arabie Saoudite, des chercheurs ont analysé l'opinion publique sur les réseaux sociaux concernant les actions du gouvernement pendant le COVID-19. Une étude s'est concentrée sur les tweets liés à l'apprentissage à distance et a conclu que la plupart des utilisateurs soutenaient les mesures gouvernementales. Une autre étude a trouvé que les avis positifs sur l'apprentissage à distance étaient plus courants que les négatifs.
Bien que peu d'études aient été faites sur la détection de fake news en arabe, plusieurs systèmes automatisés ont cherché à traiter ce problème pendant la pandémie. Par exemple, des chercheurs ont créé un ensemble de données pour des tweets arabes liés aux fake news et ont comparé les tweets étiquetés manuellement avec ceux étiquetés automatiquement, trouvant des différences significatives dans leur précision.
Méthodologie
Le processus d'utilisation de modèles pré-entraînés comme BERT comprend plusieurs étapes. Cela commence par le prétraitement des données, où les données sont nettoyées et préparées pour l'analyse. Cela garantit que le modèle peut comprendre correctement le texte. Les données sont ensuite divisées en ensembles d'entraînement et de test, où l'ensemble d'entraînement aide le modèle à apprendre, et l'ensemble de test évalue sa performance.
Les modèles sont ajustés à travers une série de paramètres. Par exemple, l'entraînement se fait souvent par lots, en mettant à jour le modèle après avoir traité un certain nombre d'exemples. Les taux d'apprentissage, qui déterminent à quelle vitesse un modèle ajuste ses poids pendant l'entraînement, sont aussi cruciaux pour la performance.
Une fois que les modèles sont ajustés, ils peuvent être utilisés pour prédire les sentiments et identifier les fake news. Les résultats sont évalués pour comprendre à quel point les modèles ont bien performé dans chaque tâche.
Résultats
Avec l'utilisation des modèles BERT, les chercheurs ont obtenu des niveaux de précision très élevés dans l'analyse de sentiments et la détection de fake news. La tâche d'analyse de sentiments a atteint une précision de 93%, tandis que celle de détection de fake news a atteint 90%. Ces chiffres montrent que l'approche était efficace pour analyser les opinions sur le COVID-19.
Cependant, la nature déséquilibrée des ensembles de données utilisés pour la détection de fake news a posé des défis. Quand certaines classes ont beaucoup plus d'exemples que d'autres, ça peut affecter la capacité du modèle à prédire avec précision. Par conséquent, le travail futur pourrait impliquer de trouver des moyens d'équilibrer ces ensembles de données ou d'explorer d'autres techniques d'apprentissage pour une meilleure performance.
Conclusion
L'utilisation du traitement du langage naturel et de modèles pré-entraînés comme BERT s'est avérée efficace pour analyser les sentiments et détecter les fake news liées au COVID-19. Les résultats reflètent le potentiel de ces méthodes à capturer les opinions des utilisateurs avec précision. Cependant, des défis subsistent, notamment avec des ensembles de données déséquilibrés. S'attaquer à ces défis sera essentiel pour améliorer la fiabilité des résultats dans les recherches futures.
Titre: Classifying COVID-19 Related Tweets for Fake News Detection and Sentiment Analysis with BERT-based Models
Résumé: The present paper is about the participation of our team "techno" on CERIST'22 shared tasks. We used an available dataset "task1.c" related to covid-19 pandemic. It comprises 4128 tweets for sentiment analysis task and 8661 tweets for fake news detection task. We used natural language processing tools with the combination of the most renowned pre-trained language models BERT (Bidirectional Encoder Representations from Transformers). The results shows the efficacy of pre-trained language models as we attained an accuracy of 0.93 for the sentiment analysis task and 0.90 for the fake news detection task.
Auteurs: Rabia Bounaama, Mohammed El Amine Abderrahim
Dernière mise à jour: 2023-04-02 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.00636
Source PDF: https://arxiv.org/pdf/2304.00636
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.worldometers.info/coronavirus/
- https://www.nlpchallenge.cerist.dz
- https://huggingface.co/
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://yamadharma.github.io/
- https://kmitd.github.io/ilaria/
- https://conceptbase.sourceforge.net/mjf/
- https://name.example.com
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://github.com/borisveytsman/acmart
- https://www.ctan.org/tex-archive/macros/latex/contrib/els-cas-templates
- https://github.com/yamadharma/ceurart
- https://www.overleaf.com/project/5e76702c4acae70001d3bc87
- https://www.overleaf.com/latex/templates/template-for-submissions-to-ceur-workshop-proceedings-ceur-ws-dot-org/pkfscdkgkhcq