Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Ordinateurs et société

Analyser le ressenti du public sur les énergies propres via les réseaux sociaux

Une étude utilisant des tweets pour mesurer les opinions publiques sur les technologies d'énergie renouvelable.

― 7 min lire


Le rôle des réseauxLe rôle des réseauxsociaux dans l'opinionsur les énergies propresrenouvelable.perspectives publiques sur l'énergieUtiliser des tweets pour analyser les
Table des matières

Ces dernières années, les Réseaux sociaux sont devenus une source d'infos super utile pour comprendre les opinions publiques et les tendances sur divers sujets, y compris l'Énergie propre. Les chercheurs veulent analyser comment les gens parlent des technologies d'Énergie renouvelable, comme le solaire, l'éolien et le nucléaire, en ligne. Ils veulent capturer les émotions, les attitudes et les idées qui peuvent aider à informer les stratégies politiques et de communication. Cet article parle d'une étude qui a rassemblé et analysé des tweets pour explorer le sentiment public sur l'énergie propre.

Pourquoi utiliser les données des réseaux sociaux ?

Les sondages traditionnels sont souvent utilisés pour évaluer l'opinion publique. Ils sont généralement précis et peuvent représenter une large gamme de personnes. Cependant, les sondages prennent du temps et peuvent coûter cher à réaliser. Ils peuvent aussi ne pas suivre le rythme des changements continus des sentiments publics. En revanche, les réseaux sociaux offrent un flux de données continu et vaste. Ces données peuvent refléter les attitudes publiques en temps réel, permettant de mesurer les opinions presque instantanément. Le défi, c'est de trier la grande quantité d'infos pour trouver ce qui est pertinent.

Le défi d'identifier le contenu pertinent

En essayant d'étudier les opinions sur des sujets spécifiques comme l'énergie propre, les chercheurs doivent faire face au problème de filtrer les tweets non pertinents. Une simple recherche avec des mots-clés ramène souvent plein de tweets non liés. Ça peut rendre l'analyse et les conclusions exactes difficiles. Pour cela, les chercheurs ont besoin de méthodes efficaces pour filtrer le bruit.

Comment filtrer les tweets

Une façon d'améliorer la pertinence est d'utiliser des modèles linguistiques avancés conçus spécifiquement pour comprendre et classer le texte. Ces modèles peuvent être entraînés pour identifier les tweets qui parlent des technologies d'énergie propre. Dans cette étude, les chercheurs ont utilisé une approche en deux étapes qui incluait des recherches de mots-clés larges et un filtrage affiné avec des classificateurs basés sur l'apprentissage machine.

Recherches de mots-clés larges

Dans la première étape, les chercheurs ont utilisé des recherches de mots-clés larges pour rassembler une large gamme de tweets liés à l'énergie propre. En utilisant des mots-clés comme "solaire", "éolien" et "nucléaire", ils ont pu collecter un grand nombre de tweets mentionnant ces sujets, même si beaucoup d'entre eux n'étaient pas directement liés à l'énergie.

Affinement des classificateurs

Après avoir collecté ces tweets, l'étape suivante était de filtrer le contenu non pertinent. Avec des classificateurs d'apprentissage machine entraînés sur des tweets étiquetés par des humains, les chercheurs pouvaient juger si un tweet était pertinent ou pas. Cet affinage a considérablement amélioré la précision de leur analyse.

Les résultats de la collecte de données

Avec cette méthode, les chercheurs ont pu collecter des millions de tweets sur une période donnée. Par exemple, durant une période d'études de 2016 à 2022, ils ont rassemblé plus de 3 millions de tweets pour "éolien", environ 1,4 million pour "solaire" et environ 1,3 million pour "nucléaire". Ces données leur ont permis d'analyser comment le langage, le sentiment et l'attention envers les technologies d'énergie propre ont évolué au fil du temps.

Analyser le sentiment

Pour comprendre ces données, les chercheurs ont examiné le sentiment exprimé dans les tweets. L'analyse de sentiment consiste à déterminer si le langage utilisé dans les tweets est positif, négatif ou neutre. Cette analyse peut montrer comment le sentiment public autour de l'énergie renouvelable évolue. Par exemple, ils pouvaient suivre si les gens deviennent plus positifs envers l'énergie solaire ou plus critiques envers le nucléaire.

Ils ont utilisé divers outils et techniques pour obtenir une meilleure compréhension de ce sentiment. Une façon était d'examiner les tendances de sentiment au fil du temps. Ils ont créé des graphiques de séries temporelles pour visualiser comment les sentiments positifs ou négatifs liés à chaque type d'énergie changeaient jour après jour ou semaine après semaine.

Comprendre les changements au fil du temps

Dans leurs découvertes, les chercheurs ont noté que le sentiment lié à l'énergie solaire avait une trajectoire positive au fil des ans. En revanche, le sentiment concernant l'énergie éolienne a montré plus de fluctuations, avec de nombreux tweets sur des sujets non liés impactant le sentiment global.

Pour l'énergie nucléaire, le sentiment est resté plus bas comparé aux autres types d'énergie. Bien que les tweets pertinents contenaient plus de termes positifs, de nombreux termes négatifs étaient aussi présents, principalement à cause de l'association étroite entre les discussions sur l'énergie nucléaire et les sujets concernant les armes nucléaires.

Importance de nettoyer les données

Une leçon importante de l'étude était l'importance du nettoyage des données dans l'analyse de sentiment. Sans filtrer les tweets non pertinents, les résultats pourraient être trompeurs. Par exemple, les tweets sur les conditions météorologiques avec le mot "éolien" pourraient fausser les résultats. En appliquant leurs méthodes de classification, les chercheurs ont pu clarifier le sentiment autour des discussions sur l'énergie propre sans le bruit des sujets non liés, menant à des évaluations plus précises de l'opinion publique.

Insights pour les décideurs et communicateurs

Les insights tirés de cette recherche peuvent être particulièrement utiles pour les décideurs et les communicateurs scientifiques. En comprenant comment le public se sent sur les technologies d'énergie propre, ils peuvent mieux adapter leurs messages et politiques pour s'aligner avec le sentiment public. Si les gens se sentent positifs envers l'énergie solaire, par exemple, plus d'investissements et de politiques de soutien pourraient suivre.

Défis dans la classification

Bien que les méthodes utilisées dans cette étude aient été efficaces, il reste des défis. Le langage autour de l'énergie propre peut être complexe, et le contexte compte beaucoup. Parfois, les mots liés à l'énergie peuvent apparaître dans différents contextes, rendant difficile la classification correcte des tweets. Comme l'ont souligné les chercheurs, l'équilibre entre précision et rappel dans les classifications est crucial. Une haute précision pourrait filtrer trop de tweets pertinents, tandis qu'un haut rappel pourrait inclure trop de tweets non pertinents.

Directions futures

Pour les recherches futures, les chercheurs suggèrent d'explorer de meilleures techniques d'échantillonnage pour étiqueter les tweets. Ils ont aussi proposé d'examiner comment optimiser l'équilibre entre une haute précision et un haut rappel dans les méthodes de classification. De plus, examiner les changements dans l'utilisation du langage au fil du temps pourrait aider à identifier quand les données d'entraînement pour les classificateurs ont besoin d'être mises à jour.

Conclusion

L'étude montre que les réseaux sociaux sont une source riche de données pour comprendre le sentiment public envers l'énergie propre. Bien que des défis existent dans le filtrage et la classification des tweets pertinents, les méthodes discutées offrent une approche viable pour exploiter ces données efficacement. En améliorant la manière dont l'analyse de sentiment est réalisée, les chercheurs peuvent mieux soutenir les décideurs et les stratégies de communication pour favoriser un dialogue public plus positif autour des technologies d'énergie renouvelable.

Source originale

Titre: Curating corpora with classifiers: A case study of clean energy sentiment online

Résumé: Well curated, large-scale corpora of social media posts containing broad public opinion offer an alternative data source to complement traditional surveys. While surveys are effective at collecting representative samples and are capable of achieving high accuracy, they can be both expensive to run and lag public opinion by days or weeks. Both of these drawbacks could be overcome with a real-time, high volume data stream and fast analysis pipeline. A central challenge in orchestrating such a data pipeline is devising an effective method for rapidly selecting the best corpus of relevant documents for analysis. Querying with keywords alone often includes irrelevant documents that are not easily disambiguated with bag-of-words natural language processing methods. Here, we explore methods of corpus curation to filter irrelevant tweets using pre-trained transformer-based models, fine-tuned for our binary classification task on hand-labeled tweets. We are able to achieve F1 scores of up to 0.95. The low cost and high performance of fine-tuning such a model suggests that our approach could be of broad benefit as a pre-processing step for social media datasets with uncertain corpus boundaries.

Auteurs: Michael V. Arnold, Peter Sheridan Dodds, Christopher M. Danforth

Dernière mise à jour: 2023-05-09 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.03092

Source PDF: https://arxiv.org/pdf/2305.03092

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires