Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Apprentissage automatique

Émotions sur Twitter pendant les élections en Colombie

Une étude sur le sentiment public sur Twitter pendant les élections présidentielles de Colombie en 2022.

― 6 min lire


Émotions sur Twitter lorsÉmotions sur Twitter lorsdes électionscolombiennesles élections de 2022.Analyse des émotions exprimées pendant
Table des matières

Twitter est une plateforme populaire où les gens expriment leurs opinions et émotions sur différents sujets, y compris la politique. Pendant les élections présidentielles de 2022 en Colombie, beaucoup de tweets ont été postés, reflétant ce que les gens pensaient des candidats et du processus de vote. Cette étude s'intéresse aux émotions partagées sur Twitter durant cette période, offrant des perspectives sur comment le sentiment public peut être analysé à travers les réseaux sociaux.

Importance de la Détection des émotions

Analyser les émotions sur Twitter peut nous donner une compréhension plus profonde de la manière dont les gens réagissent aux événements politiques. Contrairement à une simple analyse de sentiment qui classe les tweets comme positifs ou négatifs, la détection d'émotions s'intéresse à des sentiments spécifiques comme la joie, la tristesse, la peur ou le dégoût. Ça en fait un outil précieux pour jauger les sentiments du public sur les candidats et leurs propositions.

Défis de l'Analyse des Émotions en Espagnol Colombien

Bien qu'il y ait eu quelques recherches sur la détection des émotions dans plusieurs langues, les études axées sur l'espagnol, surtout l'espagnol colombien, sont limitées. Ça crée un vide dans nos ressources, rendant essentiel le développement d'outils spécifiques qui prennent en compte le contexte culturel unique de la Colombie.

Création du Jeu de Données

Pour cette étude, un total de 1 200 tweets liés aux élections présidentielles colombiennes ont été collectés et étiquetés avec différentes émotions. Les tweets ont été rassemblés sur un mois en utilisant des hashtags politiques spécifiques qui étaient tendance à l'époque. Une équipe de chercheurs a passé en revue manuellement les tweets pour identifier les émotions, en s'assurant que les étiquettes soient précises et représentatives du contenu.

Un jeu de données initial incluait plus d'un demi-million de tweets, mais après avoir filtré le contenu non pertinent, un jeu de données plus petit et ciblé a été créé. Ça a permis d'avoir une collection de tweets plus facile à analyser.

Étiquetage des Émotions

Lors de l'étiquetage des tweets, l'équipe a utilisé un processus détaillé. Chaque tweet a été examiné pour déterminer s'il contenait un contenu émotionnel. Les chercheurs ont particulièrement noté des émotions comme la joie, la tristesse, la peur, et le dégoût. Un guide manuel a été créé pour s'assurer que tous les membres de l'équipe étiquetaient les tweets de manière cohérente.

Pour ça, les chercheurs ont étiqueté une partie des tweets, vérifié l'accord entre leurs étiquettes, et effectué des ajustements basés sur des discussions. Ce processus itératif a continué jusqu'à ce qu'ils soient satisfaits des résultats d'étiquetage.

Analyse des Émotions dans les Tweets

Après l'étiquetage des tweets, ils ont analysé les émotions présentes dans le jeu de données. Ils ont découvert que des émotions comme la joie et le dégoût étaient plus fréquentes comparées à la peur et à la tristesse. Les chercheurs ont enregistré les cas où différentes émotions se chevauchaient, ce qui compliquait la classification précise des tweets.

Comparaison de Différentes Méthodes d'Analyse

L'étude a comparé deux approches différentes pour classifier les émotions des tweets. La première méthode utilisait des modèles supervisés à la pointe de la technologie, qui avaient été pré-entraînés sur de grands ensembles de données. La seconde méthode impliquait un grand modèle linguistique connu sous le nom de GPT-3.5, capable de comprendre et de générer du texte ressemblant à celui d'un humain.

Les modèles pré-entraînés ont été ajustés en utilisant le jeu de données étiqueté. La performance a été évaluée à travers un processus appelé validation croisée K-fold, qui aide à s'assurer que les résultats sont fiables en testant les modèles plusieurs fois sur différents sous-ensembles de données.

Dans le cas de GPT-3.5, les chercheurs ont utilisé une approche d'apprentissage à faible échantillon. Cette méthode impliquait de fournir au modèle quelques exemples de tweets étiquetés et de lui demander de classifier de nouveaux tweets en se basant sur ces exemples. Les résultats ont montré que le modèle GPT-3.5 se comportait plutôt bien, souvent mieux que les modèles pré-entraînés, notamment pour identifier les émotions négatives comme la peur et la tristesse.

Résultats de performance

L'analyse a révélé que la joie et le dégoût étaient les émotions les plus fréquemment identifiées dans tous les modèles. Cependant, les modèles pré-entraînés avaient du mal à classifier correctement la peur et la tristesse. En revanche, le modèle GPT-3.5 a montré une meilleure capacité à identifier ces émotions moins communes, même s'il peinait avec les tweets contenant du sarcasme ou de l'ironie.

Limitations de l'Étude

Il y avait quelques limitations dans cette étude qui valent la peine d'être notées. La petite taille du jeu de données et le court laps de temps pour collecter les tweets signifiaient que la diversité des émotions capturées pourrait ne pas représenter fidèlement le sentiment public plus large. De plus, même si les chercheurs ont utilisé une équipe de locuteurs natifs d'espagnol pour l'étiquetage, un seul était colombien. Cela aurait pu influencer la façon dont certaines phrases ou références culturelles étaient interprétées dans les tweets.

Conclusion

En résumé, cette étude souligne l'importance d'analyser les émotions exprimées sur Twitter pendant les élections présidentielles colombiennes de 2022. En créant un jeu de données spécifique et en comparant différentes méthodes de détection des émotions, la recherche révèle des insights précieux sur le sentiment public entourant les événements politiques.

Les résultats suggèrent que bien que des outils comme les modèles pré-entraînés soient utiles, les modèles linguistiques avancés peuvent offrir de meilleures performances, surtout pour identifier les émotions négatives. Cette étude jette les bases pour de futures recherches, en soulignant la nécessité de ressources de détection des émotions qui s'adaptent spécifiquement aux nuances de l'espagnol colombien.

En comprenant comment les gens se sentent à propos des événements politiques sur les réseaux sociaux, on peut avoir une vision plus claire de l'opinion publique, ce qui peut informer les discussions sur les stratégies politiques et l'engagement à l'avenir.

Source originale

Titre: Identification of emotions on Twitter during the 2022 electoral process in Colombia

Résumé: The study of Twitter as a means for analyzing social phenomena has gained interest in recent years due to the availability of large amounts of data in a relatively spontaneous environment. Within opinion-mining tasks, emotion detection is specially relevant, as it allows for the identification of people's subjective responses to different social events in a more granular way than traditional sentiment analysis based on polarity. In the particular case of political events, the analysis of emotions in social networks can provide valuable information on the perception of candidates, proposals, and other important aspects of the public debate. In spite of this importance, there are few studies on emotion detection in Spanish and, to the best of our knowledge, few resources are public for opinion mining in Colombian Spanish, highlighting the need for generating resources addressing the specific cultural characteristics of this variety. In this work, we present a small corpus of tweets in Spanish related to the 2022 Colombian presidential elections, manually labeled with emotions using a fine-grained taxonomy. We perform classification experiments using supervised state-of-the-art models (BERT models) and compare them with GPT-3.5 in few-shot learning settings. We make our dataset and code publicly available for research purposes.

Auteurs: Juan Jose Iguaran Fernandez, Juan Manuel Perez, German Rosati

Dernière mise à jour: 2024-07-09 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.07258

Source PDF: https://arxiv.org/pdf/2407.07258

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires