Nouvelles méthodes pour prédire l'orientation politique dans les news
Cette recherche améliore la prédiction des biais politiques dans les articles de presse.
― 6 min lire
Table des matières
La prédiction de l'orientation politique dans les articles d'actualité est un domaine de recherche important. Ce travail vise à traiter un problème courant : les gens lisent souvent des nouvelles qui correspondent à leurs croyances existantes, ce qui mène à l'effet de chambre d'écho. Ce phénomène limite l'exposition à des points de vue divers et contribue à la polarisation sociale.
Traditionnellement, les études dans ce domaine se sont concentrées sur deux tâches principales : identifier les facteurs qui indiquent l'orientation politique des articles et capturer ces facteurs de manière efficace. Cependant, beaucoup de ces études ne montrent pas de manière convaincante l'efficacité des facteurs qu'elles identifient. Pour y remédier, une étude utilisateur a été réalisée pour découvrir quels facteurs les utilisateurs considèrent comme importants pour déterminer l'orientation politique des articles. L'étude a révélé que le contexte et le ton d'un article, ainsi que les connaissances externes sur les entités du monde réel discutées dans l'article, jouent des rôles essentiels dans la prédiction de l'orientation politique.
Méthode Proposée
Basé sur les informations de l'étude utilisateur, une nouvelle méthode de prédiction de l'orientation politique a été développée, intégrant des connaissances sur le contenu et le contexte politique des articles. Cette méthode utilise deux composants principaux : les réseaux d'attention hiérarchiques et l'encodage des connaissances.
Réseaux d'Attention Hiérarchiques
Le premier composant, les réseaux d'attention hiérarchiques, analyse les relations entre les mots et les phrases à trois niveaux : niveau des mots, niveau des phrases et niveau des titres. En se concentrant sur ces niveaux, le modèle peut mieux comprendre le contexte local (au sein des phrases) et le contexte global (à travers l'ensemble de l'article). Cette approche multi-niveaux aide à capturer les nuances subtiles du contexte et du ton de l'article.
Couche de Pré-traitement : Les articles d'actualité sont d'abord structurés en phrases puis en vecteurs de mots.
Attention au Niveau des Mots : Cette couche se concentre sur l'apprentissage des relations entre les mots au sein des phrases individuelles. Cela permet au modèle de capturer efficacement le contexte local.
Attention au Niveau des Phrases : Après cela, le modèle examine l'ensemble de l'article en analysant les connexions entre les phrases, obtenant ainsi un meilleur contexte global.
Attention au Niveau des Titres : Enfin, il porte une attention particulière au titre, qui contient le message clé que l'auteur veut transmettre. Le contexte du titre informe comment les phrases devraient être pondérées.
Encodage des Connaissances
Le deuxième composant, l'encodage des connaissances, intègre des connaissances externes sur les entités mentionnées dans les articles. Ces connaissances peuvent être à la fois générales (savoir commun) et politiques (spécifiques aux contextes libéraux ou conservateurs).
Préparation des Connaissances : Des connaissances pertinentes sur les entités sont rassemblées à partir de diverses sources, construisant des graphiques de connaissances politiques représentant les relations entre les entités politiques.
Injection des Connaissances : Le modèle injecte ce savoir externe dans sa compréhension des articles d'actualité, améliorant ainsi sa capacité à prédire l'orientation.
Étude Utilisateur
Pour informer le développement du modèle, une étude utilisateur a été réalisée. Les participants ont été invités à évaluer l'importance de divers facteurs dans la détermination de l'orientation politique. L'étude a révélé que le contexte de l'article était le facteur le plus significatif, suivi de près par le ton, les mots-clés et la mention de personnes spécifiques.
Ensembles de Données
Pour des fins d'évaluation, trois ensembles de données ont été utilisés :
- SemEval : Un petit ensemble de données composé d'articles étiquetés comme hyperpartisans ou neutres.
- AllSides-S : Un ensemble de données de taille moyenne avec des articles classés en trois catégories : gauche, centre et droite.
- AllSides-L : Un grand ensemble de données englobant une plus large gamme d'orientations politiques avec cinq classes distinctes.
Validation Expérimentale
La méthode proposée a été rigoureusement évaluée à travers diverses expériences pour établir son exactitude, son efficacité et sa performance comparée aux méthodes existantes.
Exactitude et Efficacité
Les résultats ont montré que la nouvelle approche surpassait systématiquement toutes les méthodes de référence en termes d'exactitude sur tous les ensembles de données. Plus précisément, elle a réalisé des améliorations significatives par rapport aux méthodes de pointe. En plus de l'exactitude, le modèle a montré des temps de convergence plus rapides et une efficacité d'entraînement par rapport aux modèles traditionnels.
Importance des Composants
Une étude d'ablation a été réalisée pour comprendre l'efficacité de chaque composant de la méthode proposée. Il a été constaté que tous les composants contribuaient positivement à l'exactitude globale, mettant en avant l'importance tant du mécanisme d'attention hiérarchique que du processus d'encodage des connaissances.
Sensibilité aux Hyperparamètres
La performance du modèle a été évaluée par rapport aux variations des hyperparamètres liés à la quantité de connaissances externes injectées dans les prédictions. Les résultats ont indiqué qu'une approche équilibrée dans l'utilisation des connaissances externes était cruciale pour une performance optimale.
Conclusion
Ce travail souligne l'importance des facteurs explicites et implicites dans la prédiction de l'orientation politique des articles d'actualité. En intégrant des réseaux d'attention hiérarchiques et l'encodage des connaissances, la méthode proposée capture efficacement les nuances de contexte et de sentiment, résultant en une meilleure exactitude dans la prédiction de l'orientation politique. Ces avancées contribuent non seulement au domaine de l'apprentissage automatique mais offrent aussi des implications pratiques pour atténuer l'effet de chambre d'écho et promouvoir l'exposition à des opinions politiques diverses dans la consommation des nouvelles.
En favorisant une meilleure compréhension des orientations politiques dans les médias, ce travail vise à améliorer la pensée critique et les discussions informées parmi le public, encourageant une approche plus nuancée de la consommation de nouvelles.
Titre: KHAN: Knowledge-Aware Hierarchical Attention Networks for Accurate Political Stance Prediction
Résumé: The political stance prediction for news articles has been widely studied to mitigate the echo chamber effect -- people fall into their thoughts and reinforce their pre-existing beliefs. The previous works for the political stance problem focus on (1) identifying political factors that could reflect the political stance of a news article and (2) capturing those factors effectively. Despite their empirical successes, they are not sufficiently justified in terms of how effective their identified factors are in the political stance prediction. Motivated by this, in this work, we conduct a user study to investigate important factors in political stance prediction, and observe that the context and tone of a news article (implicit) and external knowledge for real-world entities appearing in the article (explicit) are important in determining its political stance. Based on this observation, we propose a novel knowledge-aware approach to political stance prediction (KHAN), employing (1) hierarchical attention networks (HAN) to learn the relationships among words and sentences in three different levels and (2) knowledge encoding (KE) to incorporate external knowledge for real-world entities into the process of political stance prediction. Also, to take into account the subtle and important difference between opposite political stances, we build two independent political knowledge graphs (KG) (i.e., KG-lib and KG-con) by ourselves and learn to fuse the different political knowledge. Through extensive evaluations on three real-world datasets, we demonstrate the superiority of DASH in terms of (1) accuracy, (2) efficiency, and (3) effectiveness.
Auteurs: Yunyong Ko, Seongeun Ryu, Soeun Han, Youngseung Jeon, Jaehoon Kim, Sohyun Park, Kyungsik Han, Hanghang Tong, Sang-Wook Kim
Dernière mise à jour: 2023-04-04 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2302.12126
Source PDF: https://arxiv.org/pdf/2302.12126
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.