Identifier les communautés d'actualités biaisées sur les plateformes sociales
Cette étude examine les communautés qui partagent des infos peu crédibles sur les réseaux sociaux.
― 11 min lire
Table des matières
Les sites de news sociaux comme Reddit sont devenus des endroits importants pour que les gens partagent et discutent des actualités. Cependant, un gros problème avec ces sites, c'est la création de groupes où les gens ne voient que des infos qui correspondent à leurs croyances. Ce souci mène souvent à la diffusion de Nouvelles pas crédibles ou très biaisées. Dans cette étude, on s'intéresse à comment trouver des Communautés sur des sites de news sociaux qui sont susceptibles de partager des infos peu fiables ou très biaisées.
On utilise une méthode qui regarde comment les Utilisateurs interagissent avec différents posts d'actualité et leurs sources. En analysant les opinions et les attitudes des utilisateurs envers les infos, on peut identifier des groupes qui sont plus susceptibles de croire et partager des informations de mauvaise qualité. Cette méthode nous permet de voir quels utilisateurs individuels risquent de s'engager avec du contenu peu crédible en fonction des groupes auxquels ils appartiennent. Nos expériences révèlent que différents groupes d'utilisateurs montrent des différences significatives dans leur sensibilité au contenu peu crédible et aux nouvelles politiquement biaisées.
Les sites de news sociaux comme Reddit et Digg sont devenus des plateformes majeures pour partager et accéder à l'information. Ces plateformes offrent un espace pour que les utilisateurs expriment leurs opinions et discutent des articles d'actualité. La censure minimale sur ces sites a permis d'héberger un large éventail d'actualités provenant de différentes sources. Beaucoup de gens s'appuient désormais sur des plateformes comme Reddit pour leurs sources d'info.
Cependant, la nature ouverte des sites de news sociaux peut également favoriser la diffusion de nouvelles qui manquent de crédibilité ou qui sont très biaisées. Par exemple, dans le subreddit r/politics, qui est la plus grande communauté d'actualités politiques sur Reddit, plus de la moitié des sources partagées sont non vérifiables. La diffusion de ces nouvelles non vérifiées est souvent soutenue par des algorithmes de recommandation qui poussent le contenu avec lequel les utilisateurs sont déjà d'accord, ce qui peut renforcer des croyances existantes. Ça crée un environnement où certains groupes sont exposés à des informations trompeuses ou biaisées, ce qui peut mener à des problèmes sociaux comme la confusion et l'augmentation de la polarisation.
On voit des exemples de ça dans les subreddits politiques sur Reddit. Le tableau suivant résume la proportion de soumissions non vérifiables dans certains de ces subreddits :
Subreddit | % Non Vérifiable |
---|---|
r/Conservative | 72% |
r/Libertarian | 16% |
r/democrats | 77% |
r/Republican | 72% |
r/politics | 52% |
Détecter et adresser la diffusion de nouvelles peu crédibles ou biaisées est un domaine important de recherche. Beaucoup de méthodes avancées ont été développées utilisant l'apprentissage profond pour identifier des sources d'infos non crédibles. De plus, il y a une tendance à utiliser de grands modèles de langage pour ça. Quelques recherches se sont également concentrées sur la découverte d'utilisateurs qui partagent ce type de contenu, permettant de meilleures stratégies de modération.
Notre étude offre une perspective différente en se concentrant sur l'identification de communautés qui sont susceptibles de partager et de croire en des nouvelles peu crédibles ou très biaisées. On définit une communauté comme un groupe d'utilisateurs qui partagent des opinions similaires et montrent des réactions similaires aux articles d'actualité. Notre approche implique de créer des embeddings utilisateurs basés sur les commentaires des utilisateurs, ce qui nous permet d'analyser la relation entre ces embeddings et la probabilité que les utilisateurs s'engagent avec des informations non crédibles ou biaisées.
On utilise des modèles d'embeddings de phrases pré-entraînés, notamment une méthode appelée sentence-BERT (SBERT), qui aide à grouper les commentaires des utilisateurs et à comprendre leurs opinions. Cependant, il n'y a pas de guide clair sur comment dériver des embeddings d'opinion à partir du contenu avec lequel les utilisateurs interagissent. La méthode traditionnelle consiste à faire la moyenne des embeddings des posts avec lesquels les utilisateurs interagissent, mais ça peut être inefficace à cause du nombre limité de posts par utilisateur.
Pour surmonter ces défis, on dérive les embeddings utilisateur à partir de leurs commentaires au lieu des sources d'actualités partagées. Ça nous donne un plus grand ensemble de données, ce qui aide à réduire la variabilité dans la création de représentations spatiales latentes. En considérant les commentaires des utilisateurs par rapport au post original d'actualité, on peut créer des embeddings plus précis qui reflètent les intérêts et les vues des utilisateurs.
On applique notre méthode à des données réelles de Reddit, où les utilisateurs participent à des discussions à travers des posts et des commentaires dans des groupes d'intérêt spécifiques appelés subreddits. Après avoir intégré les utilisateurs, on identifie des communautés et explore leurs Crédibilités et distributions de biais.
Déterminer la crédibilité et les biais des sources d'info peut souvent être affecté par des biais personnels. Pour notre étude, on utilise un ensemble de données d'une corporation à but public qui vise à contrer la désinformation. Cet ensemble de données inclut des scores de crédibilité et de biais pour diverses sources d'info. On attribue ces scores aux posts Reddit qui font référence à ces sources d'info, les catégorisant comme vérifiables ou non vérifiables.
Travaux Connexes
Embedding de Phrases
L'embedding de phrases est une méthode qui permet une analyse automatisée du contenu des news sociales. Les premiers modèles reposaient sur des architectures complexes, mais les approches modernes utilisent des architectures basées sur des transformateurs pré-entraînés. Une avancée clé dans ce domaine est l'introduction de SBERT, qui produit efficacement des embeddings en améliorant les modèles traditionnels. Dans cette étude, on utilise l'architecture SBERT pour l'embedding des posts Reddit.
Détection de Position
La détection de position implique de classifier le sentiment d'un texte par rapport à une cible donnée. On utilise la détection de position pour comprendre les commentaires des utilisateurs, les classifiant en trois catégories : pour, contre, et aucun. Cette classification nous aide à comprendre comment les utilisateurs réagissent à différents posts d'actualité.
Pour ce faire, on utilise un grand modèle de langage appelé LLaMa-2-7b pour catégoriser les commentaires des utilisateurs. En affinant ce modèle basé sur un ensemble de données de paires commentaire-réponse provenant de Reddit, on peut améliorer ses performances en détection de position.
Profilage Utilisateur
Le profilage utilisateur attribue une représentation virtuelle à chaque utilisateur, incorporant diverses caractéristiques comme les intérêts et les comportements. Beaucoup d'études ont analysé comment le profilage utilisateur peut détecter le partage de fausses infos. Notre approche diffère en se concentrant sur les communautés d'utilisateurs plutôt que sur les utilisateurs individuellement et en caractérisant comment ces communautés interagissent avec des nouvelles provenant de sources peu fiables ou biaisées.
Embedding Utilisateur
On introduit une méthode pour intégrer les utilisateurs dans un espace à haute dimension. Ce processus commence par attribuer des embeddings de phrases SBERT aux posts d'actualité, puis on attribue des embeddings aux commentaires en fonction de leur position par rapport au post original. En faisant la moyenne des embeddings de tous les commentaires de chaque utilisateur, on crée une seule représentation qui reflète leurs intérêts et opinions.
En rassemblant les embeddings des posts, on encode l'ensemble des titres de posts en utilisant un modèle SBERT pré-entraîné. Ces embeddings servent de base contextuelle pour estimer les embeddings des commentaires.
Méthodologie de Détection de Position
Dans le contexte des commentaires, la détection de position identifie la relation du texte d'un enfant par rapport à un texte parent. On classe les positions en pour, contre, et aucun, et on classe ces positions en utilisant le modèle LLaMa-2-7b affiné pour comprendre comment les utilisateurs réagissent à des posts d'actualité particuliers.
Processus d'Embedding de Commentaires
Pour intégrer les commentaires avec précision, on prend en compte le contexte du post original. Comme les commentaires manquent souvent de déclarations complètes par eux-mêmes, on s'appuie sur l'embedding du post pour attribuer une représentation significative à chaque commentaire. Notre méthode assure que les embeddings de commentaires reflètent avec précision les opinions des utilisateurs.
Analyse de Crédibilité et de Biais Politique
Après avoir obtenu les embeddings des utilisateurs, on analyse les groupes d'utilisateurs en déterminant leurs scores moyens de crédibilité et de biais politique. Par une moyenne regroupée, on peut évaluer comment les utilisateurs interagissent avec des sources d'info crédibles ou biaisées.
On attribue des scores de crédibilité en fonction des sources d'info référencées dans les posts des utilisateurs, utilisant l'ensemble de données mentionné plus tôt comme référence. Les commentaires se voient attribuer des scores de crédibilité en fonction de leur relation avec le post parent.
Susceptibilités des Communautés
Une fois qu'on a les scores de crédibilité et de biais des utilisateurs, on peut analyser les caractéristiques des groupes d'utilisateurs. Plutôt que de se baser sur l'appartenance à un subreddit, on utilise le regroupement pour identifier des groupes d'intérêt distincts, permettant une meilleure compréhension du comportement des utilisateurs et de leurs biais potentiels.
Collecte de Données
Les données utilisées pour cette étude ont été collectées sur Reddit, en se concentrant sur quatre subreddits politiques majeurs : r/Conservative, r/Libertarian, r/Republican, et r/democrats. En filtrant les données non pertinentes ou de mauvaise qualité, on s'assure que l'étude repose sur des interactions utilisateurs fiables.
Résultats
Nos résultats montrent qu'il y a des différences significatives entre les communautés d'utilisateurs en termes de susceptibilité aux nouvelles peu crédibles. Par exemple, certaines communautés sont trois fois plus susceptibles d'interagir avec ce genre d'infos que d'autres. L'analyse indique également une corrélation entre les biais politiques des utilisateurs et leurs scores de crédibilité.
En regroupant les utilisateurs selon leurs embeddings latents, on différencie les communautés qui montrent divers niveaux de susceptibilité aux nouvelles biaisées ou peu crédibles.
Discussion
Cette étude met en lumière l'importance de comprendre comment les communautés en ligne interagissent avec le contenu d'actualité. Les résultats suggèrent que le regroupement d'utilisateurs peut révéler des informations significatives sur comment différents groupes peuvent propager des informations biaisées ou non crédibles. Certaines communautés ont montré des signes de chambres d'écho, où les utilisateurs partageaient principalement des nouvelles qui renforçaient leurs croyances.
Limitations
Il y a des limites à se baser sur un seul ensemble de données pour évaluer la crédibilité et le biais. De plus, définir la crédibilité des utilisateurs à travers leurs interactions peut négliger des comportements nuancés liés aux opinions et préférences politiques. Ces considérations motivent le besoin d'études futures pour améliorer les évaluations de crédibilité des utilisateurs.
Travaux Futurs
Des recherches futures devraient se concentrer sur l'expansion de l'ensemble de données et le raffinement des méthodes d'évaluation de la crédibilité et des biais des utilisateurs. De plus, incorporer le contenu des commentaires des utilisateurs et explorer des méthodes basées sur des graphes pourrait donner des insights plus riches sur comment les utilisateurs interagissent avec des sources d'info.
Conclusion
Cette étude présente une nouvelle pipeline pour analyser les interactions des utilisateurs sur des sites de news sociaux. En dérivant des embeddings des commentaires et des posts des utilisateurs, on démontre que les communautés d'utilisateurs peuvent être caractérisées par leur susceptibilité aux sources d'infos peu crédibles et très biaisées. Notre recherche souligne la nécessité de prendre en compte la dynamique communautaire dans la lutte contre la diffusion de la désinformation et des biais sur les plateformes en ligne.
Titre: Susceptibility of Communities against Low-Credibility Content in Social News Websites
Résumé: Social news websites, such as Reddit, have evolved into prominent platforms for sharing and discussing news. A key issue on social news websites sites is the formation of echo chambers, which often lead to the spread of highly biased or uncredible news. We develop a method to identify communities within a social news website that are prone to uncredible or highly biased news. We employ a user embedding pipeline that detects user communities based on their stances towards posts and news sources. We then project each community onto a credibility-bias space and analyze the distributional characteristics of each projected community to identify those that have a high risk of adopting beliefs with low credibility or high bias. This approach also enables the prediction of individual users' susceptibility to low credibility content, based on their community affiliation. Our experiments show that latent space clusters effectively indicate the credibility and bias levels of their users, with significant differences observed across clusters -- a $34\%$ difference in the users' susceptibility to low-credibility content and a $8.3\%$ difference in the users' susceptibility to high political bias.
Auteurs: Yigit Ege Bayiz, Arash Amini, Radu Marculescu, Ufuk Topcu
Dernière mise à jour: 2024-03-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.10705
Source PDF: https://arxiv.org/pdf/2403.10705
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.