Simple Science

La science de pointe expliquée simplement

# Informatique# Réseaux sociaux et d'information# Ordinateurs et société

Analyse du comportement des utilisateurs sur Bluesky Social

Un ensemble de données complet révélant les interactions des utilisateurs et les tendances sur Bluesky Social.

― 7 min lire


Tendances desTendances desutilisateurs sur BlueskySocialpartage de contenu.interactions des utilisateurs et leUne étude révèle des infos sur les
Table des matières

Les réseaux sociaux font partie intégrante de nos vies aujourd'hui, mais ils font face à de sérieux problèmes comme la désinformation et les fake news. Ce n'est pas juste un souci pour les Utilisateurs ; les chercheurs galèrent aussi à étudier ces problèmes. Une des raisons principales de cette galère, c'est que beaucoup de sites de réseaux sociaux ont récemment changé leurs règles, ce qui rend difficile l'accès aux données qui peuvent aider à comprendre le comportement en ligne.

Pour remédier à ça, on présente un gros dataset de Bluesky Social, qui est une plateforme relativement nouvelle. Ce dataset inclut des posts et des Interactions de millions d'utilisateurs, ce qui en fait une ressource précieuse pour étudier le comportement sur les réseaux sociaux.

Comprendre Bluesky Social

Bluesky Social a été lancé en février 2023 et a rapidement attiré l'attention, surtout des utilisateurs cherchant à migrer d'autres plateformes comme Twitter. Au départ, les utilisateurs pouvaient seulement rejoindre la plateforme sur invitation, mais ça a vite ouvert à tout le monde. En novembre 2023, Bluesky avait plus de trois millions d'utilisateurs. En février 2024, ce chiffre avait grimpé à cinq millions.

La plateforme permet aux utilisateurs de poster de courts messages, de partager des images et d'interagir avec d'autres utilisateurs en aimant, partageant ou commentant des posts. Une fonctionnalité unique de Bluesky, c'est son système de fil d'actualité. Les utilisateurs peuvent choisir différents algorithmes pour personnaliser leur fil selon leurs intérêts. Ça ouvre des possibilités pour étudier comment ces choix affectent ce que les gens voient et comment ils interagissent avec le contenu.

Le Dataset

Notre dataset comprend une mine d'infos de Bluesky Social. Il couvre :

  • Plus de 4 millions de comptes utilisateurs.
  • 235 millions de posts réalisés par ces utilisateurs.
  • Des détails sur la façon dont les utilisateurs interagissent, y compris les likes, les partages et les commentaires.

Ces données nous permettent d'étudier comment les gens se comportent en ligne, comment ils partagent du contenu, et comment les algorithmes impactent leur expérience.

Processus de Collecte de Données

La collecte de ces données s'est faite en plusieurs étapes :

  1. Collecte d'Informations Utilisateurs : Dans un premier temps, on a rassemblé des infos sur les abonnés du compte officiel de Bluesky. On a utilisé une méthode qui nous a permis de trouver de nouveaux utilisateurs en explorant les abonnés de ceux qu'on avait déjà trouvés.

  2. Collecte de Posts : Dans la deuxième phase, on a collecté les posts des utilisateurs qu'on avait identifiés. On a veillé à inclure tous les posts partagés pendant une certaine période, totalisant plus de 237 millions de posts.

  3. Suivi des Interactions : Dans la dernière phase, on a regardé comment les utilisateurs interagissent avec les posts. Ça incluait des infos sur qui a aimé un post et quand ils l'ont fait.

En collectant ces données avec soin, on s'est assuré qu'elles seraient utiles pour divers objectifs de recherche.

Considérations Éthiques

Quand on traite des données en ligne, la vie privée est cruciale. Bluesky a une politique de confidentialité claire stipulant que toutes les infos partagées par les utilisateurs sont publiques. On a veillé à respecter la vie privée des utilisateurs en enlevant les noms d'utilisateur de notre dataset et en les remplaçant par des ID numériques. On n'a pas collecté de détails d'identification personnelle pour garder les données aussi sûres que possible.

Analyse des Données

Avec le dataset en place, on peut analyser divers aspects du comportement des utilisateurs et de la dynamique de la plateforme :

Engagement des Utilisateurs

Environ 58% des utilisateurs sur Bluesky ont partagé au moins un post. En moyenne, ces utilisateurs ont créé environ 99 posts chacun, avec une médiane de seulement 8 posts. Ça indique que, même si certains utilisateurs sont très actifs, beaucoup d'autres ne s'engagent pas autant.

Partage de Contenu

Parmi le total des posts, environ 27% étaient des partages de contenu d'autres utilisateurs, et environ 5% étaient des citations. Ça montre que les utilisateurs interagissent fréquemment avec le contenu des autres, favorisant un sentiment de communauté. On a aussi identifié 20 millions de fils de discussion avec 88 millions de réponses, suggérant que des conversations ont lieu régulièrement sur la plateforme.

Tendances de Publication

On a observé des tendances dans l'Activité de publication quotidienne. Les posts ont généralement augmenté de mars à novembre et se sont stabilisés à environ un million de posts par jour. Un pic significatif a eu lieu en février 2024 quand la politique sur invitation a été levée, doublant l'engagement des utilisateurs.

Activité des Utilisateurs

En regardant de plus près l'activité des utilisateurs, on a trouvé que 50% des utilisateurs étaient actifs pendant au moins 50 jours. Ceux qui ont rejoint pendant la phase sur invitation étaient généralement plus actifs sur des périodes plus longues par rapport aux nouveaux utilisateurs qui ont rejoint après.

Diversité Linguistique

Bluesky supporte plusieurs langues, et on a trouvé des posts dans 227 tags différents. L'anglais était la langue la plus courante, suivi du japonais et de l'allemand. La présence de posts multilingues rend la plateforme adaptée à diverses études linguistiques.

Fonctionnalité du Fil d'Actualité

Les générateurs de fil sur Bluesky permettent aux utilisateurs de personnaliser ce qu'ils voient. On a collecté des posts de 11 fils différents couvrant des sujets allant de la politique à la science, et même des intérêts de niche comme le gaming. Ça sert de fenêtre pour voir comment les utilisateurs s'engagent avec des sujets spécifiques.

Analyse de Sentiment

On a aussi regardé le sentiment derrière les posts. Parmi les posts en anglais analysés, 32% étaient positifs, 27% négatifs, et 41% neutres. Les taux de sentiment quotidiens ont montré que les gens exprimaient globalement plus de sentiments positifs, bien qu'il y ait eu des pics de sentiments négatifs pendant certains événements.

Réaction aux Événements

On a remarqué que certains pics d'activité et de sentiment coïncidaient avec des événements du monde réel. Par exemple, les discussions sur des problèmes raciaux ont explosé après un incident rapporté sur la plateforme. De telles réactions offrent des aperçus sur comment des facteurs externes influencent le comportement des utilisateurs en ligne.

Visualisation des Données

Pour communiquer nos résultats efficacement, on a produit des visuels qui montrent les interactions des utilisateurs, le nombre de posts, et le réseau global de relations sur Bluesky. Ces visuels peuvent aider d'autres à comprendre la dynamique de la plateforme en un coup d'œil.

Structure du Réseau Social

On a modélisé les connexions entre les utilisateurs en fonction de qui suit qui. Le graphique résultant montre que quelques comptes ont un nombre énorme d'abonnés, tandis que la plupart des utilisateurs n'ont que quelques connexions. Ça reflète des schémas observés dans d'autres réseaux sociaux, comme Facebook ou Twitter.

Réseaux d'Interaction

En analysant comment les utilisateurs interagissent à travers des réponses, des reposts, et des citations, on peut construire une carte de l'engagement sur la plateforme. Ça permet aux chercheurs d'étudier comment les idées et le contenu se propagent à travers le réseau.

Directions de Recherche Futures

Le dataset ouvre de nombreuses voies pour la recherche. Les chercheurs peuvent examiner des sujets comme :

  • L'impact des choix d'algorithmes sur l'expérience utilisateur.
  • Comment la désinformation se propage et comment les utilisateurs la détectent.
  • Les patterns de migration des utilisateurs d'autres plateformes vers Bluesky.

Les études futures peuvent aussi explorer si les sentiments et les tendances observés en anglais se retrouvent dans d'autres langues, offrant une vue plus complète de l'engagement des utilisateurs.

Conclusion

Notre dataset de Bluesky Social fournit une base solide pour étudier le comportement en ligne dans le contexte des réseaux sociaux. C'est une ressource précieuse pour les chercheurs cherchant à comprendre comment les utilisateurs interagissent, partagent des infos, et réagissent au contenu dans un environnement numérique en rapide évolution.

En rendant ce dataset disponible au public, on espère encourager l'exploration et l'analyse, favorisant une meilleure compréhension des communautés en ligne et de leurs complexités.

Source originale

Titre: "I'm in the Bluesky Tonight": Insights from a Year Worth of Social Data

Résumé: Pollution of online social spaces caused by rampaging d/misinformation is a growing societal concern. However, recent decisions to reduce access to social media APIs are causing a shortage of publicly available, recent, social media data, thus hindering the advancement of computational social science as a whole. We present a large, high-coverage dataset of social interactions and user-generated content from Bluesky Social to address this pressing issue. The dataset contains the complete post history of over 4M users (81% of all registered accounts), totalling 235M posts. We also make available social data covering follow, comment, repost, and quote interactions. Since Bluesky allows users to create and bookmark feed generators (i.e., content recommendation algorithms), we also release the full output of several popular algorithms available on the platform, along with their timestamped ``like'' interactions and time of bookmarking. This dataset allows unprecedented analysis of online behavior and human-machine engagement patterns. Notably, it provides ground-truth data for studying the effects of content exposure and self-selection and performing content virality and diffusion analysis.

Auteurs: Andrea Failla, Giulio Rossetti

Dernière mise à jour: 2024-04-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.18984

Source PDF: https://arxiv.org/pdf/2404.18984

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires