Prédire la popularité des posts sur les réseaux sociaux grâce à l'analyse d'images
Une étude sur comment les images impactent l'engagement sur les réseaux sociaux et des prévisions.
― 11 min lire
Table des matières
- Cadre de Prédiction
- La Montée des Réseaux Sociaux
- Défis de la Prédiction de Popularité
- Notre Approche d'Étude
- Principales Conclusions
- Structure du Document
- Travaux Connexes
- Variables Non-Image pour la Prédiction de Popularité
- Variables Image pour la Prédiction de Popularité
- Description des Données
- Collecte de Données
- API Google Cloud Vision
- Construction de Variables
- Analyse Préliminaire
- Modèles Considérés
- Modèle Linéaire Mixte (LMM)
- Régression par Support Vector (SVR)
- Perceptron Multicouche (MLP)
- Forêt Aléatoire (RF)
- XGBoost (XGB)
- Analyse des Données
- Validation Croisée Hiérarchique
- Résultats des Tests
- Conclusion et Travaux Futurs
- Source originale
- Liens de référence
Ces dernières années, les réseaux sociaux ont explosé en popularité, avec des utilisateurs qui partagent du contenu varié, y compris des images et des vidéos. Comprendre pourquoi certains posts attirent plus d'attention peut être bénéfique pour les entreprises et les marketeurs. Notre étude se concentre sur la prévision de la popularité des posts basés sur des images en analysant différents facteurs qui contribuent à l'engagement.
Cadre de Prédiction
On propose un cadre qui prédit comment les posts basés sur des images vont performer sur les réseaux sociaux. Notre approche utilise un outil puissant, l'API Google Cloud Vision, pour extraire des détails importants des images, comme les couleurs et les objets. En combinant ces informations avec des données sur les utilisateurs, on peut mieux comprendre ce qui rend un post populaire. Dans nos tests, on a constaté qu'utiliser des informations d'image améliorait la précision de 6,8 % par rapport à d'autres types de données.
La Montée des Réseaux Sociaux
Au cours des dix dernières années, les plateformes de réseaux sociaux ont connu une croissance significative. Avec cette croissance, de nouveaux formats comme le texte, les images et les vidéos ont émergé. Avec la concurrence qui s'intensifie entre ces plateformes, il y a un besoin pressant pour les entreprises d'analyser les énormes quantités de données générées chaque jour. Une façon de le faire est le marketing d'influence, où des utilisateurs populaires promeuvent des produits, impactant souvent les choix d'achat des utilisateurs.
Le nombre de "J'Aime" sur un post sert d'indicateur clair de sa popularité. Ce métrique est précieux non seulement pour les entreprises, mais aussi pour la recherche académique. Comprendre combien de likes un post reçoit peut aider à façonner de futures stratégies marketing pour les entreprises qui cherchent à résonner avec leur public cible.
Défis de la Prédiction de Popularité
Prédire la popularité d'un post sur les réseaux sociaux n'est pas simple. Un défi consiste à intégrer efficacement les données d'image. De nos jours, beaucoup d'utilisateurs préfèrent communiquer par des images plutôt que par du texte. Cependant, il est difficile de résumer les détails visuels d'une image dans un format qui peut être facilement analysé.
Bien que certaines études aient utilisé des données de pixels pour évaluer les images, cette méthode manque de clarté car elle ne fournit pas d'insights clairs sur le contenu de l'image. Un autre obstacle est que les données des réseaux sociaux ont leurs propres caractéristiques uniques. Les utilisateurs publient souvent plusieurs images, et les modèles doivent tenir compte des comportements individuels des utilisateurs pour faire des prédictions précises. Pourtant, de nombreuses études précédentes n'ont pas réussi à prendre pleinement en compte les effets spécifiques aux utilisateurs.
Notre Approche d'Étude
Dans notre recherche, on a testé différents modèles de prédiction, y compris le Modèle Linéaire Mixte, la Régression par Support Vector, le Perceptron Multicouche, la Forêt Aléatoire et XGBoost. Un modèle de régression linéaire a été utilisé comme comparaison. Nos résultats ont montré que les modèles capturant des relations complexes entre les variables ont mieux performé.
On a aussi créé une méthode systématique pour extraire des informations clés des images, ce qui a aidé à améliorer les prédictions de notre modèle. En utilisant l'API Google Cloud Vision, on a pu identifier les principaux objets et couleurs dans les images. On a ensuite simplifié ces données en variables plus interprétables.
Principales Conclusions
Plusieurs conclusions importantes ont émergé de notre analyse :
Informations sur l'Image et l'Utilisateur : Notre modèle a profité de l'utilisation à la fois de variables liées aux images et de détails sur les utilisateurs. Cette approche combinée a donné de meilleurs résultats de prédiction.
Importance des Variables Interprétables : En tirant parti de variables facilement compréhensibles, comme les sujets d'image et les couleurs dominantes, on a pu améliorer l'interprétabilité du modèle.
Forêt Aléatoire et XGBoost : Nos tests ont montré que la Forêt Aléatoire et XGBoost offraient le meilleur ajustement pour prédire la popularité des posts.
Structure du Document
Le document est organisé en plusieurs sections. La section travaux connexes discute des études précédentes axées sur des variables non liées aux images pour la prédiction de popularité. La section collecte de données et construction de variables explique nos méthodes de collecte de données et de création de variables prédictives. Les modèles de prédiction de popularité sont détaillés, suivis d'une discussion sur les résultats de notre analyse. Enfin, on conclut avec des conclusions et des suggestions pour de futurs travaux.
Travaux Connexes
Variables Non-Image pour la Prédiction de Popularité
De nombreuses études ont souligné l'importance des variables non-image dans la prédiction de la popularité sur les réseaux sociaux. Des éléments comme les hashtags, le timing et les légendes ont montré jouer des rôles significatifs dans l'engagement.
Hashtags : Les hashtags aident à résumer le contenu des posts et à augmenter la visibilité. Certaines études se sont concentrées sur le nombre de hashtags utilisés, tandis que d'autres ont exploré leurs significations sémantiques à l'aide d'embeddings de mots.
Facteurs Temporels : Les informations concernant le moment où un post a été fait, comme le jour et l'heure, peuvent impacter sa popularité. Certains chercheurs ont inclus des variables indiquant si un post a été téléchargé pendant des vacances ou des événements significatifs.
Légendes : Bien que les images soient cruciales, les légendes continuent de détenir de l'importance. Les méthodes traditionnelles pour analyser les légendes incluent l'évaluation de la longueur des mots, la présence de mots spécifiques ou la fréquence. Des approches récentes ont utilisé des algorithmes pour extraire le sentiment des légendes.
Variables Image pour la Prédiction de Popularité
Différentes techniques existent pour analyser les informations d'image afin d'améliorer la précision des prévisions. Utiliser des données de pixels offre un aperçu structurel, mais il est souvent difficile à interpréter.
Certaines études se sont appuyées sur des modèles de deep learning pré-entraînés pour extraire des caractéristiques d'image, tandis que d'autres ont utilisé des méthodes de détection d'objets pour identifier des éléments dans les images.
Les attributs de couleur ont également été explorés. Certaines études catégorisent les couleurs et utilisent les couleurs dominantes des images pour évaluer leur effet sur l'engagement des utilisateurs.
Description des Données
Collecte de Données
Pour construire notre ensemble de données, on a utilisé une stratégie d'échantillonnage en commençant par un utilisateur focal. On a ensuite sélectionné des utilisateurs supplémentaires de sa liste de suivis pour créer un réseau connecté d'utilisateurs. Notre collecte de données a eu lieu entre début février et fin mars 2022, résultant en un échantillon incluant 40 utilisateurs et 3 807 posts, avec 13 774 images extraites pour analyse.
API Google Cloud Vision
On a utilisé l'API Google Cloud Vision pour extraire des informations détaillées des images collectées. Cet outil identifie des objets, couleurs et textes dans les images, ce qui s'est révélé essentiel pour notre analyse.
En utilisant diverses fonctions de cette API, on a réussi à collecter des étiquettes d'objets et des couleurs dominantes de chaque image, facilitant la création d'un ensemble de données solide pour nos prédictions.
Construction de Variables
Une fois les données collectées, on a construit des variables pour résumer des informations clés pour nos prédictions. Ces variables incluent des éléments de base liés au temps, des indicateurs spécifiques aux utilisateurs, et des métriques liées au contenu.
Les variables clés incluent :
J'aime : Cela sert de variable de réponse, ajustée pour les différences de temps et transformée pour réduire l'asymétrie.
Variables de Temps et de Date : Des variables de base liées au temps comme le jour de la semaine, l'heure de publication et les indicateurs de vacances contribuent à nos modèles prédictifs.
Effets Utilisateur : Des effets spécifiques liés à des utilisateurs individuels sont capturés via des effets fixes pour traiter la variabilité.
Variables de Contenu : On a aussi calculé des variables comme le nombre d'images et de reels inclus dans chaque post et des informations étiquetées pour évaluer leur impact.
Analyse Préliminaire
Avant de plonger dans des modèles plus complexes, on a réalisé des analyses préliminaires en utilisant la régression linéaire. En incluant des ensembles de variables couramment discutées, on a observé que l'inclusion de caractéristiques spécifiques aux utilisateurs améliorait notablement la précision de notre modèle.
Les résultats ont indiqué qu'il existe une forte corrélation entre les habitudes de publication d'un utilisateur et le nombre de likes qu'il reçoit. De plus, l'analyse préliminaire a souligné l'importance d'utiliser divers types de données-à la fois image et texte-pour améliorer les prédictions.
Modèles Considérés
Notre étude a comparé plusieurs modèles pour trouver le meilleur ajustement pour prédire les J'aime. Les modèles incluaient des Modèles Linéaires Mixtes, la Régression par Support Vector, le Perceptron Multicouche, la Forêt Aléatoire et XGBoost.
Modèle Linéaire Mixte (LMM)
Le LMM prend efficacement en compte les observations répétées au sein des utilisateurs, permettant de modéliser à la fois les effets spécifiques aux utilisateurs et les patterns généraux dans l'ensemble de données.
Régression par Support Vector (SVR)
Le SVR vise à créer une fonction qui maintient la plupart des résidus dans une marge spécifique, assurant une robustesse face aux valeurs atypiques, ce qui est essentiel pour les tendances de popularité.
Perceptron Multicouche (MLP)
Ce modèle basé sur des réseaux de neurones connecte plusieurs couches pour apprendre efficacement les structures de données complexes.
Forêt Aléatoire (RF)
Le RF utilise plusieurs arbres de décision pour améliorer la stabilité de la prédiction en moyennant les résultats à travers les arbres, ce qui le rend adapté à la complexité de nos données.
XGBoost (XGB)
Le XGB s'appuie sur le cadre de gradient boosting en apprenant séquentiellement des arbres de décision et en appliquant des pénalités pour réduire le surajustement.
Analyse des Données
Validation Croisée Hiérarchique
Pour garantir une sélection précise des paramètres, on a utilisé la validation croisée hiérarchique. Cette méthode a aidé à maintenir la distribution des utilisateurs à travers différents plis, assurant une représentation équilibrée pour estimer la performance du modèle.
Résultats des Tests
Nos résultats de tests ont souligné l'importance d'incorporer à la fois des données non-image et image. Les modèles utilisant toutes les variables disponibles ont atteint des erreurs de prédiction significativement plus faibles.
Par exemple, nos tests ont indiqué que les modèles étaient plus efficaces lorsqu'ils incluaient les deux types de données, renforçant l'idée qu'ils contribuent des informations précieuses de manière unique.
Conclusion et Travaux Futurs
En conclusion, notre recherche explore la nature complexe des données sur les réseaux sociaux. En comparant plusieurs modèles et en se concentrant sur des variables clés liées aux images, on a découvert que XGBoost fournissait les meilleures prédictions dans l'ensemble.
Notre cadre utilise des méthodes systématiques pour extraire et comprendre l'imagerie, résultant finalement en améliorations pour les prédictions de popularité sur les réseaux sociaux.
De futures recherches pourraient explorer le potentiel d'inclure des données vidéo pour élargir notre compréhension de la popularité des posts et évaluer des mesures plus larges d'engagement au-delà des simples likes. En outre, découvrir les facteurs causaux qui influencent la popularité des posts sera essentiel pour les études futures, compte tenu des dynamiques complexes en jeu au sein des plateformes de réseaux sociaux.
En mettant en œuvre des stratégies de collecte de données rigoureuses et en tirant parti de techniques analytiques avancées, on espère contribuer à une compréhension plus profonde de comment les réseaux sociaux fonctionnent pour engager les utilisateurs.
Titre: Enhancing Social Media Post Popularity Prediction with Visual Content
Résumé: Our study presents a framework for predicting image-based social media content popularity that focuses on addressing complex image information and a hierarchical data structure. We utilize the Google Cloud Vision API to effectively extract key image and color information from users' postings, achieving 6.8% higher accuracy compared to using non-image covariates alone. For prediction, we explore a wide range of prediction models, including Linear Mixed Model, Support Vector Regression, Multi-layer Perceptron, Random Forest, and XGBoost, with linear regression as the benchmark. Our comparative study demonstrates that models that are capable of capturing the underlying nonlinear interactions between covariates outperform other methods.
Auteurs: Dahyun Jeong, Hyelim Son, Yunjin Choi, Keunwoo Kim
Dernière mise à jour: 2024-05-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.02367
Source PDF: https://arxiv.org/pdf/2405.02367
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.