Prédire la popularité des posts sur les réseaux sociaux grâce à l'analyse d'images

Table des matières

Travaux Connexes
Description des Données
Analyse Préliminaire
Modèles Considérés
Analyse des Données
Conclusion et Travaux Futurs
Source originale
Liens de référence

Ces dernières années, les réseaux sociaux ont explosé en popularité, avec des utilisateurs qui partagent du contenu varié, y compris des images et des vidéos. Comprendre pourquoi certains posts attirent plus d'attention peut être bénéfique pour les entreprises et les marketeurs. Notre étude se concentre sur la prévision de la popularité des posts basés sur des images en analysant différents facteurs qui contribuent à l'engagement.

Cadre de Prédiction

On propose un cadre qui prédit comment les posts basés sur des images vont performer sur les réseaux sociaux. Notre approche utilise un outil puissant, l'API Google Cloud Vision, pour extraire des détails importants des images, comme les couleurs et les objets. En combinant ces informations avec des données sur les utilisateurs, on peut mieux comprendre ce qui rend un post populaire. Dans nos tests, on a constaté qu'utiliser des informations d'image améliorait la précision de 6,8 % par rapport à d'autres types de données.

La Montée des Réseaux Sociaux

Au cours des dix dernières années, les plateformes de réseaux sociaux ont connu une croissance significative. Avec cette croissance, de nouveaux formats comme le texte, les images et les vidéos ont émergé. Avec la concurrence qui s'intensifie entre ces plateformes, il y a un besoin pressant pour les entreprises d'analyser les énormes quantités de données générées chaque jour. Une façon de le faire est le marketing d'influence, où des utilisateurs populaires promeuvent des produits, impactant souvent les choix d'achat des utilisateurs.

Le nombre de "J'Aime" sur un post sert d'indicateur clair de sa popularité. Ce métrique est précieux non seulement pour les entreprises, mais aussi pour la recherche académique. Comprendre combien de likes un post reçoit peut aider à façonner de futures stratégies marketing pour les entreprises qui cherchent à résonner avec leur public cible.

Défis de la Prédiction de Popularité

Prédire la popularité d'un post sur les réseaux sociaux n'est pas simple. Un défi consiste à intégrer efficacement les données d'image. De nos jours, beaucoup d'utilisateurs préfèrent communiquer par des images plutôt que par du texte. Cependant, il est difficile de résumer les détails visuels d'une image dans un format qui peut être facilement analysé.

Bien que certaines études aient utilisé des données de pixels pour évaluer les images, cette méthode manque de clarté car elle ne fournit pas d'insights clairs sur le contenu de l'image. Un autre obstacle est que les données des réseaux sociaux ont leurs propres caractéristiques uniques. Les utilisateurs publient souvent plusieurs images, et les modèles doivent tenir compte des comportements individuels des utilisateurs pour faire des prédictions précises. Pourtant, de nombreuses études précédentes n'ont pas réussi à prendre pleinement en compte les effets spécifiques aux utilisateurs.

Notre Approche d'Étude

Dans notre recherche, on a testé différents modèles de prédiction, y compris le Modèle Linéaire Mixte, la Régression par Support Vector, le Perceptron Multicouche, la Forêt Aléatoire et XGBoost. Un modèle de régression linéaire a été utilisé comme comparaison. Nos résultats ont montré que les modèles capturant des relations complexes entre les variables ont mieux performé.

On a aussi créé une méthode systématique pour extraire des informations clés des images, ce qui a aidé à améliorer les prédictions de notre modèle. En utilisant l'API Google Cloud Vision, on a pu identifier les principaux objets et couleurs dans les images. On a ensuite simplifié ces données en variables plus interprétables.

Principales Conclusions

Plusieurs conclusions importantes ont émergé de notre analyse :

Informations sur l'Image et l'Utilisateur : Notre modèle a profité de l'utilisation à la fois de variables liées aux images et de détails sur les utilisateurs. Cette approche combinée a donné de meilleurs résultats de prédiction.
Importance des Variables Interprétables : En tirant parti de variables facilement compréhensibles, comme les sujets d'image et les couleurs dominantes, on a pu améliorer l'interprétabilité du modèle.
Forêt Aléatoire et XGBoost : Nos tests ont montré que la Forêt Aléatoire et XGBoost offraient le meilleur ajustement pour prédire la popularité des posts.

Structure du Document

Le document est organisé en plusieurs sections. La section travaux connexes discute des études précédentes axées sur des variables non liées aux images pour la prédiction de popularité. La section collecte de données et construction de variables explique nos méthodes de collecte de données et de création de variables prédictives. Les modèles de prédiction de popularité sont détaillés, suivis d'une discussion sur les résultats de notre analyse. Enfin, on conclut avec des conclusions et des suggestions pour de futurs travaux.

Travaux Connexes

Variables Non-Image pour la Prédiction de Popularité

De nombreuses études ont souligné l'importance des variables non-image dans la prédiction de la popularité sur les réseaux sociaux. Des éléments comme les hashtags, le timing et les légendes ont montré jouer des rôles significatifs dans l'engagement.

Hashtags : Les hashtags aident à résumer le contenu des posts et à augmenter la visibilité. Certaines études se sont concentrées sur le nombre de hashtags utilisés, tandis que d'autres ont exploré leurs significations sémantiques à l'aide d'embeddings de mots.
Facteurs Temporels : Les informations concernant le moment où un post a été fait, comme le jour et l'heure, peuvent impacter sa popularité. Certains chercheurs ont inclus des variables indiquant si un post a été téléchargé pendant des vacances ou des événements significatifs.
Légendes : Bien que les images soient cruciales, les légendes continuent de détenir de l'importance. Les méthodes traditionnelles pour analyser les légendes incluent l'évaluation de la longueur des mots, la présence de mots spécifiques ou la fréquence. Des approches récentes ont utilisé des algorithmes pour extraire le sentiment des légendes.

Variables Image pour la Prédiction de Popularité

Différentes techniques existent pour analyser les informations d'image afin d'améliorer la précision des prévisions. Utiliser des données de pixels offre un aperçu structurel, mais il est souvent difficile à interpréter.

Certaines études se sont appuyées sur des modèles de deep learning pré-entraînés pour extraire des caractéristiques d'image, tandis que d'autres ont utilisé des méthodes de détection d'objets pour identifier des éléments dans les images.

Les attributs de couleur ont également été explorés. Certaines études catégorisent les couleurs et utilisent les couleurs dominantes des images pour évaluer leur effet sur l'engagement des utilisateurs.

Description des Données

Collecte de Données

Pour construire notre ensemble de données, on a utilisé une stratégie d'échantillonnage en commençant par un utilisateur focal. On a ensuite sélectionné des utilisateurs supplémentaires de sa liste de suivis pour créer un réseau connecté d'utilisateurs. Notre collecte de données a eu lieu entre début février et fin mars 2022, résultant en un échantillon incluant 40 utilisateurs et 3 807 posts, avec 13 774 images extraites pour analyse.

API Google Cloud Vision

On a utilisé l'API Google Cloud Vision pour extraire des informations détaillées des images collectées. Cet outil identifie des objets, couleurs et textes dans les images, ce qui s'est révélé essentiel pour notre analyse.

En utilisant diverses fonctions de cette API, on a réussi à collecter des étiquettes d'objets et des couleurs dominantes de chaque image, facilitant la création d'un ensemble de données solide pour nos prédictions.

Construction de Variables

Une fois les données collectées, on a construit des variables pour résumer des informations clés pour nos prédictions. Ces variables incluent des éléments de base liés au temps, des indicateurs spécifiques aux utilisateurs, et des métriques liées au contenu.

Les variables clés incluent :

J'aime : Cela sert de variable de réponse, ajustée pour les différences de temps et transformée pour réduire l'asymétrie.
Variables de Temps et de Date : Des variables de base liées au temps comme le jour de la semaine, l'heure de publication et les indicateurs de vacances contribuent à nos modèles prédictifs.
Effets Utilisateur : Des effets spécifiques liés à des utilisateurs individuels sont capturés via des effets fixes pour traiter la variabilité.
Variables de Contenu : On a aussi calculé des variables comme le nombre d'images et de reels inclus dans chaque post et des informations étiquetées pour évaluer leur impact.

Analyse Préliminaire

Avant de plonger dans des modèles plus complexes, on a réalisé des analyses préliminaires en utilisant la régression linéaire. En incluant des ensembles de variables couramment discutées, on a observé que l'inclusion de caractéristiques spécifiques aux utilisateurs améliorait notablement la précision de notre modèle.

Les résultats ont indiqué qu'il existe une forte corrélation entre les habitudes de publication d'un utilisateur et le nombre de likes qu'il reçoit. De plus, l'analyse préliminaire a souligné l'importance d'utiliser divers types de données-à la fois image et texte-pour améliorer les prédictions.

Modèles Considérés

Notre étude a comparé plusieurs modèles pour trouver le meilleur ajustement pour prédire les J'aime. Les modèles incluaient des Modèles Linéaires Mixtes, la Régression par Support Vector, le Perceptron Multicouche, la Forêt Aléatoire et XGBoost.

Modèle Linéaire Mixte (LMM)

Le LMM prend efficacement en compte les observations répétées au sein des utilisateurs, permettant de modéliser à la fois les effets spécifiques aux utilisateurs et les patterns généraux dans l'ensemble de données.

Régression par Support Vector (SVR)

Le SVR vise à créer une fonction qui maintient la plupart des résidus dans une marge spécifique, assurant une robustesse face aux valeurs atypiques, ce qui est essentiel pour les tendances de popularité.

Perceptron Multicouche (MLP)

Ce modèle basé sur des réseaux de neurones connecte plusieurs couches pour apprendre efficacement les structures de données complexes.

Forêt Aléatoire (RF)

Le RF utilise plusieurs arbres de décision pour améliorer la stabilité de la prédiction en moyennant les résultats à travers les arbres, ce qui le rend adapté à la complexité de nos données.

XGBoost (XGB)

Le XGB s'appuie sur le cadre de gradient boosting en apprenant séquentiellement des arbres de décision et en appliquant des pénalités pour réduire le surajustement.

Analyse des Données

Validation Croisée Hiérarchique

Pour garantir une sélection précise des paramètres, on a utilisé la validation croisée hiérarchique. Cette méthode a aidé à maintenir la distribution des utilisateurs à travers différents plis, assurant une représentation équilibrée pour estimer la performance du modèle.

Résultats des Tests

Nos résultats de tests ont souligné l'importance d'incorporer à la fois des données non-image et image. Les modèles utilisant toutes les variables disponibles ont atteint des erreurs de prédiction significativement plus faibles.

Par exemple, nos tests ont indiqué que les modèles étaient plus efficaces lorsqu'ils incluaient les deux types de données, renforçant l'idée qu'ils contribuent des informations précieuses de manière unique.

Conclusion et Travaux Futurs

En conclusion, notre recherche explore la nature complexe des données sur les réseaux sociaux. En comparant plusieurs modèles et en se concentrant sur des variables clés liées aux images, on a découvert que XGBoost fournissait les meilleures prédictions dans l'ensemble.

Notre cadre utilise des méthodes systématiques pour extraire et comprendre l'imagerie, résultant finalement en améliorations pour les prédictions de popularité sur les réseaux sociaux.

De futures recherches pourraient explorer le potentiel d'inclure des données vidéo pour élargir notre compréhension de la popularité des posts et évaluer des mesures plus larges d'engagement au-delà des simples likes. En outre, découvrir les facteurs causaux qui influencent la popularité des posts sera essentiel pour les études futures, compte tenu des dynamiques complexes en jeu au sein des plateformes de réseaux sociaux.

En mettant en œuvre des stratégies de collecte de données rigoureuses et en tirant parti de techniques analytiques avancées, on espère contribuer à une compréhension plus profonde de comment les réseaux sociaux fonctionnent pour engager les utilisateurs.

Prédire la popularité des posts sur les réseaux sociaux grâce à l'analyse d'images

Une étude sur comment les images impactent l'engagement sur les réseaux sociaux et des prévisions.

Cadre de Prédiction

La Montée des Réseaux Sociaux

Défis de la Prédiction de Popularité

Notre Approche d'Étude

Principales Conclusions

Structure du Document

Travaux Connexes

Variables Non-Image pour la Prédiction de Popularité

Variables Image pour la Prédiction de Popularité

Description des Données

Collecte de Données

API Google Cloud Vision

Construction de Variables

Analyse Préliminaire

Modèles Considérés

Modèle Linéaire Mixte (LMM)

Régression par Support Vector (SVR)

Perceptron Multicouche (MLP)

Forêt Aléatoire (RF)

XGBoost (XGB)

Analyse des Données

Validation Croisée Hiérarchique

Résultats des Tests

Conclusion et Travaux Futurs

Liens de référence

Sujets référencés

Prédire la popularité des posts sur les réseaux sociaux grâce à l'analyse d'images

Une étude sur comment les images impactent l'engagement sur les réseaux sociaux et des prévisions.

#Cadre de Prédiction

#La Montée des Réseaux Sociaux

#Défis de la Prédiction de Popularité

#Notre Approche d'Étude

#Principales Conclusions

#Structure du Document

#Travaux Connexes

#Variables Non-Image pour la Prédiction de Popularité

#Variables Image pour la Prédiction de Popularité

#Description des Données

#Collecte de Données

#API Google Cloud Vision

#Construction de Variables

#Analyse Préliminaire

#Modèles Considérés

#Modèle Linéaire Mixte (LMM)

#Régression par Support Vector (SVR)

#Perceptron Multicouche (MLP)

#Forêt Aléatoire (RF)

#XGBoost (XGB)

#Analyse des Données

#Validation Croisée Hiérarchique

#Résultats des Tests

#Conclusion et Travaux Futurs

Liens de référence

Sujets référencés

Cadre de Prédiction

La Montée des Réseaux Sociaux

Défis de la Prédiction de Popularité

Notre Approche d'Étude

Principales Conclusions

Structure du Document

Travaux Connexes

Variables Non-Image pour la Prédiction de Popularité

Variables Image pour la Prédiction de Popularité

Description des Données

Collecte de Données

API Google Cloud Vision

Construction de Variables

Analyse Préliminaire

Modèles Considérés

Modèle Linéaire Mixte (LMM)

Régression par Support Vector (SVR)

Perceptron Multicouche (MLP)

Forêt Aléatoire (RF)

XGBoost (XGB)

Analyse des Données

Validation Croisée Hiérarchique

Résultats des Tests

Conclusion et Travaux Futurs