ソーシャルメディアでの情報の人気を予測する
新しい方法でWeChatやWeiboで情報がどう広がるかを予測する。
― 1 分で読む
情報がソーシャルメディアでどれくらい人気になるかを予測する能力は、意思決定やマーケティングメッセージの拡散など、いろんな場面で重要だよね。でも、既存の方法は複雑な特徴が必要で、違う言語やプラットフォームから取るのが難しかったり、ネットワークの構造に関する詳細に依存してたりして、アクセスしづらい場合も多いんだ。
私たちは、WeChatとWeiboという2つの大きなソーシャルメディアサイトに焦点を当てた。調査の結果、情報の広まり方は「活性化と減衰のサイクル」として最もよく説明できることがわかった。この理解に基づいて、「アクティベート-デケイ(AD)アルゴリズム」っていう新しい方法を作り出した。この方法は、初期段階でどれくらいリポストされるかを見るだけで、長期的にどれくらい人気になるかを予測できるんだ。WeChatとWeiboのデータを使ってテストしたら、コンテンツの広がりを正確に反映していて、時間をかけたメッセージの共有を予測できることがわかったよ。
私たちの研究では、最もリポストされる数と総共有数の間に強い関連があることがわかった。ピークの共有がいつ起こるかを知ることは、予測を大きく改善する手助けになる。私たちの方法は、情報の人気を予測する既存の方法よりも正確だって証明されたんだ。
通信技術やモバイルサービスの発展で、ソーシャルメディアは何十億もの人々が自由に情報を作り出し、共有できるようになった。オンラインコンテンツを読むことやリポストすることは、人々がコミュニケーションし、自分の意見を表現するための重要な方法になった。そのため、情報がどのように広がるかは、私たちの日常生活に欠かせないし、経済的にも実用的にも大きな価値があるんだ。
大量のデータを集めて、整理して、分析する能力は、ソーシャルネットワーク分析の分野を変えてしまった。これによって、研究者は大規模な研究をしやすくなったんだ。ソーシャルネットワークでの情報の広まり方の研究は、社会学や物理学、コンピュータサイエンスなどのいろんな分野で中心的なトピックになっている。
最近では、ソーシャルプラットフォームで情報の人気を予測することに、学術界と業界の研究者から大きな関心が寄せられてるよ。人気っていうのは、通常、コンテキストによって、情報を見たり、集めたり、リポストしたり、共有したりする人の数を指すんだ。
人気予測研究のレビュー
早期の研究では、SzaboとHubermanがDiggやYouTubeのコンテンツの人気を調べたんだ。彼らは、初期の人気と後期の人気の間に強い関係があることを見つけたんだ。それを基に、人気を予測するログ線形モデルを作ったってわけ。
似たようなアイデアを基に、ユーザーがコンテンツを共有する累積的な影響を考慮した「線形回帰と次数(LR-D)」っていうモデルが開発された。さらに、Baoらの研究では、人気とネットワーク構造の間に関連があることが示されて、ネットワークの特性に基づいて最終的な人気を予測できることがわかったんだ。
別の視点からは、メッセージを共有するユーザーが他の人を促す可能性があることに気づいた研究者もいて、「指数強化と時間マッピングプロセス(PETM)」なんてモデルを探求したよ。これは強化理論の要素とパワー法則の緩和を組み合わせたものなんだ。
ポイントプロセスに関する研究は、「自己興奮モデル(SEIMIC)」っていう情報のカスケードモデルの開発につながった。これは、Twitterのようなプラットフォームでの将来の共有を予測できるモデルで、リポストのタイムスタンプとユーザーのフォロワー数だけを使ってるんだ。
数人のキーユーザーがオンラインでの情報の広まりに大きな影響を持つことが観察されていて、そういう研究者はその影響を予測モデルに反映させたんだ。とはいえ、まだ多くの研究が、抽出が難しい複雑な特徴や、取得が厄介なネットワーク構造に依存しているんだ。
私たちの論文は、実証データを使って情報の広まり方を活性化-減衰の動的プロセスとして捉えられることを示すんだ。それから、早期のリポスト数だけで長期的な人気を予測できるADアルゴリズムを提案したんだ。このアルゴリズムは、複雑なネットワーク構造や他のコンテンツの特徴に依存する必要がないんだ。
私たちの結果は、WeChatでの最初の2時間のリポスト数が、7日間の人気を高い精度で予測できることを示したよ。また、ピークのリポスト数と総共有数の間に密接な関係があることもわかった。ピークリポスト数がいつ起こるかを理解することで、予測の精度が大きく改善されるんだ。
データと方法
研究は、WeChatとWeiboという2つの著名なソーシャルネットワークを分析するところから始まった。これらのプラットフォームで情報がどう広がるかを調べ、時間の経過によるこの上昇と下降を説明する動的プロセスを構築したんだ。
データセット
WeChatのデータセットには、政治、経済、法律、技術、文化、スポーツ、社会問題など、多様なトピックにわたる9万以上のニュース記事が含まれているよ。リポストの記録は、2016年6月2日から6月8日までの間、TencentのWeChatチームとのプロジェクトを通じて収集されたんだ。
Weiboについては、競技から得たデータセットには、約3万のマイクロブログと1700万以上のリポスト記録が含まれている。Weiboはしばしば中国版Twitterと見なされているよ。メッセージは140文字以内の短い段落で、画像を含むこともあるんだ。
データセットのタイムスタンプを標準化することで、メッセージのリポストの全体的なトレンドをよりよく分析できるようになる。初期の観察では、WeChatとWeiboの平均リポスト数が時間とともに統計的に異なることがわかった。
WeChatでは、メッセージ生成からピークリポストに到達するまでに30分もかからない。一方、Weiboでは、約200秒でピークに達する。ピークに達した後、リポスト数は徐々に減少しがちだ。このプロセス全体は、ピークに至る「アクティブステージ」と、その後の「デケイステージ」の2つの段階に分けられることがわかったんだ。
私たちの研究の目標は、特定のメッセージの総リポスト数を予測することだった。分析を基に、リポスト数が時間の経過とともにどう変化するかを捉えられる数学的モデルを構築したんだ。このモデルを使うことで、メッセージがどれくらい共有されるかをその共有履歴に基づいて予測できて、どのメッセージが広く共有される可能性があるかを特定できるんだ。
データを整理した後、サンプルをトレーニングセットとテストセットに分けたんだ。75%がトレーニング用、25%が実際のリリース時間に基づいてテスト用だよ。
アクティベート-デケイモデル
私たちが開発したモデルは、ヒル方程式やその変種であるビヒル方程式に基づいていて、これらは生化学で広く使われているんだ。この方程式は複雑な関係を分析するのに役立ち、情報の広まり方の非線形プロセスを記述するのに適用できるんだ。
ヒル関数は、リポストプロセスがどのように機能するかを示し、情報共有における活性化と抑制を定義するのに役立つ。情報が広がる時には、通常、活性化を促す「活性化力」と、共有を遅らせる「減衰力」という2つの対立する力があるんだ。
私たちのモデルでは、情報を共有するプロセスは、この2つの力のバランスであると仮定している。ピークに達する前は、活性化因子がプロセスをリードしていて、ピーク以降は減衰因子が主導するから、このモデルは時間の経過を反映しているんだ。
ADアルゴリズムによる人気予測
私たちのモデルを使って予測を行うには、いくつかのメッセージに関するデータがあることを前提にする。目標は、一定の期間後に情報がどれくらい共有されるかを予測することだよ。
ADアルゴリズムの手順は以下の通り:
- 歴史的データセットからモデルパラメータを収集する。
- トレーニングセットとテストセットを通じて最適なパラメータを特定する。
- これらのパラメータをADアルゴリズムに使用して、メッセージの将来の共有を予測する。
評価指標
予測アルゴリズムの性能を評価するために、3つの指標を使用したよ:絶対パーセント誤差(APE)、平均絶対パーセント誤差(MAPE)、およびザイール不平等係数(TIC)。
APEは、予測値と実際の値との相対誤差を測定する。MAPEは、システム全体にわたる平均誤差を示し、値が低いほど精度が高いことを示すんだ。TICは全体的な予測能力を評価し、値が低いほどモデルのパフォーマンスが向上していることを意味する。
予測結果
私たちの予測モデルの有効性は、WeChatとWeiboのデータセットにおける実験を通じて明らかになったよ。ADアルゴリズムが、人気を予測するための従来の手法と比較してどれだけ良く機能するかを測定したんだ。
ADアルゴリズムは、一般的にさまざまな条件で良いパフォーマンスを発揮していて、特にMAPEやTICのような精度の指標に関して優れていることがわかった。私たちのアプローチを使った予測は、常にベースライン手法に比べて改善された精度を示したんだ。
既知のメッセージ共有の異なる時間帯を調査したとき、私たちのアルゴリズムの精度は向上し、特に長い時間枠のデータを考慮したときにそうだった。例えば、WeChatのデータを見たとき、最適な予測精度は、共有時間が約5分の時に達成された。Weiboでは、これは約2分だったよ。
共有のピークを理解する
ADアルゴリズムにとって重要な要素は、投稿タイムラインにおけるピーク共有数を特定することだ。研究中に、最大共有が初期の観察期間内でいつ起こるかを正確に特定できれば、予測の精度が大きく向上することがわかったんだ。
私たちの調査では、初期の観察期間内で最大共有がいつ起こるかを特定できれば、予測の精度が向上することが明らかになった。例えば、最初の120分間に記録されたピーク数を使うと、その測定が予測パフォーマンスに影響を与えることがわかったよ。
結論として、私たちの研究結果は、ADアルゴリズムがソーシャルプラットフォーム上での情報の人気を予測するためのシンプルで効果的な方法を提供していることを示しているんだ。早期のリポスト数に依存することで、ネットワーク構造やコンテンツ特徴の複雑さを回避できるんだ。
今後の研究では、ピーク共有数を正確に特定することが課題として残っていて、そこを解決していくつもりだよ。要するに、ADアルゴリズムは、情報がオンラインでどう人気になるかを理解するための実用的な解決策を提供していて、ソーシャルメディアのインタラクションを支える複雑なダイナミクスを明らかにしているんだ。
タイトル: Predicting the popularity of information on social platforms without underlying network structure
概要: The ability to predict the size of information cascades in online social networks is crucial for various applications, including decision-making and viral marketing. However, traditional methods either rely on complicated time-varying features that are challenging to extract from multilingual and cross-platform content, or on network structures and properties that are often difficult to obtain. To address these issues, we conducted empirical research using data from two well-known social networking platforms, WeChat and Weibo. Our findings suggest that the information-cascading process is best described as an activate-decay dynamical process. Building on these insights, we developed an Activate-Decay (AD)-based algorithm that can accurately predict the long-term popularity of online content based solely on its early repost amount. We tested our algorithm using data from WeChat and Weibo, demonstrating that we could fit the evolution trend of content propagation and predict the longer-term dynamics of message forwarding from earlier data. We also discovered a close correlation between the peak forwarding amount of information and the total amount of dissemination. Finding the peak of the amount of information dissemination can significantly improve the prediction accuracy of our model. Our method also outperformed existing baseline methods for predicting the popularity of information.
著者: Wu Leilei, Yi Lingling, Ren Xiao-Long, {Lü} Linyuan
最終更新: 2023-06-21 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2306.12159
ソースPDF: https://arxiv.org/pdf/2306.12159
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。