Simple Science

Scienza all'avanguardia spiegata semplicemente

# Fisica# Reti sociali e informative# Fisica e società

Prevedere la popolarità delle informazioni sui social media

Un nuovo metodo prevede come si diffonde l'informazione su WeChat e Weibo.

― 9 leggere min


Nuovo metodo per leNuovo metodo per leprevisioni sui socialmediapopolarità delle informazioni.Un modo semplice per prevedere la
Indice

La capacità di prevedere quanto diventerà popolare un'informazione sui social media è importante per molte cose, come prendere decisioni e diffondere messaggi di marketing. I metodi attuali spesso richiedono funzionalità complicate che sono difficili da ottenere da diverse lingue e piattaforme, o si basano su dettagli sulla struttura della rete che possono essere difficili da accedere.

Ci siamo concentrati sulla nostra ricerca su due grandi siti di social media, WeChat e Weibo. Attraverso la nostra indagine, abbiamo scoperto che il modo in cui le informazioni si diffondono può essere meglio descritto come un ciclo di attivazione e decadimento. Basandoci su questa comprensione, abbiamo creato un nuovo metodo chiamato algoritmo Attivazione-Decadimento (AD). Questo metodo può prevedere quanto sarà popolare un contenuto a lungo termine, semplicemente guardando quanto viene ripostato nelle fasi iniziali. Abbiamo testato il nostro approccio su Dati provenienti da WeChat e Weibo e abbiamo scoperto che riflette accuratamente come si diffondono i contenuti, consentendo previsioni sulla condivisione dei messaggi nel tempo.

La nostra ricerca ha trovato che c'è un forte legame tra il numero massimo di ripostaggi e il totale di condivisioni. Sapere quando si verifica il picco di condivisione può aiutare molto a migliorare le nostre previsioni. Il nostro metodo si è dimostrato più accurato rispetto ad altri metodi esistenti per prevedere la popolarità delle informazioni.

Con l'aumento delle tecnologie di comunicazione e dei servizi mobili, i social media permettono a miliardi di persone di creare e Condividere informazioni liberamente in tutto il mondo. Leggere e ripostare contenuti online è diventato un modo chiave per comunicare e esprimere le proprie opinioni. Pertanto, come si diffondono le informazioni è essenziale nelle nostre attività quotidiane e ha un valore economico e pratico significativo.

La capacità di raccogliere, pulire e analizzare grandi quantità di dati ha cambiato il campo dell'analisi delle reti sociali. Rende più facile per i ricercatori condurre studi su larga scala. Lo studio di come le informazioni si diffondono nelle reti sociali è diventato un tema centrale in aree come sociologia, fisica e informatica, tra le altre.

Negli ultimi anni, prevedere la popolarità delle informazioni sulle piattaforme social ha suscitato un notevole interesse sia da parte dei ricercatori accademici che dell'industria. La popolarità si riferisce solitamente a quante persone visualizzano, raccolgono, ripostano o condividono informazioni nelle reti, a seconda del contesto di ogni studio.

Rassegna della Ricerca sulla Previsione della Popolarità

Uno studio iniziale di Szabo e Huberman ha esaminato la popolarità dei contenuti su Digg e YouTube. Hanno trovato una forte relazione tra la popolarità iniziale e quella successiva dei contenuti. Sulla base di questo, hanno creato un modello log-lineare che può prevedere la popolarità.

Costruendo su idee simili, è stato sviluppato un altro modello chiamato Regressione Lineare con Grado (LR-D) per essere più flessibile considerando l'influenza cumulativa degli utenti che condividono contenuti. Altre ricerche di Bao et al. hanno mostrato una connessione tra popolarità e struttura di rete, il che significa che prevedere la popolarità finale potrebbe essere realizzato usando la regressione lineare basata sulle caratteristiche della rete.

Da un'altra prospettiva, alcuni ricercatori hanno notato che gli utenti che condividono messaggi possono spingere altri a fare lo stesso, e hanno esplorato quest'idea in modelli come il processo di Rinforzo Esponenziale e Mapping Temporale (PETM), che combina elementi della teoria del rinforzo con un rilascio di legge di potenza.

La ricerca sui processi puntuali ha portato allo sviluppo di un modello chiamato Modello Auto-Esaltante delle Cascate Informative (SEIMIC). Questo modello può prevedere future condivisioni su piattaforme come Twitter, utilizzando solo i timestamp dei ripostaggi e il numero di follower che un utente ha.

È stato osservato che alcuni utenti chiave hanno un enorme impatto su come le informazioni si diffondono online. Riconoscendo questo, alcuni ricercatori hanno tenuto conto di ciò nei loro modelli predittivi. Nonostante questi progressi, molti studi si basano ancora su funzionalità complesse che sono difficili da estrarre o su strutture di rete che possono essere complicate da ottenere.

Il nostro articolo esamina dati empirici per dimostrare che il processo di diffusione delle informazioni può essere catturato come un processo dinamico di attivazione-decadimento. Abbiamo quindi proposto il nostro algoritmo AD che ha bisogno solo della quantità iniziale di ripostaggi per prevedere la popolarità a lungo termine, senza fare affidamento su strutture di rete intricate o altre caratteristiche dei contenuti.

I nostri risultati hanno indicato che la quantità di ripostaggi su WeChat nelle prime due ore poteva prevedere con alta accuratezza la popolarità nei sette giorni successivi. Abbiamo anche trovato una stretta relazione tra il numero massimo di ripostaggi e il totale di condivisioni. Comprendere quando si verifica il numero massimo di ripostaggi può migliorare significativamente l'accuratezza delle previsioni.

Dati e Metodi

La ricerca è iniziata analizzando due reti sociali note: WeChat e Weibo. Abbiamo esaminato come si diffondono le informazioni su queste piattaforme e abbiamo costruito un processo dinamico per descrivere questo alzarsi e abbassarsi nel tempo.

Set di Dati

Il dataset di WeChat include oltre 90.000 articoli di notizie che coprono vari argomenti come politica, economia, diritto, tecnologia, cultura, sport e questioni sociali. I record di ripostaggio sono stati raccolti da utenti che condividevano contenuti tra di loro dal 2 al 8 giugno 2016, attraverso un progetto con il team di WeChat di Tencent.

Per Weibo, un dataset proveniente da una competizione include circa 30.000 microblog e oltre 17 milioni di record di ripostaggi. Weibo è spesso visto come l'equivalente cinese di Twitter. I messaggi sono brevi paragrafi di non più di 140 caratteri cinesi, alcuni dei quali includono immagini.

Standardizzando i timestamp nei dataset, possiamo analizzare meglio le tendenze complessive dei ripostaggi per i messaggi. Le osservazioni iniziali hanno mostrato che il numero medio di ripostaggi per WeChat e Weibo variava statisticamente nel tempo.

Su WeChat, ci vogliono meno di 30 minuti affinché un messaggio raggiunga il picco di ripostaggi dal momento in cui viene generato. Al contrario, per Weibo, ciò avviene in circa 200 secondi. Una volta raggiunto il picco, i numeri di ripostaggio tendono a diminuire gradualmente. Abbiamo notato che questo intero processo poteva essere diviso in due fasi: la fase attiva, che porta al picco, e la fase di decadimento, che segue.

Nel nostro studio, l'obiettivo era prevedere il numero totale di ripostaggi per un dato messaggio. Basandoci sulla nostra analisi, abbiamo creato un modello matematico per catturare come cambia il numero di ripostaggi nel tempo. Il nostro modello ci consente di prevedere quante volte un messaggio verrà condiviso in base alla sua storia di condivisione, il che aiuta a identificare quali messaggi sono probabili che vengano condivisi ampiamente.

Dopo aver pulito i dati, abbiamo diviso i campioni in set di addestramento e testing, con il 75% allocato per l'addestramento e il 25% per il testing in base ai tempi di rilascio effettivi.

Modello Attivazione-Decadimento

Il modello che abbiamo sviluppato si basa su principi simili all'equazione di Hill e alla sua variante, l'equazione BiHill, che sono ampiamente usate in biochimica. Queste equazioni aiutano ad analizzare relazioni complesse e possono essere applicate per descrivere il processo non lineare di diffusione delle informazioni.

La funzione di Hill può mostrare come opera il processo di ripostaggio e aiuta a definire l'attivazione e l'inibizione nella condivisione delle informazioni. Man mano che le informazioni si diffondono, di solito ci sono due forze opposte in gioco: l'attivazione, che incoraggia la condivisione, e il decadimento, che la rallenta.

Nel nostro modello, assumiamo che il processo di condivisione delle informazioni sia un equilibrio tra queste due forze. Prima di raggiungere il picco, il fattore di attivazione guida il processo. Dopo il picco, il fattore di decadimento prende il sopravvento, ed è per questo che il nostro modello illustra questa progressione nel tempo.

Prevedere la Popolarità con l'Algoritmo AD

Per fare previsioni usando il nostro modello, assumiamo di avere dati su un certo numero di messaggi. L'obiettivo è prevedere quante volte l'informazione sarà condivisa dopo un certo periodo.

I passaggi per il nostro algoritmo AD includono:

  1. Raccogliere parametri del modello da dataset storici.
  2. Identificare i migliori parametri attraverso set di addestramento e testing.
  3. Usare questi parametri nell'algoritmo AD per prevedere le future condivisioni del messaggio.

Metriche di Valutazione

Abbiamo utilizzato tre metriche per valutare le performance dei nostri algoritmi di previsione: Errore Percentuale Assoluto (APE), Errore Percentuale Assoluto Medio (MAPE) e Coefficiente di Disuguaglianza di Theil (TIC).

APE misura l'errore relativo tra i valori previsti e quelli reali. MAPE fornisce una misurazione media dell'errore attraverso il sistema, dove valori più bassi indicano una migliore accuratezza. TIC valuta la capacità predittiva complessiva, con valori più bassi che significano un miglioramento delle performance del modello.

Risultati delle Nostre Previsioni

L'efficacia del nostro modello di previsione è evidenziata attraverso esperimenti su dataset di WeChat e Weibo. Misuriamo quanto bene performa l'algoritmo AD rispetto a un metodo baseline, che utilizza tecniche tradizionali per prevedere la popolarità.

Abbiamo scoperto che l'algoritmo AD ha generalmente performato meglio in diverse condizioni, in particolare in termini di metriche di accuratezza come MAPE e TIC. Le previsioni fatte usando il nostro approccio hanno costantemente mostrato un'accuratezza migliorata rispetto ai metodi baseline.

Esaminando diversi periodi di tempo per la condivisione di messaggi noti, l'accuratezza del nostro algoritmo è migliorata, specialmente considerando dati su un periodo di tempo più lungo. Ad esempio, quando abbiamo guardato i dati di WeChat, l'accuratezza ottimale delle previsioni si è verificata con tempi di condivisione noti intorno ai 5 minuti. Per Weibo, questo era di circa 2 minuti.

Comprendere i Picchi nella Condivisione

Un fattore critico per il nostro algoritmo AD è determinare il numero massimo di condivisioni nella timeline dei post. Durante la nostra ricerca, abbiamo scoperto che identificare accuratamente questo picco potrebbe migliorare significativamente i risultati delle previsioni.

Le nostre indagini hanno rivelato che se possiamo individuare quando si verifica la condivisione massima all'interno di un periodo di osservazione iniziale, l'accuratezza della previsione migliora. Ad esempio, quando usiamo il numero massimo registrato nei primi 120 minuti, abbiamo notato che questa misurazione influenza la performance delle previsioni.

In conclusione, i risultati del nostro studio mostrano che il nostro algoritmo AD fornisce un metodo semplice ed efficace per prevedere la popolarità delle informazioni sulle piattaforme social. Dipendendo principalmente dai quantità iniziali di ripostaggi, evitiamo le complessità delle strutture di rete e delle caratteristiche dei contenuti.

La sfida rimane nell'identificare accuratamente i numeri di condivisione massima, che ci proponiamo di affrontare nella ricerca futura. In sintesi, l'algoritmo AD offre una soluzione pratica per capire come le informazioni diventano popolari online, rivelando le intricate dinamiche che alimentano le interazioni sui social media.

Fonte originale

Titolo: Predicting the popularity of information on social platforms without underlying network structure

Estratto: The ability to predict the size of information cascades in online social networks is crucial for various applications, including decision-making and viral marketing. However, traditional methods either rely on complicated time-varying features that are challenging to extract from multilingual and cross-platform content, or on network structures and properties that are often difficult to obtain. To address these issues, we conducted empirical research using data from two well-known social networking platforms, WeChat and Weibo. Our findings suggest that the information-cascading process is best described as an activate-decay dynamical process. Building on these insights, we developed an Activate-Decay (AD)-based algorithm that can accurately predict the long-term popularity of online content based solely on its early repost amount. We tested our algorithm using data from WeChat and Weibo, demonstrating that we could fit the evolution trend of content propagation and predict the longer-term dynamics of message forwarding from earlier data. We also discovered a close correlation between the peak forwarding amount of information and the total amount of dissemination. Finding the peak of the amount of information dissemination can significantly improve the prediction accuracy of our model. Our method also outperformed existing baseline methods for predicting the popularity of information.

Autori: Wu Leilei, Yi Lingling, Ren Xiao-Long, {Lü} Linyuan

Ultimo aggiornamento: 2023-06-21 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.12159

Fonte PDF: https://arxiv.org/pdf/2306.12159

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili