Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Physik# Soziale und Informationsnetzwerke# Physik und Gesellschaft

Vorhersage der Beliebtheit von Informationen in sozialen Medien

Eine neue Methode sagt voraus, wie Informationen sich auf WeChat und Weibo verbreiten.

― 9 min Lesedauer


Neue Methode fürNeue Methode fürVorhersagen in sozialenMedienvorherzusagen.Beliebtheit von InformationenEin einfacher Ansatz, um die
Inhaltsverzeichnis

Die Fähigkeit, vorherzusehen, wie populär Informationen in sozialen Netzwerken werden, ist wichtig für viele Zwecke, wie Entscheidungsfindung und das Verbreiten von Marketingbotschaften. Die bestehenden Methoden benötigen oft komplizierte Merkmale, die schwer aus verschiedenen Sprachen und Plattformen zu erhalten sind, oder sie hängen von Details über die Netzwerkstruktur ab, die schwer zugänglich sein können.

Wir haben unsere Forschung auf zwei grosse soziale Netzwerke, WeChat und Weibo, konzentriert. Durch unsere Untersuchung haben wir herausgefunden, dass der Weg, wie Informationen verbreitet werden, am besten als ein Zyklus von Aktivierung und Verfall beschrieben werden kann. Basierend auf diesem Verständnis haben wir eine neue Methode namens Activate-Decay (AD) Algorithmus entwickelt. Diese Methode kann vorhersagen, wie populär Inhalte langfristig sein werden, nur durch die Betrachtung, wie viel sie in den frühen Phasen geteilt werden. Wir haben unseren Ansatz mit Daten von WeChat und Weibo getestet und festgestellt, dass er genau widerspiegelt, wie Inhalte sich verbreiten, was Vorhersagen über das Teilen von Nachrichten im Laufe der Zeit ermöglicht.

Unsere Forschung hat ergeben, dass es eine starke Verbindung zwischen der höchsten Anzahl an Reposts und der Gesamtanzahl an Shares gibt. Zu wissen, wann der Höhepunkt des Teilens erreicht wird, kann unsere Vorhersagen erheblich verbessern. Unsere Methode hat sich als genauer erwiesen als andere bestehende Methoden zur Vorhersage der Popularität von Informationen.

Mit dem Aufstieg der Kommunikationstechnologien und mobilen Diensten ermöglicht es soziale Medien Milliarden von Menschen, weltweit frei Informationen zu erstellen und zu teilen. Inhalte online zu lesen und weiterzugeben, ist zu einem wichtigen Weg geworden, wie Menschen kommunizieren und ihre Ansichten äussern. Daher ist es entscheidend, wie Informationen sich verbreiten und hat grossen wirtschaftlichen und praktischen Wert.

Die Fähigkeit, grosse Datenmengen zu sammeln, zu bereinigen und zu analysieren, hat das Feld der Analyse sozialer Netzwerke verändert. Es erleichtert Forschern, grossangelegte Studien durchzuführen. Die Untersuchung, wie Informationen in sozialen Netzwerken verbreitet werden, ist zu einem zentralen Thema in Bereichen wie Soziologie, Physik und Informatik geworden.

In den letzten Jahren hat die Vorhersage der Popularität von Informationen auf sozialen Plattformen sowohl akademisches als auch industrielles Interesse geweckt. Popularität bezieht sich normalerweise darauf, wie viele Menschen Informationen in Netzwerken sehen, sammeln, weitergeben oder teilen, abhängig vom Kontext jeder Studie.

Übersicht über die Forschung zur Vorhersage von Popularität

Eine frühe Studie von Szabo und Huberman untersuchte die Popularität von Inhalten auf Digg und YouTube. Sie fanden eine starke Beziehung zwischen der frühen und späteren Popularität von Inhalten. Basierend darauf erstellten sie ein log-lineares Modell, das die Popularität vorhersagen kann.

Auf ähnlichen Ideen basierend wurde ein weiteres Modell namens Lineare Regression mit Grad (LR-D) entwickelt, um flexibler zu sein, indem es den kumulativen Einfluss der Benutzer berücksichtigt, die Inhalte teilen. Weitere Forschungen von Bao et al. zeigten einen Zusammenhang zwischen Popularität und Netzwerkstruktur, was bedeutet, dass die Vorhersage der finalen Popularität mit linearer Regression basierend auf Netzwerkmerkmalen erreicht werden könnte.

Aus einer anderen Perspektive stellten einige Forscher fest, dass Benutzer, die Nachrichten teilen, andere dazu anregen können, dasselbe zu tun, und sie untersuchten diese Idee in Modellen wie dem Exponentialen Verstärkung und Zeitmapping-Prozess (PETM), der Elemente der Verstärkungstheorie mit einer Potenzgesetz-Entspannung kombiniert.

Forschungen zu Punktprozessen führten zur Entwicklung eines Modells namens Selbst-Aktivierendes Modell von Informations-Kaskaden (SEIMIC). Dieses Modell kann zukünftige Teilungen auf Plattformen wie Twitter vorhersagen, indem es nur die Zeitstempel der Reposts und die Anzahl der Follower eines Benutzers verwendet.

Es wurde beobachtet, dass einige Schlüsselbenutzer einen riesigen Einfluss darauf haben, wie Informationen online verbreitet werden. In Anerkennung dessen berücksichtigten einige Forscher dies in ihren Vorhersagemodellen. Trotz dieser Fortschritte verlassen sich viele Studien weiterhin auf komplexe Merkmale, die schwer zu extrahieren sind, oder auf Netzwerkstrukturen, die trickreich zu beschaffen sein können.

Unser Artikel untersucht empirische Daten, um zu zeigen, dass der Prozess der Informationsverbreitung als ein Aktivierungs-Verfalls-Dynamikprozess erfasst werden kann. Wir haben dann unseren AD-Algorithmus vorgeschlagen, der nur die frühen Repost-Mengen benötigt, um die langfristige Popularität vorherzusagen, ohne sich auf komplizierte Netzwerkstrukturen oder andere Inhaltsmerkmale zu verlassen.

Unsere Ergebnisse zeigten, dass die Repost-Menge auf WeChat in den ersten zwei Stunden die Popularität über sieben Tage mit hoher Genauigkeit vorhersagen konnte. Wir fanden auch eine enge Beziehung zwischen der höchsten Repost-Menge und der Gesamtanzahl der Shares. Zu verstehen, wann die maximale Repost-Zahl auftritt, kann die Vorhersagegenauigkeit erheblich verbessern.

Daten und Methoden

Die Forschung begann mit der Analyse von zwei bemerkenswerten sozialen Netzwerken: WeChat und Weibo. Wir untersuchten, wie Informationen auf diesen Plattformen verbreitet werden, und bauten einen dynamischen Prozess, um diesen Anstieg und Fall über die Zeit zu beschreiben.

Daten-Sets

Das WeChat-Dataset umfasst über 90.000 Nachrichtenartikel zu verschiedenen Themen wie Politik, Wirtschaft, Recht, Technologie, Kultur, Sport und sozialen Problemen. Die Reposting-Daten wurden von Benutzern gesammelt, die Inhalte untereinander teilen, vom 2. Juni bis 8. Juni 2016, durch ein Projekt mit dem WeChat-Team von Tencent.

Für Weibo beinhaltete ein Datensatz aus einem Wettbewerb etwa 30.000 Mikroblogs und über 17 Millionen Repost-Daten. Weibo wird oft als das chinesische Äquivalent zu Twitter angesehen. Die Nachrichten sind kurze Absätze von maximal 140 chinesischen Zeichen, von denen einige Bilder enthalten.

Durch die Standardisierung der Zeitstempel in den Datensätzen können wir die allgemeinen Reposting-Trends für Nachrichten besser analysieren. Erste Beobachtungen zeigten, dass die durchschnittliche Anzahl von Reposts für WeChat und Weibo statistisch über die Zeit variierte.

Auf WeChat benötigt eine Nachricht weniger als 30 Minuten, um den Höhepunkt der Reposts zu erreichen, seitdem sie erstellt wurde. Im Gegensatz dazu passiert dies bei Weibo in etwa 200 Sekunden. Nach Erreichen des Höhepunkts neigen die Repost-Zahlen dazu, allmählich abzunehmen. Wir haben festgestellt, dass dieser gesamte Prozess in zwei Phasen unterteilt werden kann: die aktive Phase, die zum Höhepunkt führt, und die Verfallsphase, die folgt.

In unserer Studie war das Ziel, die gesamte Anzahl an Reposts für eine gegebene Nachricht vorherzusagen. Aufbauend auf unserer Analyse haben wir ein mathematisches Modell entwickelt, um festzuhalten, wie sich die Anzahl der Reposts im Laufe der Zeit verändert. Unser Modell ermöglicht es uns, vorherzusagen, wie oft eine Nachricht basierend auf ihrer Sharing-Historie geteilt wird, was hilft zu identifizieren, welche Nachrichten voraussichtlich weit verbreitet werden.

Nach der Datenbereinigung haben wir die Stichproben in Trainings- und Testsätze aufgeteilt, wobei 75 % für das Training und 25 % für das Testing basierend auf den tatsächlichen Veröffentlichungszeiten zugewiesen wurden.

Aktivierungs-Verfalls-Modell

Das Modell, das wir entwickelt haben, basiert auf Prinzipien, die der Hill-Gleichung und ihrer Variante, der BiHill-Gleichung, ähnlich sind, die in der Biochemie weit verbreitet sind. Diese Gleichungen helfen, komplexe Beziehungen zu analysieren und können verwendet werden, um den nichtlinearen Prozess der Informationsverbreitung zu beschreiben.

Die Hill-Funktion kann zeigen, wie der Reposting-Prozess funktioniert und hilft, die Aktivierung und Hemmung beim Teilen von Informationen zu definieren. Wenn sich Informationen verbreiten, gibt es normalerweise zwei gegensätzliche Kräfte am Werk: Aktivierung, die das Teilen anregt, und Verfall, der es verlangsamt.

In unserem Modell gehen wir davon aus, dass der Prozess des Teilens von Informationen ein Gleichgewicht zwischen diesen beiden Kräften ist. Bevor der Höhepunkt erreicht wird, führt der Aktivierungsfaktor den Prozess. Nach dem Höhepunkt übernimmt der Verfallsfaktor, weshalb unser Modell diesen Verlauf über die Zeit darstellt.

Vorhersage von Popularität mit dem AD-Algorithmus

Um Vorhersagen mit unserem Modell zu treffen, nehmen wir an, dass wir Daten zu einer Anzahl von Nachrichten haben. Das Ziel ist es, vorherzusagen, wie oft die Informationen nach einem bestimmten Zeitraum geteilt werden.

Die Schritte für unseren AD-Algorithmus umfassen:

  1. Sammeln der Modellparameter aus historischen Datensätzen.
  2. Identifizieren der besten Parameter durch Trainings- und Testsätze.
  3. Verwendung dieser Parameter im AD-Algorithmus, um die zukünftigen Shares der Nachricht vorherzusagen.

Evaluationsmetriken

Wir haben drei Metriken verwendet, um die Leistung unserer Vorhersagealgorithmen zu bewerten: Absolute Prozentfehler (APE), Mittelwert des absoluten Prozentfehler (MAPE) und Theil-Ungleichheitskoeffizient (TIC).

APE misst den relativen Fehler zwischen vorhergesagten und tatsächlichen Werten. MAPE gibt eine durchschnittliche Fehlermessung im gesamten System an, wobei niedrigere Werte eine bessere Genauigkeit anzeigen. TIC bewertet die Gesamtvorhersagefähigkeit, wobei niedrigere Werte eine verbesserte Modellleistung signalisieren.

Ergebnisse unserer Vorhersagen

Die Wirksamkeit unseres Vorhersagemodells wird durch Experimente mit den Datensätzen von WeChat und Weibo hervorgehoben. Wir messen, wie gut der AD-Algorithmus im Vergleich zu einer Basislinie, die traditionelle Techniken zur Vorhersage von Popularität verwendet, abschneidet.

Wir haben festgestellt, dass der AD-Algorithmus im Allgemeinen unter verschiedenen Bedingungen besser abschnitt, insbesondere hinsichtlich der Genauigkeitsmetriken wie MAPE und TIC. Die Vorhersagen, die mit unserem Ansatz getroffen wurden, zeigten durchgehend verbesserte Genauigkeit im Vergleich zu Basislinienmethoden.

Als wir verschiedene Zeiträume für bekannte Nachrichtenweitergaben untersuchten, verbesserte sich die Genauigkeit unseres Algorithmus, insbesondere wenn wir Daten über einen längeren Zeitraum berücksichtigten. Beispielsweise erreichte die optimale Vorhersagegenauigkeit bei WeChat-Daten, wenn die bekannten Sharing-Zeiten etwa 5 Minuten betrugen. Für Weibo lag dieser Punkt bei etwa 2 Minuten.

Verständnis von Peaks im Teilen

Ein kritischer Faktor für unseren AD-Algorithmus ist die Bestimmung der maximalen Sharing-Menge im Posting-Zeitverlauf. Während unserer Forschung haben wir festgestellt, dass die genaue Identifizierung dieses Peaks die Vorhersageergebnisse erheblich verbessern könnte.

Unsere Untersuchungen zeigten, dass, wenn wir erkennen können, wann das maximale Teilen innerhalb eines anfänglichen Beobachtungszeitraums auftritt, die Vorhersagegenauigkeit steigt. Zum Beispiel, wenn wir die höchste Anzahl, die in den ersten 120 Minuten aufgezeichnet wurde, verwenden, haben wir festgestellt, dass diese Messung die Vorhersageleistung beeinflusst.

Zusammenfassend zeigen die Ergebnisse unserer Studie, dass unser AD-Algorithmus eine einfache und effektive Methode zur Vorhersage der Popularität von Informationen auf sozialen Plattformen bietet. Indem wir hauptsächlich auf frühe Repost-Mengen angewiesen sind, umgehen wir die Komplexität von Netzwerkstrukturen und Inhaltsmerkmalen.

Die Herausforderung bleibt, die maximalen Sharing-Mengen genau zu identifizieren, was wir in zukünftigen Forschungen angehen wollen. Zusammenfassend bietet der AD-Algorithmus eine praktische Lösung, um zu verstehen, wie Informationen online populär werden, und enthüllt die komplexen Dynamiken, die soziale Medien-Interaktionen antreiben.

Originalquelle

Titel: Predicting the popularity of information on social platforms without underlying network structure

Zusammenfassung: The ability to predict the size of information cascades in online social networks is crucial for various applications, including decision-making and viral marketing. However, traditional methods either rely on complicated time-varying features that are challenging to extract from multilingual and cross-platform content, or on network structures and properties that are often difficult to obtain. To address these issues, we conducted empirical research using data from two well-known social networking platforms, WeChat and Weibo. Our findings suggest that the information-cascading process is best described as an activate-decay dynamical process. Building on these insights, we developed an Activate-Decay (AD)-based algorithm that can accurately predict the long-term popularity of online content based solely on its early repost amount. We tested our algorithm using data from WeChat and Weibo, demonstrating that we could fit the evolution trend of content propagation and predict the longer-term dynamics of message forwarding from earlier data. We also discovered a close correlation between the peak forwarding amount of information and the total amount of dissemination. Finding the peak of the amount of information dissemination can significantly improve the prediction accuracy of our model. Our method also outperformed existing baseline methods for predicting the popularity of information.

Autoren: Wu Leilei, Yi Lingling, Ren Xiao-Long, {Lü} Linyuan

Letzte Aktualisierung: 2023-06-21 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2306.12159

Quell-PDF: https://arxiv.org/pdf/2306.12159

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel