Social-LLM: Ein neues Modell für die Analyse sozialer Netzwerke
Wir stellen Social-LLM vor, ein Modell, das die Benutzererkennung in sozialen Netzwerken verbessert, indem es Inhalte und Interaktionsdaten nutzt.
― 13 min Lesedauer
Inhaltsverzeichnis
Das Wachstum von Social Media hat viele Möglichkeiten eröffnet, um zu untersuchen, wie Menschen online agieren. Es ist jetzt möglich, genau zu beobachten, wie Menschen interagieren, Informationen teilen und sich gegenseitig beeinflussen, basierend auf den Daten von sozialen Netzwerken. Allerdings kann es knifflig sein, mit grossen Mengen an sozialen Netzwerkinformationen umzugehen. Während grosse Sprachmodelle Textinhalte gut verarbeiten können, ist es eine Herausforderung, Modelle für soziale Netzwerke zu erstellen, die effizient arbeiten.
In diesem Zusammenhang stellen wir einen neuen Ansatz vor, um soziale Netzwerkdaten zu verarbeiten, um Nutzer effektiver zu identifizieren. Unser Ansatz verbindet lokale Interaktionen aus sozialen Netzwerken mit den Stärken grosser Sprachmodelle. Wir basieren unser Modell auf der Idee der sozialen Netzwerk-Homophilie, was bedeutet, dass Menschen, die in einem sozialen Netzwerk verbunden sind, tendenziell Gemeinsamkeiten haben. Wir haben unsere Methode an sieben verschiedenen realen sozialen Medien-Datensätzen getestet, die eine Vielzahl von Themen und Aufgaben abdecken, und zeigen damit, dass sie die Forschung zum Verständnis sozialen Verhaltens verbessern kann.
Der Aufstieg von sozialen Medien in den letzten Jahren bietet Forschern eine grossartige Gelegenheit, menschliches Verhalten basierend auf realen Daten zu untersuchen. Durch die Verwendung von sozialen Netzwerkdaten können Forscher nachverfolgen, wie sich Meinungen ändern, wie Gesundheitstrends verbreitet werden, wie politische Gräben wachsen und sogar, wie Fehlinformationen sich ausbreiten. Die Daten sozialer Netzwerke bestehen aus zwei Hauptteilen: dem Inhalt, den Menschen teilen, und dem Netzwerk, wer mit wem interagiert, wann und wie oft. Dank der Fortschritte in grossen Sprachmodellen ist das Verwalten des Textteils sozialer Netzwerkdaten einfacher geworden. Allerdings erfordert der effektive Umgang mit dem Netzwerkteil nach wie vor spezialisierte Methoden, die oft Probleme haben, wenn sie mit grossen Datenmengen konfrontiert werden.
Um dieses Problem zu lösen, schlagen wir einen praktischen Ansatz vor, um grosse soziale Netzwerkdaten zu modellieren, indem wir uns auf lokale Interaktionen konzentrieren. Unsere Methode beruht auf der Idee der sozialen Netzwerk-Homophilie. Dieses Konzept legt nahe, dass Nutzer, die in einem Netzwerk verbunden sind, wahrscheinlich Ähnlichkeiten teilen. Genauer gesagt nutzen wir grosse Sprachmodelle, um die Profilbeschreibungen der Nutzer zu analysieren, die Einblicke in ihre Interessen und Identitäten geben können. Unser vorgeschlagenes Modell, genannt Social-LLM, basiert auf einem früheren Modell, das darauf ausgelegt war, politische Neigungen basierend auf Retweets und Benutzerprofilinformationen zu erkennen. Wir erweitern dieses Modell, damit es mit allen Arten von sozialen Netzwerkinteraktionen funktioniert, und machen es somit geeignet für verschiedene Anwendungen, einschliesslich der Identifizierung politischer Polarisierung, Online-Hassrede und Kontosperrungen.
Zusammenfassend sind hier die wichtigsten Punkte unserer Beiträge:
- Wir präsentieren Social-LLM, ein flexibles Modell, das Nutzerinhalte mit Informationen aus sozialen Netzwerken kombiniert, um Nutzer zu erkennen.
 - Wir bewerten Social-LLM an sieben realen sozialen Medien-Datensätzen und zeigen seine Effektivität in verschiedenen Themen und Aufgaben.
 - Wir heben hervor, wie die Social-LLM-Embeddings für Visualisierungen verwendet werden können.
 
Verwandte Arbeiten
Die Erkennung von Nutzern in sozialen Netzwerken ist für viele Forschungsbereiche wichtig, einschliesslich der Identifikation politischer Vorurteile, der Erkennung gefälschter Konten, der Kennzeichnung schädlichen Verhaltens, der Anerkennung einflussreicher Nutzer und der Bewertung der Anfälligkeit für Fehlinformationen. Viele Methoden zur Nutzererkennung untersuchen Merkmale sozialer Netzwerke, konzentrieren sich jedoch nur auf einfache Statistiken, wie zentral ein Nutzer im Netzwerk ist, anstatt auf die komplexen Beziehungen zwischen Nutzern.
Der Zugang zu sozialen Netzwerkdaten kann aufgrund von Datenschutzbedenken und technischen Einschränkungen herausfordernd sein. Auch wenn wir nicht kontrollieren können, wie leicht diese Daten beschafft werden können, können wir verbessern, wie wir sie modellieren. Methoden wie Graph-Repräsentationslernen können wichtige Informationen aus sozialen Netzwerken erfassen, erfordern jedoch oft viel Rechenleistung und Ressourcen. Die riesige Grösse der sozialen Netzwerkdaten kann das, was viele Geräte verarbeiten können, überschreiten, was es schwierig macht, diese Methoden effektiv anzuwenden.
In unserem Ansatz behalten wir die sozialen Netzwerkdaten, vereinfachen jedoch unser Modell, indem wir nur erste Beziehungen betrachten – im Wesentlichen sehen wir uns nur die Verbindungen zwischen Nutzern direkt an. Wir zeigen, dass dieser Ansatz für die Nutzererkennung in sozialen Medien ausreichend sein kann, ohne auf komplexere und ressourcenintensive Methoden zurückgreifen zu müssen.
Social-LLM nutzt Daten aus Nutzerinteraktionen sowie Benutzerprofilinformationen. Dieses Modell unterscheidet sich von ähnlichen Methoden wie TIMME und GEM, die ebenfalls soziale Netzwerkdaten verwenden, aber nicht mit neuen Nutzern umgehen können, die nicht Teil des ursprünglichen Trainingssatzes waren. Im Gegensatz dazu kann Social-LLM auf Nutzer angewendet werden, die wir noch nicht gesehen haben, solange wir ihre Inhaltsinformationen haben.
Inhalt und Netzwerk-Hinweise
In unserem Modell verwenden wir zwei Haupttypen von Informationen: Inhalts-Hinweise und Netzwerk-Hinweise.
Inhalts-Hinweise
Inhalts-Hinweise stammen von dem, was Nutzer in sozialen Medien teilen, hauptsächlich ihren Profilbeschreibungen. Diese Profile sind wie kurze Biografien, in denen Nutzer wesentliche Informationen über sich selbst teilen. Diese Beschreibungen enthalten oft wichtige persönliche Details, wie Interessen, Rollen und Überzeugungen. Da sie auf 160 Zeichen beschränkt sind, sind Nutzer dazu geneigt, prägnant zu sein und Schlüsselinfos über sich hervorzuheben. Twitter-Profile zu studieren, anstatt alle ihre Tweets, macht das Problem einfacher zu handhaben und reduziert den Bedarf an umfangreicher Datensammlung. Neben Profilbeschreibungen schauen wir möglicherweise auch auf andere Metadaten, wie Follower-Zahlen und Erstellungsdaten der Konten.
Netzwerk-Hinweise
Soziale Medien-Plattformen bieten viele Möglichkeiten für Nutzer, miteinander zu interagieren, wie durch Follow, Likes oder das Teilen von Posts. Diese Interaktionen bilden ein Netzwerk. Bei Twitter können wir verschiedene Arten von Interaktionen sammeln, einschliesslich Retweets (das Teilen eines Tweets eines anderen Nutzers) und Erwähnungen (das Referenzieren eines anderen Nutzers in einem Tweet). Während es wichtig ist, jemandem zu folgen, ist es aufgrund von API-Beschränkungen oft nicht in der Forschung relevant. Daher konzentrieren wir uns in unserer Arbeit auf Retweets und Erwähnungen. Retweeten bedeutet meistens Unterstützung für den ursprünglichen Inhalt, während das Erwähnen zur Kritik oder zum Engagement genutzt werden kann.
Social-LLM-Framework
Wir trainieren unser Modell, Social-LLM, um Nutzer-Repräsentationen zu lernen, die ähnliche Nutzer anhand ihrer Interaktionen gruppieren. Sobald es trainiert ist, können wir dieses Modell nutzen, um den Inhalt eines beliebigen Nutzers zu analysieren und ihre Nutzer-Embeddings zu erhalten, die sie auf sinnvolle Weise repräsentieren, die für verschiedene Aufgaben verwendet werden kann.
Modul zur Nutzerrepräsentation
Das Modul zur Nutzerrepräsentation nimmt ein vortrainiertes grosses Sprachmodell und wendet es auf die Profilbeschreibungen der Nutzer an. Dieses Modell kann feinjustiert werden, um die Leistung zu verbessern. Wenn zusätzliche Nutzermetadaten oder Tweet-Embeddings verfügbar sind, werden diese durch mehrere Schichten verarbeitet, bevor sie zu einer einzigen Repräsentation für jeden Nutzer kombiniert werden.
Unsupervised Training
Wir verwenden eine Siamese-Architektur ähnlich wie Sentence-BERT für das Training. In diesem Setup geben wir Paare von Nutzern ein, die durch soziale Interaktionen verbunden sind. Unser Ziel ist es, die Repräsentationen verbundener Nutzer so ähnlich wie möglich zu machen. Um dies zu erreichen, optimieren wir die Kosinus-Ähnlichkeit ihrer Embeddings. Wir betrachten mehrere Arten von Verbindungen – wie Retweets und Erwähnungen – und berücksichtigen auch die Richtung, da Retweeten von Nutzer A zu Nutzer B nicht dasselbe ist wie umgekehrt.
Multiple Negatives Ranking Loss
Um das Modell zu trainieren, verwenden wir eine Ranking-Verlustfunktion, die positive Beispiele (verbundene Nutzer) mit negativen Beispielen (nicht verbundene Nutzer) vergleicht. Alle Nutzerpaare, die im Netzwerk verbunden sind, werden als positiv betrachtet, während alle nicht verbundenen Paare als negativ dienen. Wir verwenden eine Technik namens Multiple Negatives Loss, um das Training zu beschleunigen, wobei Verbindungen im selben Batch als negativ betrachtet werden. Dies hilft dem Modell, besser zu lernen, da es Verbindungen ermutigt, ähnliche Repräsentationen zu haben.
Anwendung auf nachgelagerte Aufgaben
Sobald trainiert, produziert Social-LLM nützliche Nutzerrepräsentationen, die auf verschiedene Nutzervorhersageaufgaben angewendet werden können. Wir können das Modell weiter feinjustieren oder spezifische Schichten für verschiedene Aufgaben hinzufügen, was eine Vielseitigkeit in der Anwendung ermöglicht.
Vorteile und Nachteile
Social-LLM baut auf früheren Methoden zur Nutzererkennung auf, indem es Elemente sozialer Netzwerke hinzufügt. Es gibt bemerkenswerte Vorteile:
- Einfache Schulung: Der Trainingsprozess ist schnell und kann grosse Datensätze effizient verarbeiten, da wir uns nur auf Kanten konzentrieren und nicht das gesamte Netzwerk trainieren müssen.
 - Induktive Fähigkeiten: Social-LLM kann Repräsentationen für neue Nutzer produzieren, die sich ausschliesslich auf ihre Inhalte stützen, ohne eine zusätzliche Schulung zu benötigen.
 - Wiederverwendbarkeit: Das Modell kann für verschiedene Anwendungen wiederverwendet werden und behält die gelernten Embeddings über verschiedene Aufgaben hinweg.
 
Obwohl vorteilhaft, hat Social-LLM auch einige Nachteile. Indem wir uns auf erste Verbindungen konzentrieren, könnten wir nützliche Informationen aus grösseren Netzwerkstrukturen verpassen. In vielen Aufgaben zur Nutzererkennung kann jedoch die Verwendung nur lokalisierter Verbindungen dennoch die Leistung verbessern im Vergleich zu Modellen, die soziale Netzwerke ganz ignorieren.
Überblick über die Datensätze
Um unseren Ansatz zu validieren, haben wir mehrere Datensätze verwendet. Die ersten beiden wurden bereits in einem anderen Modell verwendet, das sich auf politische Neigungen konzentrierte, mit Profilen und Retweet-Informationen, um die politischen Zugehörigkeiten der Nutzer vorherzusagen. Wir führen zusätzliche Datensätze mit unterschiedlichen Nutzermetadaten und Netzwerkmerkmalen ein, die eine Reihe von Labels und Vorhersagemethoden zeigen, um die Robustheit unseres Ansatzes hervorzuheben.
COVID-Politik
Die COVID-19-Pandemie hat die globalen Gespräche online drastisch beeinflusst. Forschungen zeigen, dass die Politizierung rund um die Pandemie die Diskussionen beeinflusste. Unser Datensatz umfasst Tweets von Januar bis Juli 2020 und beinhaltet die Vorhersage der politischen Zugehörigkeiten der Nutzer. Wir haben Daten von rund 78.672 gekennzeichneten Nutzern mit 180.928 Retweet-Interaktionen, wobei ein erheblicher Teil linksorientiert ist.
US-Präsidentschaftswahl 2020
Dieser Datensatz umfasst Tweets zur US-Präsidentschaftswahl 2020 und ermöglicht ähnliche politische Vorhersagen. Er enthält rund 2,8 Millionen Retweet-Interaktionen und eine gleichmässige Verteilung von rechts- und linksgerichteten Nutzern.
COVID-Moral
Wir erweiterten unsere Forschung zu COVID-19 um moralische Werte und sammelten Daten von Februar 2020 bis Oktober 2021. Unsere Aufgabe besteht darin, die moralischen Grundlagen der Nutzer vorherzusagen. Der Datensatz enthält Nutzermetadaten und Interaktionen basierend auf Retweets und Erwähnungen.
Ukraine-Russland gesperrte Konten
Während des Ukraine-Russland-Kriegs verbreitete sich Fehlinformationen weit verbreitet in sozialen Medien. Dieser Datensatz sammelte Tweets im März 2022 und versucht vorherzusagen, ob Nutzer basierend auf ihrer Aktivität von Twitter gesperrt wurden.
Ukraine-Russland Hass
Aufbauend auf dem vorherigen Datensatz konzentriert sich dieser auf die Erkennung von Nutzer-Toxizitätsniveaus während des Konflikts. Wir analysieren Tweets nach Toxizität mithilfe einer etablierten API und liefern Einblicke in das Verhalten der Nutzer.
Einwanderungs-Hass
Dieser Datensatz konzentriert sich auf Hassrede in Bezug auf Einwanderung und verwendet historische Tweets von bestimmten Nutzern, die dafür bekannt sind, intolerante Kommentare abzugeben. Wir haben zusätzliche Tweets gesammelt, um diesen Datensatz zu erweitern und die Toxizität ähnlich wie in den vorherigen Datensätzen untersucht.
Experimentelle Einrichtung
Wir führen eine Reihe von Experimenten durch, um unsere Methode mit mehreren Baseline-Ansätzen zu vergleichen und die Leistung der Nutzererkennung zu evaluieren. Wir verwenden ein konsistentes Trainings- und Testverfahren über alle Datensätze hinweg. Die Aufgaben werden mit spezifischen Metriken bewertet, um eine gründliche Bewertung der Fähigkeiten von Social-LLM sicherzustellen.
Baseline-Methoden
Um einen fairen Vergleich zu ermöglichen, verwenden wir moderne Baseline-Methoden, die in drei Kategorien unterteilt sind: inhaltsbasiert, netzwerkbasiert und hybrid. Jede bietet eine Alternative zu Nutzer-Embeddings für die Bewertung.
Inhaltsbasierte Methoden
Für inhaltsbasierte Methoden untersuchen wir hauptsächlich Embeddings von grossen, vortrainierten Sprachmodellen. Obwohl wir diese Modelle auch für spezifische Aufgaben feinjustieren, zeigen erste Tests, dass die Basisleistung für unsere Bedürfnisse ausreicht.
Netzwerkbasierte Methoden
Wir integrieren zwei netzwerkbasierte Methoden, node2vec und ProNE, zur Bewertung. Diese Methoden ermöglichen die Untersuchung von Nutzerbeziehungen basierend ausschliesslich auf ihren Interaktionen und bieten Einblicke in den Nutzen von Netzwerkmerkmalen.
Hybride Methode
TIMME dient als unser hybrider Methodbaseline. Ursprünglich für die Nutzerklassifizierung entwickelt, modifizieren wir es, um Regressionsaufgaben zu übernehmen, sodass wir seine Leistung neben unserem eigenen Modell bewerten können.
Ergebnisse
Unsere Experimente zeigen die Effektivität von Social-LLM über verschiedene Datensätze hinweg im Vergleich zu diesen Baseline-Modellen. Wir analysieren die Ergebnisse und ziehen Schlussfolgerungen über die leistungsstärksten Strategien innerhalb jeder Methodenfamilie.
Experiment 1: Auswahl der LLMs
Wir beginnen mit Experimenten unterschiedlicher grosser Sprachmodelle, um die bestperformende Option für unsere Aufgaben zu identifizieren. Unsere Ergebnisse zeigen, dass ein bestimmtes Modell in allen Datensätzen konstant besser abschneidet als die anderen.
Experiment 2: Hauptexperimente
In unseren Hauptexperimenten vergleichen wir Social-LLM mit den besten Baseline-Methoden. Die Ergebnisse zeigen, dass unser Modell in der Regel bessere Ergebnisse in verschiedenen Aufgaben erzielt und damit seine Zuverlässigkeit und Effektivität demonstriert.
Experiment 3: Abtragung von Kantenarten
Wir untersuchen, wie sich die Verwendung unterschiedlicher Kantenarten – Retweets und Erwähnungen – auf die Leistung auswirkt. Unsere Ergebnisse deuten darauf hin, dass die Verwendung beider Arten vorteilhaft sein kann, manchmal jedoch eine Behandlung als eine einzelne Kantenart zu besseren Ergebnissen führt.
Experiment 4: Kanten-Gewichte und -Richtungen
Wir bewerten die Auswirkungen von Gewichten und Richtung auf unsere Kantenarten. Die Ergebnisse zeigen, dass die Einbeziehung der Richtung die Leistung verbessert und die Bedeutung des Verständnisses des Interaktionsflusses zwischen Nutzern hervorhebt.
Experiment 5: Nutzer-Tweet-Embeddings
Für den Ukraine-Russland-gesperrte Konten-Datensatz untersuchen wir, wie die Integration von Nutzer-Tweet-Embeddings die Leistung beeinflusst. Unsere Ergebnisse deuten darauf hin, dass die Einbeziehung dieser Informationen zu einer Verbesserung führen kann.
Experiment 6: Sensitivität gegenüber der Dimensionalität
Schliesslich analysieren wir, wie die Grösse der Embedding-Dimensionen die Leistung beeinflusst. Unsere Beobachtungen zeigen, dass grössere Dimensionen normalerweise bessere Ergebnisse liefern, während niedrigere Dimensionen dennoch zufriedenstellende Ergebnisse liefern.
Visualisierung der Social-LLM-Embeddings
Wir heben auch den Nutzen der Social-LLM-Embeddings zur Visualisierung von Dynamiken sozialer Netzwerke hervor. Mithilfe von Techniken wie TSNE können wir Beziehungen und Unterschiede zwischen Nutzern visuell darstellen, was wertvolle Einblicke in die zugrunde liegenden Strukturen sozialer Netzwerke bietet.
Fazit
In dieser Arbeit präsentierten wir Social-LLM als skalierbare und effektive Methode zur Modellierung sozialer Netzwerkdaten. Durch die Kombination von Nutzerinformationsinhalten aus Profilen mit Interaktionsdaten aus sozialen Netzwerken konnten wir ein leistungsstarkes Werkzeug zur Nutzererkennung und -analyse schaffen. Die Bewertung unseres Modells über verschiedene Datensätze hinweg zeigte seine Vorteile gegenüber traditionellen Methoden, die ausschliesslich auf Inhalts- oder Netzwerkmerkmalen basieren. Besonders hervorzuheben ist, dass Social-LLM, einmal trainiert, auf viele Aufgaben mit neuen Nutzern anwendbar ist, was seine Effizienz und breite Anwendbarkeit zeigt.
Durch die Fokussierung auf die erste Nähe und die effektive Nutzung von Retweet- und Erwähnungsdaten hat sich unser Ansatz als robust und anpassungsfähig für die Analyse sozialer Medien im realen Leben erwiesen. Wir haben auch gezeigt, dass die Integration von Nutzer-Tweet-Embeddings die Leistung verbessern kann. Insgesamt bietet Social-LLM einen wertvollen Rahmen zur Untersuchung des Nutzerverhaltens in sozialen Netzwerken und ebnet den Weg für zukünftige Forschungen in der computergestützten Sozialwissenschaft.
Titel: Social-LLM: Modeling User Behavior at Scale using Language Models and Social Network Data
Zusammenfassung: The proliferation of social network data has unlocked unprecedented opportunities for extensive, data-driven exploration of human behavior. The structural intricacies of social networks offer insights into various computational social science issues, particularly concerning social influence and information diffusion. However, modeling large-scale social network data comes with computational challenges. Though large language models make it easier than ever to model textual content, any advanced network representation methods struggle with scalability and efficient deployment to out-of-sample users. In response, we introduce a novel approach tailored for modeling social network data in user detection tasks. This innovative method integrates localized social network interactions with the capabilities of large language models. Operating under the premise of social network homophily, which posits that socially connected users share similarities, our approach is designed to address these challenges. We conduct a thorough evaluation of our method across seven real-world social network datasets, spanning a diverse range of topics and detection tasks, showcasing its applicability to advance research in computational social science.
Autoren: Julie Jiang, Emilio Ferrara
Letzte Aktualisierung: 2023-12-31 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2401.00893
Quell-PDF: https://arxiv.org/pdf/2401.00893
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.