Mapping der russischen Troll-Aktivitäten auf Twitter
Diese Studie nutzt KI, um russische Troll-Accounts in sozialen Medien zu identifizieren.
Sachith Dassanayaka, Ori Swed, Dimitri Volchenkov
― 7 min Lesedauer
Inhaltsverzeichnis
Russische Internet-Trolle nutzen Fake-Accounts, um falsche Informationen in sozialen Medien, besonders auf Twitter, zu verbreiten. Diese Aktivität hat zugenommen, und es ist wichtig zu verstehen, wie diese Trolle arbeiten, um ihre Auswirkungen zu verringern. Dieses Projekt baut auf früheren Studien auf, die untersuchen, wie Einflussnetzwerke online funktionieren. Wir präsentieren eine neue Möglichkeit, diese Operationen zu betrachten, indem wir ein prädiktives Modell erstellen, das die Aktionen dieser Trolle abbildet.
Zweck der Studie
Indem wir Twitter-Beiträge von russischen Trollen nutzen, haben wir ein Modell entwickelt, das die Arten von Accounts anhand ihres Verhaltens vorhersagt. Wir haben die Accounts klassifiziert, indem wir ihre Authentizität betrachtet und sie in Typen kategorisiert haben. Unser Modell erreichte bei Tests eine Genauigkeit von 88%. Wir haben unser Modell validiert, indem wir es mit einem grossen Datensatz von russischen Troll-Tweets verglichen haben, der 3 Millionen Einträge umfasst. Die Ergebnisse zeigten eine Ähnlichkeit von 90,7% zwischen den beiden Datensätzen. Wir haben auch die Vorhersagen unseres Modells mit tatsächlichen Daten verglichen und einen Übereinstimmungswert von 90,5% gefunden. Diese Erkenntnisse deuten darauf hin, dass unser Modell helfen kann, die Akteure in diesen Netzwerken zu kartieren.
Internet-Troll-Netzwerke
Internet-Troll-Netzwerke sind Gruppen, die falsche Informationen in sozialen Medien über Fake-Accounts verbreiten. Das stellt eine erhebliche Bedrohung für offene Diskussionen und die Demokratie dar. Russland ist ein wichtiger Akteur in diesem Bereich und setzt Trolle auf verschiedenen Plattformen und in verschiedenen Ländern ein. Das russische Internet-Troll-Netzwerk ist komplex und zersplittert. Die Internet Research Agency (IRA) ist eine bemerkenswerte Gruppe, die mit dem Kreml in Verbindung gebracht wird. Diese Agentur war an dem Versuch beteiligt, politische Ereignisse zu beeinflussen, wie z.B. die Präsidentschaftswahlen in den USA 2016.
Während der Kampagne gaben sich IRA-Accounts als echte Nutzer aus ländlichen Regionen Amerikas aus, was es den Leuten erschwerte, sie als Trolle zu identifizieren. Die Herausforderung liegt darin, Fake-Accounts von echten Nutzern zu unterscheiden. Da das russische Troll-Netzwerk geheim ist, bleibt es ein grosses Problem, diese Akteure anhand ihrer Aktionen zu erkennen. Forscher haben Schwierigkeiten, diese Fake-Accounts zu identifizieren, was die Bemühungen zur Bekämpfung ihrer Aktivitäten kompliziert. Um dieses Problem anzugehen, nutzt unsere Studie künstliche Intelligenz, um Troll-Aktivitäten in sozialen Medien zu kartieren.
Die Herausforderung, Trolle zu identifizieren
Eine grosse Herausforderung für Forscher ist die unklare Natur dieser Netzwerke. Die Fake-Accounts haben eine überzeugende Online-Präsenz, was es schwierig macht, die echten Personen dahinter zu finden. Echte Nutzer von Fake-Personas zu unterscheiden, ist nicht einfach. Um dieses Problem zu lösen, konzentrieren wir uns darauf, bekannte Troll-Netzwerke zu untersuchen. Wir schlagen ein Machine-Learning-Modell vor, um ihre Operationen zu kartieren und die verschiedenen Typen von Akteuren zu klassifizieren.
Unser prädiktives Modell konzentriert sich auf die verschiedenen Arten von Trollen im russischen Netzwerk und wie sie agieren. Wir bauen auf früheren Forschungen auf, die verschiedene Rollen innerhalb dieser Online-Gruppen identifiziert haben. Durch die Kategorisierung der Akteure anhand ihrer Aktionen wollen wir Einblicke in die Funktionsweise dieser Netzwerke geben.
Datensammlung
Wir haben eine Sammlung von Tweets der IRA verwendet, die von Forschern mit dieser Gruppe in Verbindung gebracht wurden. Wir haben Daten von renommierten Organisationen bezogen, die sich auf die Überwachung von Einflusskampagnen in sozialen Medien konzentrieren. Unser Hauptziel war es, die Authentizität der Accounts zu analysieren und sie basierend auf ihrem Verhalten in verschiedene Typen zu klassifizieren.
Wir haben vier Hauptkategorien identifiziert:
- Fake News: Accounts, die sich als Nachrichtenquellen präsentieren, egal ob staatlich oder privat. Diese Accounts täuschen oft ihre Follower, indem sie behaupten, legitime Nachrichten zu liefern.
- Organisationen: Accounts, die wie gemeinnützige Gruppen oder Unternehmen aussehen, aber tatsächlich Deckmäntel für Trolle sind.
- Politische Verbündete: Accounts, die eindeutig politischer Natur sind oder anscheinend offen eine politische Agenda unterstützen.
- Einzelpersonen: Accounts, die wie normale Leute agieren, die keine starke politische Verbindung haben, aber Botschaften im Zusammenhang mit dem Troll-Netzwerk verbreiten.
Als Nächstes haben wir unser Modell trainiert, um diese Kategorien anhand verschiedener Indikatoren wie der Anzahl von Tweets und Followern zu erkennen.
Verständnis des Datensatzes
Der Datensatz, mit dem wir gearbeitet haben, umfasste eine breite Palette von Tweets, insgesamt rund neun Millionen Einträge in vielen verschiedenen Sprachen. Für unsere Forschung konzentrierten wir uns auf Tweets in Englisch und Russisch. Wir identifizierten über zweitausend einzigartige Accounts, die Teil des IRA-Netzwerks waren. Ein erheblicher Teil dieser Accounts hatte aus Datenschutzgründen versteckte Informationen, was eine Herausforderung darstellte. Wir entwickelten jedoch eine Methode, um diese versteckten Accounts zu kategorisieren, indem wir die Muster ihres Verhaltens analysierten.
Verwendung von Hashtags zur Kategorisierung
Um die Accounts ohne Beschreibungen zu kategorisieren, haben wir auf Hashtags zurückgegriffen. Durch die Untersuchung der Hashtags, die von kategorisierten Accounts verwendet wurden, konnten wir sie mit denen von den versteckten Accounts abgleichen. Dadurch konnten wir einen grösseren Datensatz für die Analyse erstellen und unsere Stichprobengrösse erheblich erhöhen.
Wir standen bei dieser Analyse vor zwei Hauptschwierigkeiten. Erstens war es komplex, menschliche Sprache in Bezug auf Hashtags zu verstehen und zu verarbeiten. Zweitens kann die Popularität bestimmter Hashtags im Laufe der Zeit schwanken. Durch den Einsatz von Tools für die Verarbeitung natürlicher Sprache konnten wir die Daten effektiver analysieren und ähnliche Hashtags zusammenfassen.
Erstellung des prädiktiven Modells
Nachdem wir einen grösseren Teil der Stichprobe kategorisiert hatten, gingen wir zur Auswahl relevanter Merkmale für unser Modell über. Die Merkmale, die wir identifizierten, umfassten die Anzahl von Tweets, Retweets, Followern, Likes und Antworten. Nicht alle Merkmale hatten die gleiche Bedeutung, daher verwendeten wir statistische Methoden, um herauszufinden, welche Merkmale unserem Modell helfen würden, besser abzuschneiden.
Wir wählten den Random Forest Classifier als unsere Hauptmethode zur Vorhersage. Diese Technik ist gut darin, unausgewogene Daten zu behandeln, was wichtig ist, da einige Kategorien mehr Muster enthalten als andere. Mit diesem Modell berechneten wir die Genauigkeit unserer Vorhersagen und massen, wie gut das Modell die Arten von Accounts identifizieren konnte.
Modellvalidierung
Nachdem wir unser prädiktives Modell entwickelt hatten, mussten wir es mit bekannten Daten validieren, um zu sehen, wie gut es funktioniert. Wir führten eine Reihe von Tests mit verschiedenen Datensätzen durch, die Einblicke in die Genauigkeit unseres Modells bieten sollten. Unsere erste Validierung verwendete den Datensatz mit 3 Millionen russischen Troll-Tweets. Wir filterten Accounts, die als Fake News gekennzeichnet waren, heraus und verglichen sie mit den kategorisierten Accounts in unserem Modell. Das Ergebnis zeigte eine Genauigkeit von 90,7% für die Kategorie Fake News.
In einem zweiten Validierungstest untersuchten wir russischsprachige Accounts und verglichen deren Kategorisierung mit den Vorhersagen unseres Modells. Nachdem wir die Kontobeschreibungen ins Englische übersetzt hatten, klassifizierten wir diese Accounts manuell und fanden eine Übereinstimmung von 90,5% zwischen unserem Modell und der manuellen Klassifikation.
Fazit der Ergebnisse
Unsere Studie hebt die Effektivität unseres prädiktiven Modells bei der Identifizierung von Akteuren im russischen Trollnetzwerk auf Twitter hervor. Das Modell verwendet vier konzeptionelle Kategorien, die helfen, die verschiedenen Arten von Accounts basierend auf ihrem Verhalten zu klassifizieren. Der von uns verwendete IRA-Datensatz besteht aus einer riesigen Sammlung von Tweets, die uns reichlich Informationen bietet. Unsere Ergebnisse zeigen eine Genauigkeit von 88% für das prädiktive Modell, validiert durch unsere Tests an bekannten Datensätzen, die eine Ähnlichkeit von 90,7% im Vergleich zu bestehender Forschung zeigten.
Zukünftige Richtungen
In Zukunft planen wir, unsere Forschung auszuweiten, indem wir Muster in der Twitter-Aktivität analysieren, wie Tweets, Likes und Retweets. Diese Informationen werden helfen, Verbindungen zwischen Nutzern greifbarer darzustellen. Wir beabsichtigen auch, unser Modell auf anderen sozialen Medien wie Facebook und Instagram anzuwenden, um Trollverhalten in verschiedenen Netzwerken zu identifizieren.
Darüber hinaus sehen wir Potenzial darin, unser Modell zu verfeinern, um Trollen in Echtzeit zu verfolgen und echte Nutzeraktionen von denen der Trolle zu unterscheiden. Solche Fortschritte könnten uns in die Lage versetzen, ein umfassendes System zur Überwachung und Bekämpfung von Fehlinformationen in sozialen Medien zu entwickeln.
Durch diese Forschung wollen wir Licht auf die verborgenen Strukturen im IRA-Netzwerk werfen. Indem wir diese Netzwerke besser verstehen, können wir effektive Strategien entwickeln, um die Verbreitung falscher Informationen online zu bekämpfen und demokratische Diskussionen zu schützen.
Titel: Mapping the Russian Internet Troll Network on Twitter using a Predictive Model
Zusammenfassung: Russian Internet Trolls use fake personas to spread disinformation through multiple social media streams. Given the increased frequency of this threat across social media platforms, understanding those operations is paramount in combating their influence. Using Twitter content identified as part of the Russian influence network, we created a predictive model to map the network operations. We classify accounts type based on their authenticity function for a sub-sample of accounts by introducing logical categories and training a predictive model to identify similar behavior patterns across the network. Our model attains 88% prediction accuracy for the test set. Validation is done by comparing the similarities with the 3 million Russian troll tweets dataset. The result indicates a 90.7% similarity between the two datasets. Furthermore, we compare our model predictions on a Russian tweets dataset, and the results state that there is 90.5% correspondence between the predictions and the actual categories. The prediction and validation results suggest that our predictive model can assist with mapping the actors in such networks.
Autoren: Sachith Dassanayaka, Ori Swed, Dimitri Volchenkov
Letzte Aktualisierung: 2024-09-11 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2409.08305
Quell-PDF: https://arxiv.org/pdf/2409.08305
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.