Erkennen von Verschwörungstheorien in Online-Nachrichten
Eine Studie über automatisierte Methoden zur Identifizierung von Verschwörungstheorien, mit Fokus auf Telegram.
― 6 min Lesedauer
Inhaltsverzeichnis
Verschwörungstheorien sind zu einem grossen Problem in den Online-Diskussionen geworden. Sie können das Vertrauen in wichtige Institutionen schädigen und Verwirrung darüber stiften, was echt ist. Angesichts dieses Problems haben wir uns darauf konzentriert, Wege zu finden, um diese Verschwörungstheorien automatisch zu erkennen, und zwar im Rahmen eines Wettbewerbs. Mit fortschrittlichen Satzmodellen und Methoden zur Erweiterung unserer Daten konnten wir tolle Ergebnisse im Wettbewerb erzielen und unseren Ansatz zu diesem drängenden Thema präsentieren.
Das Problem mit Verschwörungstheorien
Verschwörungstheorien stellen unser Verständnis von Realität in Frage und können zur Verbreitung falscher Informationen führen. Sie ersetzen oft vertrauenswürdige Fakten durch unbeweisbare Behauptungen. Dieser Fokuswechsel kann dazu führen, dass Leute persönliche Überzeugungen über nachgewiesene Informationen priorisieren. Einige Experten definieren Verschwörungstheorien als Situationen, in denen Leute glauben, dass es einen geheimen Plan hinter Ereignissen gibt, die viel wahrscheinlicher zufällig sind.
Mit dem Aufstieg des Internets verbreiten sich falsche Informationen schnell, was viele als „goldenes Zeitalter“ der Verschwörungstheorien bezeichnen. Diese Theorien können ernste Konsequenzen haben. Zum Beispiel wurden während der gewalttätigen Ereignisse am US-Kapitol am 6. Januar 2021 viele Menschen von Verschwörungstheorien über Wahlbetrug beeinflusst. Ausserdem können diese Überzeugungen von Gruppen oder Politikern manipuliert werden, um die öffentliche Meinung zu beeinflussen oder bestimmte Handlungen zu provozieren, was zu gefährlichen Ergebnissen führt.
Umgang mit Verschwörungstheorien
Angesichts der Ernsthaftigkeit des Problems haben Forscher nach automatisierten Methoden gesucht, um Verschwörungstheorien auf verschiedenen Plattformen zu identifizieren und zu verwalten. Konkret hat eine aktuelle Initiative darauf abgezielt, verschwörerische Inhalte in italienischsprachigen Nachrichten auf Telegram zu erkennen. Dieses Vorhaben soll den Leuten helfen, kritisch zu denken und auf zuverlässige Informationen zuzugreifen, um den Einfluss von Verschwörungstheorien zu reduzieren.
Unser Beitrag zu dieser Initiative bestand darin, spezifische Sprachmodelle zu verwenden, die auf italienischem Text vortrainiert wurden. Indem wir unsere Trainingsdaten ausgewogener gemacht haben, schufen wir eine solide Grundlage für unser Modell. Das erlaubte uns, eine hohe Genauigkeit beim Identifizieren und Kategorisieren von Verschwörungstheorien zu erreichen.
Verwandte Arbeiten
Viele Online-Plattformen haben Massnahmen gegen Gemeinschaften ergriffen, die schädliche Inhalte verbreiten. Zum Beispiel hat Reddit tausende von Gemeinschaften, die mit Hassrede in Verbindung stehen, verboten, während Facebook zahlreiche Seiten entfernt hat, die mit Verschwörungstheorien wie QAnon zu tun haben. Allerdings, obwohl diese Massnahmen effektiv erscheinen, drücken sie die Nutzer oft auf alternative Plattformen, wo schädliche Inhalte noch mehr gedeihen können.
Das Verständnis der Verbreitung von Verschwörungstheorien ist entscheidend für die Verbesserung der Moderationsrichtlinien. Zum Beispiel zirkulierten während des Zika-Virus-Ausbruchs 2016 weit verbreitet falsche Informationen, die Schaden anrichteten. Die COVID-19-Pandemie zeigte einen ähnlichen Trend, wobei Verschwörungstheorien über das Virus, Impfstoffe und andere verwandte Themen online sprunghaft anstiegen.
Frühere Projekte haben versucht, Verschwörungstheorien in sozialen Medien zu bekämpfen, indem sie verschiedene Methoden zur Erkennung einsetzten. Einige Forscher verwendeten maschinelle Lerntechniken, um Nachrichten im Zusammenhang mit Verschwörungstheorien zu klassifizieren, während andere sich auf die Struktur konzentrierten, wie Informationen auf Plattformen verbreitet werden.
Aufgabenbeschreibung
Im Wettbewerb standen die Teilnehmer vor zwei Hauptaufgaben. Die erste Aufgabe bestand darin, zu identifizieren, ob Nachrichten verschwörerisch waren oder nicht. Die zweite Aufgabe bestand darin, Nachrichten in spezifische Themen im Zusammenhang mit Verschwörungstheorien zu klassifizieren, wie Covid, QAnon, Flache Erde und russische Verschwörungen.
Zur Bewertung der Leistung in diesen Aufgaben wurde ein Punktesystem auf Basis des F1-Scores verwendet. Während des Wettbewerbs wurde den Teilnehmern ein Teil der Testdaten für Echtzeit-Feedback zur Verfügung gestellt, während die endgültige Evaluierung später stattfand, was eine gründlichere Bewertung der Modellleistung ermöglichte.
Satztransformator und Datenaugmentation
Für unseren Ansatz konzentrierten wir uns auf ein italienisches Satzmodell zur Klassifizierung von Nachrichten. Mit einer Methode namens SetFit optimierten wir unser Modell für eine bessere Leistung. Eine grosse Herausforderung war das Ungleichgewicht in den Trainingsdaten, da einige Verschwörungstypen mehr Beispiele hatten als andere. Um das anzugehen, schufen wir Variationen unserer Trainingsdaten durch eine Datenaugmentationsschritt.
Durch den Einsatz von Sprachmodellen, um bestehende Nachrichten umzuformulieren, generierten wir zusätzliche Trainingsbeispiele. Wir nutzten Modelle, die dafür bekannt sind, vielfältige Texte zu erzeugen, und sorgten dafür, dass unser erweitertes Datenset reichhaltig und abwechslungsreich war.
Trainingsprozess
Die Satzmodelle, die wir verwendeten, haben einzigartige Strukturen, die es ihnen ermöglichen, aus Beispielen effektiv zu lernen. In unseren Experimenten betrachteten wir mehrere verschiedene vortrainierte Modelle, um die beste Option für unsere Aufgaben zu finden. Der Trainingsprozess beinhaltete die Erstellung von Paaren ähnlicher und unterschiedlicher Nachrichten, um dem Modell zu helfen, die Unterschiede zwischen verschwörerischem und nicht-verschwörerischem Inhalt zu verstehen.
Neben dem Training verschiedener Modelle untersuchten wir verschiedene Einstellungen, um die Leistung zu optimieren. Durch die Anpassung von Faktoren wie der Anzahl der Trainingszyklen und der Lernraten versuchten wir, die Genauigkeit unseres Modells zu verbessern.
Ergebnisse
Unser bestes Modell erzielte in beiden Aufgaben des Wettbewerbs erstklassige Ergebnisse. Für die binäre Klassifizierungsaufgabe erreichten wir eine Punktzahl von 85,71%, während wir bei der detaillierteren Themenklassifizierung eine Punktzahl von 91,23% erzielten. Diese Punktzahlen heben die Effektivität unseres Ansatzes hervor, insbesondere die Kombination aus vortrainierten Sprachmodellen und Techniken zur Datenaugmentation.
Bedeutung der Datenaugmentation
Nach dem Wettbewerb haben wir untersucht, wie sich die Datenaugmentation auf unsere Ergebnisse ausgewirkt hat. Indem wir unsere Modelle unter verschiedenen Szenarien trainierten – nur mit den Originaldaten und mit dem erweiterten Datensatz – konnten wir die Vorteile sehen, die das Hinzufügen vielfältigerer Trainingsbeispiele mit sich brachte.
Im Fall der binären Klassifizierungsaufgabe verbesserte die augmentierte Daten unser Ergebnis erheblich. Allerdings bemerkten wir bei der detaillierteren Themenklassifizierung einige Inkonsistenzen zwischen der Leistung bei den ersten Bewertungen und den finalen. Das deutet darauf hin, dass die Qualität der Daten und der für die Augmentation generierten Phrasen eine entscheidende Rolle für die Effektivität des Modells spielt.
Fazit
Unsere Arbeit konzentrierte sich auf die automatische Erkennung von Verschwörungstheorien in Nachrichten, insbesondere auf Telegram. Durch den Einsatz fortschrittlicher Sprachmodelle und Techniken zur Datenaugmentation entwickelten wir robuste Klassifizierer, die im Wettbewerb führende Leistungen erzielten.
Die Ergebnisse unserer Studie unterstreichen die Wirksamkeit der Verwendung vortrainierter Modelle und der Verbesserung von Trainingsdaten beim Umgang mit den Herausforderungen, die von Verschwörungstheorien online ausgehen. Während sich Fehlinformationen weiter verbreiten, wird es immer wichtiger, zuverlässige Methoden zur Erkennung zu entwickeln, um einen informierteren öffentlichen Diskurs zu fördern.
Titel: UPB @ ACTI: Detecting Conspiracies using fine tuned Sentence Transformers
Zusammenfassung: Conspiracy theories have become a prominent and concerning aspect of online discourse, posing challenges to information integrity and societal trust. As such, we address conspiracy theory detection as proposed by the ACTI @ EVALITA 2023 shared task. The combination of pre-trained sentence Transformer models and data augmentation techniques enabled us to secure first place in the final leaderboard of both sub-tasks. Our methodology attained F1 scores of 85.71% in the binary classification and 91.23% for the fine-grained conspiracy topic classification, surpassing other competing systems.
Autoren: Andrei Paraschiv, Mihai Dascalu
Letzte Aktualisierung: 2023-09-28 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2309.16275
Quell-PDF: https://arxiv.org/pdf/2309.16275
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.