Automatisierte Einblicke in 4chan: Ein neues Tool
Ein neues Tool hilft Forschern, ganz einfach Textdaten von 4chan zu sammeln.
― 5 min Lesedauer
Inhaltsverzeichnis
4chan ist eine Online-Plattform, wo Leute Bilder und Kommentare posten können. Im Laufe der Jahre hat die Seite Aufmerksamkeit gewonnen, weil sie verschiedene Arten von Inhalten teilt, von denen einige schädlich oder beleidigend sein können. Forscher haben sich die Seite angeschaut, um die Verbreitung bestimmter Ideen und Arten von Sprache, einschliesslich hassvoller oder extremistischer Ansichten, zu verstehen. Um diese Trends zu untersuchen, wurde ein neues Tool erstellt. Dieses Tool ist dafür gedacht, automatisch Textdaten von 4chan zu sammeln, was es Forschern einfacher macht, zu analysieren, was auf der Seite geteilt wird.
Was ist das 4chan Text Collection Tool?
Das 4chan Text Collection Tool (4TCT) ist ein Programm, das mit der Programmiersprache Python erstellt wurde. Es verbindet sich mit der 4chan API, einem System, das Nutzern erlaubt, Inhalte von 4chan anzufordern. Der Hauptzweck dieses Tools ist es, Textdaten von verschiedenen Boards auf der Seite zu erfassen. Dazu gehören Posts von Nutzern, die Uhrzeit des Posts und andere relevante Informationen. Dadurch können Forscher Daten sammeln, ohne manuell durch die Seite zu surfen.
Warum ist dieses Tool wichtig?
Die gesammelten Daten von 4chan können Forschern helfen, verschiedene soziale Themen zu verstehen. Zum Beispiel gab es Diskussionen über politische Bewegungen, Online-Verhalten und wie bestimmte Ideen in Communities verbreitet werden. Mit Zugang zu einer grossen Menge an Textdaten können Wissenschaftler Studien durchführen, die Licht auf diese Themen werfen. Das Ziel ist, eine Ressource bereitzustellen, die Forschern hilft, Informationen mit weniger Aufwand zu sammeln und zu analysieren.
Wie funktioniert das Tool?
4TCT arbeitet systematisch. Es checkt bestimmte Boards auf 4chan, um neue Posts zu finden. Wenn es läuft, sucht es nach Threads oder Themen, die gerade aktiv sind. Es sammelt neue Daten und hält fest, was es gesammelt hat. Die Daten werden in Dateien gespeichert, die es Forschern erleichtern, später darauf zuzugreifen. Hier ist ein Überblick, wie das Tool funktioniert:
Initialisierung: Zu Beginn können Nutzer auswählen, welche Boards überwacht werden sollen. So kann man sich auf bestimmte Interessensgebiete konzentrieren.
Überprüfung vorheriger Daten: Bevor neue Daten gesammelt werden, schaut das Tool, was es vorher gesammelt hat. So wird vermieden, doppelte Informationen zu speichern.
Daten sammeln: Das Tool fordert Daten von der API über aktive Threads an und sammelt neue Posts. Es erstellt Dateien, um diese Informationen zu speichern.
Informationen speichern: Die gesammelten Daten werden in einem bestimmten Ordner auf dem Computer des Nutzers gespeichert, organisiert nach Datum und Board. So ist es einfach für Forscher, die Informationen später zu finden.
Datenstruktur und Speicherung
Die von 4TCT gesammelten Informationen sind klar strukturiert. Wenn das Programm läuft, erstellt es Verzeichnisse, um die Daten zu halten. Jeder Lauf erzeugt zwei Arten von Protokollen, die die Aktionen des Tools verfolgen. Die Protokolle enthalten Details darüber, was das Programm gemacht hat, wie oft es ausgeführt wurde und ob es dabei auf Probleme gestossen ist.
Die Hauptdaten werden in JSON-Dateien gespeichert. Diese Dateien enthalten:
Thread-Informationen: Details über Threads auf bestimmten Boards, einschliesslich Zeitstempeln und Board-Namen.
Post-Inhalte: Jeder Post hat Informationen wie die Post-ID, die Zeit und den Text. Der Inhalt kann auch Links zu Dateien oder Bildern enthalten, die mit dem Post verbunden sind.
Ethische Überlegungen
Obwohl 4TCT eine grosse Menge an Daten sammeln kann, sind ethische Überlegungen wichtig. Dieses Tool kann auf Material stossen, das beleidigend oder sogar illegal sein könnte. Forscher, die dieses Tool nutzen, sind dafür verantwortlich, sicherzustellen, dass sie mit den Inhalten angemessen umgehen. Es ist wichtig, die Richtlinien für Forschungsethik zu befolgen und die Implikationen der Arbeit mit solchen Daten zu bedenken.
Zukünftige Verbesserungen
4TCT wird ständig verbessert. Zukünftige Erweiterungen könnten Folgendes beinhalten:
Einfache Sammlung: Es einfacher machen, das Tool einzurichten und auszuführen.
Bessere Datenverwaltung: Wege finden, die gesammelten Daten effektiver zu organisieren und zu verarbeiten.
Erweiterte Funktionalität: Funktionen hinzufügen, die das Sammeln von Bildern oder spezifischeren Datentypen ermöglichen.
Erhöhte Zugänglichkeit: Das Tool so verpacken, dass es einfacher geteilt und von mehr Leuten genutzt werden kann.
Diese Verbesserungen zielen darauf ab, das Tool benutzerfreundlicher und effektiver für Forschungszwecke zu machen.
Verwandte Tools und bestehende Ressourcen
Es gibt noch andere Tools neben 4TCT, die Forscher derzeit nutzen, um Daten von 4chan zu sammeln. Viele konzentrieren sich auf bestimmte Arten von Inhalten, wie Bilder oder bestimmte Threads. Allerdings ist 4TCTs Fokus auf Textdaten aus einer breiteren Palette von Boards ein einzigartiger Beitrag. Verschiedene Ressourcen gibt es auf Plattformen wie GitHub, die es Nutzern ermöglichen, mit 4chan zu interagieren. Diese beinhalten oft Kommandozeilen-Dienstprogramme, die Programmierkenntnisse erfordern können.
Das Ziel von 4TCT ist es, eine einfachere Option für Forscher bereitzustellen, die vielleicht keine umfangreichen technischen Fähigkeiten haben. Durch die Vereinfachung des Datenbeschaffungsprozesses wird mehr Menschen der Zugang zur Online-Forschung ermöglicht.
Fazit
Die Entwicklung des 4chan Text Collection Tools stellt einen bedeutenden Fortschritt für Forscher dar, die an der Untersuchung von Online-Communities interessiert sind. Durch die Bereitstellung eines automatisierten Weges, um grosse Mengen an Textdaten zu sammeln, kann dieses Tool helfen, ein tieferes Verständnis der verschiedenen Probleme im Zusammenhang mit 4chan zu erleichtern. Der Fokus auf Benutzerfreundlichkeit und ethische Überlegungen macht es zu einer vielversprechenden Ressource im Bereich der Sozialforschung.
Durch die kontinuierliche Verfeinerung und Erweiterung der Fähigkeiten dieses Tools kann die Forschungsgemeinschaft bessere Einblicke in Online-Verhalten und die Verbreitung von Ideen in digitalen Räumen gewinnen. Wenn Forscher 4TCT nutzen, könnten wir umfassendere Studien sehen, die Diskussionen über die Auswirkungen von Online-Plattformen wie 4chan informieren. Die laufenden Bemühungen zur Verbesserung dieses Tools werden hoffentlich seine Nützlichkeit und Effektivität für alle, die an den Komplexitäten von Online-Interaktionen interessiert sind, erhöhen.
Titel: 4TCT, A 4chan Text Collection Tool
Zusammenfassung: 4chan is a popular online imageboard which has been widely studied due to an observed concentration of far-right, antisemitic, racist, misogynistic, and otherwise hateful material being posted to the site, as well as the emergence of political movements and the evolution of memes which are posted there, discussed in Section 1.1. We have created a tool developed in Python which utilises the 4chan API to collect data from a selection of boards. This paper accompanies the release of the code via the github repository: https://github.com/jhculb/4TCT. We believe this tool will be of use to academics studying 4chan by providing a tool for collection of data from 4chan to sociological researchers, and potentially contributing to GESIS' Digital Behavioural Data project.
Autoren: Jack H. Culbert
Letzte Aktualisierung: 2023-07-07 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2307.03556
Quell-PDF: https://arxiv.org/pdf/2307.03556
Lizenz: https://creativecommons.org/licenses/by-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://orcid.org/0009-0000-1581-4021
- https://www.gesis.org/en/institute/staff/person/John.Culbert
- https://github.com/jhculb/4TCT
- https://4chan.org
- https://www.gesis.org/en/services
- https://www.gesis.org/en/institute/digital-behavioral-data
- https://www.gesis.org/institut/digitale-verhaltensdaten
- https://www.gesis.org/en/services/finding-and-accessing-data/digital-behavioral-data-datasets
- https://peps.python.org/pep-0008/
- https://github.com/jhculb/4TCT/blob/main/readme.md
- https://orcid.org/0000-0002-6656-1658
- https://orcid.org/0000-0002-4504-5144