Insights automatiche su 4chan: un nuovo strumento
Un nuovo strumento aiuta i ricercatori a raccogliere dati testuali da 4chan facilmente.
― 5 leggere min
Indice
4chan è una piattaforma online dove gli utenti possono postare immagini e commenti. Negli anni ha attirato attenzione per la condivisione di vari tipi di contenuti, alcuni dei quali possono essere dannosi o offensivi. I Ricercatori hanno esaminato questo sito per capire la diffusione di certe idee e tipi di linguaggio, tra cui opinioni odiose o estreme. Per studiare queste tendenze, è stato creato un nuovo strumento. Questo strumento è progettato per raccogliere automaticamente Dati testuali da 4chan, rendendo più facile per i ricercatori analizzare cosa viene condiviso sul sito.
Cos'è il 4chan Text Collection Tool?
Il 4chan Text Collection Tool (4TCT) è un programma realizzato utilizzando il linguaggio di programmazione Python. Si collega all'API di 4chan, che è un sistema che consente agli utenti di richiedere contenuti da 4chan. Lo scopo principale di questo strumento è raccogliere dati testuali da diverse board del sito. Questo include Post effettuati dagli utenti, l'orario del post e altre informazioni correlate. In questo modo, i ricercatori possono raccogliere dati senza dover navigare manualmente nel sito.
Perché è importante questo strumento?
I dati raccolti da 4chan possono aiutare i ricercatori a capire vari problemi sociali. Ad esempio, ci sono state discussioni su movimenti politici, comportamenti online e come certe idee si diffondono tra le comunità. Avere accesso a una grande quantità di dati testuali consente agli studiosi di condurre studi che potrebbero fare luce su questi argomenti. L’obiettivo è fornire una risorsa che aiuti i ricercatori a raccogliere e analizzare informazioni con meno sforzo.
Come funziona lo strumento?
Il 4TCT opera in modo sistematico. Controlla specifiche board di 4chan per trovare nuovi post. Quando è in funzione, cerca thread o argomenti attualmente attivi su quelle board. Raccoglie nuovi dati e tiene traccia di ciò che ha raccolto. I dati vengono salvati in file che rendono facile per i ricercatori accedere in seguito alle informazioni. Ecco una panoramica passo-passo di come funziona lo strumento:
Inizializzazione: All'avvio, lo strumento consente agli utenti di scegliere quali board monitorare. Questo aiuta a concentrarsi su aree specifiche di interesse.
Controllo dei dati precedenti: Prima di raccogliere nuovi dati, lo strumento verifica cosa ha già raccolto. In questo modo evita di salvare informazioni duplicate.
Raccolta dati: Lo strumento richiede dati dall'API riguardo ai thread attivi e raccoglie nuovi post. Crea file per memorizzare queste informazioni.
Archiviazione delle informazioni: I dati raccolti vengono salvati in una cartella designata sul computer dell'utente, organizzati per data e board. Questo rende semplice per i ricercatori accedere alle informazioni in un secondo momento.
Struttura e archiviazione dei dati
Le informazioni raccolte dal 4TCT sono organizzate in una struttura chiara. Quando il programma è in esecuzione, crea directory per contenere i dati. Ogni esecuzione genera due tipi di log, che tracciano le azioni dello strumento. I log forniscono dettagli su ciò che il programma ha fatto, come i tempi in cui è stato eseguito e eventuali problemi riscontrati.
I dati principali sono archiviati in file JSON. Questi file includono:
Informazioni sui thread: Dettagli sui thread su specifiche board, inclusi timestamp e nomi delle board.
Contenuto postato: Ogni post ha informazioni come ID post, ora e testo. Il contenuto può anche includere link a file o immagini correlate al post.
Considerazioni etiche
Anche se il 4TCT può raccogliere una grande quantità di dati, le considerazioni etiche sono essenziali. Questo strumento può imbattersi in materiali che potrebbero essere offensivi o addirittura illegali. I ricercatori che utilizzano questo strumento sono responsabili di garantire che gestiscano il contenuto in modo appropriato. È fondamentale seguire le linee guida per l'etica della ricerca e considerare le implicazioni del lavorare con tali dati.
Miglioramenti futuri
Il 4TCT è in continua fase di miglioramento. I futuri aggiornamenti potrebbero includere:
Raccolta più semplice: Rendere più facile per gli utenti impostare e far funzionare lo strumento.
Migliore gestione dei dati: Trovare modi per organizzare e elaborare i dati raccolti in modo più efficace.
Funzionalità espanse: Aggiungere funzionalità che consentano la raccolta di immagini o tipi di dati più specifici.
Accessibilità aumentata: Impacchettare lo strumento in modo che possa essere facilmente condiviso e utilizzato da più persone.
Questi miglioramenti mirano a rendere lo strumento più intuitivo ed efficace per scopi di ricerca.
Strumenti correlati e risorse esistenti
Ci sono altri strumenti oltre al 4TCT che i ricercatori attualmente utilizzano per raccogliere dati da 4chan. Molti si concentrano su tipi specifici di contenuto, come immagini o thread particolari. Tuttavia, il focus del 4TCT sui dati testuali da un'ampia gamma di board è un contributo unico. Esistono varie risorse su piattaforme come GitHub che consentono agli utenti di interagire con 4chan. Queste spesso coinvolgono utility da linea di comando che potrebbero richiedere conoscenze di programmazione.
L'obiettivo del 4TCT è fornire un'opzione più semplice per i ricercatori che potrebbero non avere competenze tecniche approfondite. Semplificando il processo di raccolta dei dati, si apre la porta a più individui per impegnarsi nella ricerca online.
Conclusione
Lo sviluppo del 4chan Text Collection Tool rappresenta un passo avanti significativo per i ricercatori interessati a studiare le comunità online. Fornendo un modo automatizzato per raccogliere grandi quantità di dati testuali, questo strumento può aiutare a facilitare una comprensione più profonda delle varie questioni legate a 4chan. L'attenzione all'usabilità e alle considerazioni etiche lo rende una risorsa promettente nel campo della ricerca sociale.
Continuando a perfezionare e ampliare le capacità di questo strumento, la comunità di ricerca può ottenere migliori intuizioni sui comportamenti online e sulla diffusione delle idee negli spazi digitali. Man mano che i ricercatori utilizzano il 4TCT, potremmo vedere studi più completi che informano le discussioni sull'impatto di piattaforme online come 4chan. Gli sforzi continui per migliorare questo strumento miglioreranno sperabilmente la sua utilità ed efficacia per tutti coloro che sono interessati a esplorare le complessità delle interazioni online.
Titolo: 4TCT, A 4chan Text Collection Tool
Estratto: 4chan is a popular online imageboard which has been widely studied due to an observed concentration of far-right, antisemitic, racist, misogynistic, and otherwise hateful material being posted to the site, as well as the emergence of political movements and the evolution of memes which are posted there, discussed in Section 1.1. We have created a tool developed in Python which utilises the 4chan API to collect data from a selection of boards. This paper accompanies the release of the code via the github repository: https://github.com/jhculb/4TCT. We believe this tool will be of use to academics studying 4chan by providing a tool for collection of data from 4chan to sociological researchers, and potentially contributing to GESIS' Digital Behavioural Data project.
Autori: Jack H. Culbert
Ultimo aggiornamento: 2023-07-07 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.03556
Fonte PDF: https://arxiv.org/pdf/2307.03556
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://orcid.org/0009-0000-1581-4021
- https://www.gesis.org/en/institute/staff/person/John.Culbert
- https://github.com/jhculb/4TCT
- https://4chan.org
- https://www.gesis.org/en/services
- https://www.gesis.org/en/institute/digital-behavioral-data
- https://www.gesis.org/institut/digitale-verhaltensdaten
- https://www.gesis.org/en/services/finding-and-accessing-data/digital-behavioral-data-datasets
- https://peps.python.org/pep-0008/
- https://github.com/jhculb/4TCT/blob/main/readme.md
- https://orcid.org/0000-0002-6656-1658
- https://orcid.org/0000-0002-4504-5144