Aperçus automatisés sur 4chan : Un nouvel outil
Un nouvel outil aide les chercheurs à collecter des données textuelles de 4chan facilement.
― 6 min lire
Table des matières
4chan est une plateforme en ligne où les utilisateurs peuvent poster des images et des commentaires. Au fil des ans, elle a attiré l'attention pour le partage de différents types de contenu, certains pouvant être nuisibles ou offensants. Des Chercheurs ont étudié ce site pour comprendre la propagation de certaines idées et types de discours, y compris les opinions haineuses ou extrêmes. Pour aider à étudier ces tendances, un nouvel outil a été créé. Cet outil est conçu pour collecter automatiquement des Données textuelles de 4chan, facilitant ainsi l'analyse de ce qui est partagé sur le site.
C'est quoi le 4chan Text Collection Tool ?
Le 4chan Text Collection Tool (4TCT) est un programme fait avec le langage de programmation Python. Il se connecte à l'API de 4chan, qui est un système permettant aux utilisateurs de demander du contenu à partir de 4chan. Le but principal de cet outil est de récupérer des données textuelles de différents boards sur le site. Cela inclut les posts faits par les utilisateurs, l’heure du post, et d’autres informations connexes. En faisant cela, les chercheurs peuvent collecter des données sans avoir à naviguer manuellement sur le site.
Pourquoi cet outil est important ?
Les données collectées sur 4chan peuvent aider les chercheurs à comprendre divers problèmes sociaux. Par exemple, il y a eu des discussions sur des mouvements politiques, le comportement en ligne, et comment certaines idées se propagent à travers les communautés. Avec un accès à une grande quantité de données textuelles, les chercheurs peuvent mener des études qui éclairent ces sujets. L'idée est de fournir une ressource qui aide les chercheurs à rassembler et analyser les informations avec moins d’efforts.
Comment fonctionne l'outil ?
4TCT fonctionne de manière systématique. Il vérifie des boards spécifiques sur 4chan pour trouver de nouveaux posts. Quand il s’exécute, il cherche des threads ou des sujets actuellement actifs sur ces boards. Il collecte de nouvelles données et garde des traces de ce qu’il a récupéré. Les données sont stockées dans des fichiers qui permettent aux chercheurs d’y accéder facilement plus tard. Voici un aperçu étape par étape du fonctionnement de l'outil :
Initialisation : Quand on commence, l'outil permet aux utilisateurs de choisir quels boards surveiller. Ça aide à se concentrer sur des zones d'intérêt spécifiques.
Vérification des données précédentes : Avant de collecter de nouvelles données, l'outil regarde ce qu'il a déjà recueilli. Comme ça, il évite de sauvegarder des informations en double.
Collecte des données : L'outil demande des données à l'API sur les threads actifs et collecte de nouveaux posts. Il crée des fichiers pour stocker ces infos.
Stockage des informations : Les données collectées sont sauvegardées dans un dossier désigné sur l’ordinateur de l'utilisateur, organisées par date et par board. Ça rend simple l'accès aux informations pour les chercheurs plus tard.
Structure et stockage des données
Les informations collectées par 4TCT sont organisées dans une structure claire. Quand le programme s’exécute, il crée des répertoires pour contenir les données. Chaque exécution génère deux types de logs, qui traquent les actions de l'outil. Les logs fournissent des détails sur ce que le programme a fait, comme les fois où il a été exécuté et les problèmes rencontrés.
Les données principales sont enregistrées dans des fichiers JSON. Ces fichiers incluent :
Informations sur les threads : Détails sur les threads sur des boards spécifiques, y compris les horodatages et les noms des boards.
Contenu posté : Chaque post a des informations comme l'ID du post, l'heure, et le texte. Le contenu peut aussi inclure des liens vers des fichiers ou des images liés au post.
Considérations éthiques
Bien que 4TCT puisse collecter une grande quantité de données, les considérations éthiques sont essentielles. Cet outil peut tomber sur du matériel qui pourrait être offensant ou même illégal. Les chercheurs utilisant cet outil sont responsables de s’assurer qu’ils manipulent le contenu de manière appropriée. Il est crucial de suivre les directives sur l'éthique de la recherche et de considérer les implications de travailler avec de telles données.
Améliorations futures
4TCT est en constante amélioration. Les futures améliorations pourraient inclure :
Collecte plus simple : Rendre plus facile pour les utilisateurs de configurer et exécuter l'outil.
Meilleure gestion des données : Trouver des moyens d'organiser et de traiter les données collectées plus efficacement.
Fonctionnalités élargies : Ajouter des fonctionnalités qui permettent la collecte d'images ou de types de données plus spécifiques.
Accessibilité accrue : Emballer l'outil pour qu'il puisse être facilement partagé et utilisé par plus de personnes.
Ces améliorations visent à rendre l'outil plus convivial et efficace pour des fins de recherche.
Outils et ressources existants
Il existe d'autres outils à part 4TCT que les chercheurs utilisent actuellement pour collecter des données sur 4chan. Beaucoup se concentrent sur des types de contenu spécifiques, comme les images ou certains threads. Cependant, l’accent mis par 4TCT sur les données textuelles provenant d’un plus large éventail de boards est une contribution unique. Diverses ressources existent sur des plateformes comme GitHub qui permettent aux utilisateurs d’interagir avec 4chan. Cela implique souvent des utilitaires en ligne de commande qui peuvent nécessiter des connaissances en programmation.
L’objectif de 4TCT est de fournir une option plus simple pour les chercheurs qui n’ont pas de compétences techniques approfondies. En simplifiant le processus de collecte de données, cela ouvre la porte à plus de personnes pour s'engager dans la recherche en ligne.
Conclusion
Le développement du 4chan Text Collection Tool représente une avancée significative pour les chercheurs intéressés par l’étude des communautés en ligne. En fournissant un moyen automatisé de rassembler de grandes quantités de données textuelles, cet outil peut aider à faciliter une compréhension plus profonde des divers problèmes liés à 4chan. L'accent mis sur la convivialité et les considérations éthiques en fait une ressource prometteuse dans le domaine de la recherche sociale.
En continuant à affiner et à étendre les capacités de cet outil, la communauté de recherche peut obtenir de meilleures idées sur le comportement en ligne et la propagation des idées dans les espaces numériques. À mesure que les chercheurs utilisent 4TCT, on pourrait voir des études plus complètes qui éclairent les discussions sur l'impact des plateformes en ligne comme 4chan. Les efforts continus pour améliorer cet outil devraient idéalement renforcer son utilité et son efficacité pour tous ceux qui s'intéressent à explorer les complexités des interactions en ligne.
Titre: 4TCT, A 4chan Text Collection Tool
Résumé: 4chan is a popular online imageboard which has been widely studied due to an observed concentration of far-right, antisemitic, racist, misogynistic, and otherwise hateful material being posted to the site, as well as the emergence of political movements and the evolution of memes which are posted there, discussed in Section 1.1. We have created a tool developed in Python which utilises the 4chan API to collect data from a selection of boards. This paper accompanies the release of the code via the github repository: https://github.com/jhculb/4TCT. We believe this tool will be of use to academics studying 4chan by providing a tool for collection of data from 4chan to sociological researchers, and potentially contributing to GESIS' Digital Behavioural Data project.
Auteurs: Jack H. Culbert
Dernière mise à jour: 2023-07-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.03556
Source PDF: https://arxiv.org/pdf/2307.03556
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://orcid.org/0009-0000-1581-4021
- https://www.gesis.org/en/institute/staff/person/John.Culbert
- https://github.com/jhculb/4TCT
- https://4chan.org
- https://www.gesis.org/en/services
- https://www.gesis.org/en/institute/digital-behavioral-data
- https://www.gesis.org/institut/digitale-verhaltensdaten
- https://www.gesis.org/en/services/finding-and-accessing-data/digital-behavioral-data-datasets
- https://peps.python.org/pep-0008/
- https://github.com/jhculb/4TCT/blob/main/readme.md
- https://orcid.org/0000-0002-6656-1658
- https://orcid.org/0000-0002-4504-5144