Présentation des Fiches d'Erreur Totale pour les Jeux de Données
Un nouveau modèle pour améliorer la qualité des données et la documentation pour la recherche en ligne.
― 12 min lire
Table des matières
Ce document présente un modèle conçu pour aider les chercheurs à documenter les ensembles de données collectées sur des plateformes en ligne. L'objectif est d'améliorer la transparence dans les recherches qui s'appuient sur des données d'internet. Le modèle s'appelle Total Error Sheets for Datasets (TES-D) et vise à réfléchir à la Qualité des données. Il est basé sur des travaux précédents impliquant des cadres d'erreurs pour les données en ligne.
Purpose and Importance
Les chercheurs dans des domaines comme les sciences sociales computationnelles et la recherche web utilisent des données provenant de plateformes en ligne, comme les Réseaux sociaux et les sites web. Ces données, souvent appelées données comportementales numériques, peuvent fournir des insights précieux sur le comportement humain. Cependant, la manière dont ces données sont collectées peut influencer leur qualité et leur utilité.
Étant donné que les plateformes en ligne changent constamment, les chercheurs font face à des défis pour rassembler des données fiables. Le modèle TES-D offre une manière structurée de documenter comment les données sont collectées et traitées, ce qui facilite l'évaluation de leur qualité.
Current Practices and Background
La Documentation des données n'est pas nouvelle et est déjà courante dans certains domaines de recherche. Par exemple, des domaines comme l'apprentissage machine ont créé des moyens de documenter les ensembles de données. Ces pratiques visent à mettre en avant des problèmes comme l'équité et la représentativité dans les ensembles de données utilisés pour entraîner des algorithmes.
Dans les sciences sociales, les cadres d'erreurs aident à identifier les sources potentielles de biais. Le Total Error Framework for Digital Traces of Human Behavior (TED-On) est un exemple qui utilise cette idée pour les données en ligne. Il examine comment les méthodes de Collecte de données peuvent influencer les résultats d'une étude.
Dans l'ensemble, il y a un consensus croissant parmi les chercheurs que mieux documenter est essentiel pour améliorer la qualité des ensembles de données issus de sources en ligne.
Developing the TES-D Template
Pour créer le modèle TES-D, nous avons combiné des pratiques de documentation existantes avec des cadres d'erreurs. Nous avons sélectionné des approches comme les Datasheets for Datasets, qui décrivent une série de questions auxquelles les créateurs d'ensembles de données doivent répondre pour documenter leur travail.
Le cadre TED-On a été choisi car il cible spécifiquement les données dérivées des plateformes en ligne. Il décompose le processus de recherche en étapes claires et discute de la manière dont diverses décisions de conception affectent les résultats.
Nous avons mappé des questions pertinentes des Datasheets for Datasets sur ces étapes du cadre TED-On. Nous avons également inclus une section pour les caractéristiques générales de l'ensemble de données, garantissant que toutes les fonctionnalités importantes soient documentées.
Pour rendre le TES-D convivial, nous avons développé divers formats que les chercheurs peuvent utiliser pour intégrer la réflexion sur les erreurs dans leurs flux de travail. Cela inclut des listes de questions simples et un modèle visuel pour guider les utilisateurs dans le processus de documentation, ainsi qu'un manuel qui explique comment aborder les biais potentiels lors de la collecte de données.
Provided Materials
Le TES-D propose trois formats qui travaillent ensemble pour soutenir les chercheurs :
1. Modèle basé sur un diagramme
Ce modèle présente le processus de recherche sous forme de diagramme, illustrant les différentes étapes et les erreurs potentielles impliquées. Il permet aux utilisateurs de prendre des notes sur les erreurs identifiées.
2. Ensemble de questions
Cette liste de questions est organisée selon le processus de recherche, encourageant les créateurs d'ensembles de données à réfléchir de manière critique à leur travail et à documenter leurs choix.
3. Manuel
Le manuel fournit un contexte pour le diagramme et les questions. Il explique chaque étape et la signification des questions associées, ce qui en fait une ressource précieuse pour quiconque est nouveau dans ce type de données.
De plus, un exemple est fourni pour démontrer comment répondre aux questions de documentation en utilisant un ensemble de données spécifique.
Next Steps
Nous prévoyons de recueillir des retours d'expérience de la part des utilisateurs du cadre TES-D. En réalisant des sondages avant et après que les utilisateurs appliquent le cadre à leurs propres ensembles de données, nous espérons mieux comprendre leurs perspectives sur la documentation des données.
Ces retours nous permettront d'améliorer le TES-D et de le rendre plus accessible aux chercheurs de tous horizons. Nous travaillons également à intégrer le TES-D dans des outils de programmation populaires pour simplifier le processus de documentation et faciliter la génération de documentation d'ensemble de données pour les chercheurs.
TES-D Template Overview
Le modèle TES-D se compose de plusieurs sections qui guident les utilisateurs dans la documentation de leurs ensembles de données.
General Characteristics
Cette section demande aux utilisateurs de partager des informations de base sur leur ensemble de données :
- Qui a collecté l'ensemble de données et qui l'a financé ? Fournir des détails sur les personnes ou les organisations impliquées.
- Où est hébergé l'ensemble de données ? Inclure des informations d'accès et de licence.
- Que représentent les instances dans l'ensemble de données ? Expliquer quel type de données est inclus.
- Combien d'instances y a-t-il dans chaque catégorie ? Donner des chiffres pour une meilleure compréhension.
- Dans quels contextes l'ensemble de données a-t-il été utilisé ? Fournir les applications ou études connues impliquant l'ensemble de données.
- Y a-t-il des ensembles de données alternatifs ? Discuter si d'autres ensembles de données pourraient servir des objectifs similaires.
- La collecte de l'ensemble de données peut-elle être reproduite ? Aborder les défis de la réplication de l'ensemble de données.
- Des examens éthiques ont-ils été réalisés ? Partager les considérations éthiques prises en compte.
- Y a-t-il des risques potentiels pour les utilisateurs ? Discuter de tout contenu sensible qui pourrait susciter un malaise.
Construct Definition
Cette section se concentre sur la clarification de ce que mesure l'ensemble de données :
- Quel construit l'ensemble de données vise-t-il à mesurer ? Fournir une définition claire.
- Comment le construit est-il opérationnalisé ? Expliquer comment l'ensemble de données capture le construit.
- Quels construits liés pourraient être mesurés ? Discuter d'autres mesures possibles.
- Quelle est la population cible ? Définir à qui l'ensemble de données est pertinent.
- Comment l'ensemble de données traite-t-il différentes sous-populations ? Réfléchir à la représentation au sein de l'ensemble de données.
Platform Selection
Cette partie examine la plateforme utilisée pour la collecte des données :
- Quelles sont les caractéristiques clés de la plateforme ? Décrire ses fonctionnalités qui affectent la collecte des données.
- Quels sont les impacts des conditions d'utilisation ? Discuter de la façon dont les règles de la plateforme peuvent influencer la qualité des données.
- Comment les normes socioculturelles affectent-elles les données ? Réfléchir à la manière dont la culture de la plateforme peut façonner le comportement des utilisateurs.
- Comment les traces ont-elles été collectées ? Expliquer les aspects techniques de la collecte des données.
Data Collection
Ici, les utilisateurs documentent leurs méthodes de collecte :
- Comment les données associées à chaque instance ont-elles été acquises ? Décrire les critères utilisés pour la sélection.
- Y avait-il des données qui n'ont pas pu être collectées ? Noter les limitations rencontrées.
- Des informations manquent-elles sur les instances ? Aborder les biais potentiels.
- L'ensemble de données inclut-il des données sensibles ? Discuter des mesures de protection prises.
Data Preprocessing and Data Analysis
Cette section se concentre sur les étapes prises après la collecte des données :
- Y a-t-il une étiquette ou un objectif ? Expliquer comment les étiquettes ont été générées.
- Quel impact ont les méthodes automatisées ? Discuter de la performance des modèles utilisés.
- Qui étaient les annotateurs ? Décrire les processus de sélection et de formation.
- Comment les étiquettes finales ont-elles été déterminées ? Expliquer les méthodes d'agrégation.
- Les étiquettes ont-elles été validées ? Discuter des efforts pour assurer la précision des étiquettes.
- Les données pourraient-elles être mal utilisées ? Réfléchir à des usages potentiellement nuisibles.
- L'ensemble de données pourrait-il renforcer l'inégalité sociale ? Explorer d'éventuelles préoccupations.
Example: Call Me Sexist, But...
Pour démontrer, nous fournissons une documentation pour un ensemble de données spécifique : "Call Me Sexist, But...".
General Characteristics
- Qui a collecté l'ensemble de données ? Une équipe d'un institut de recherche axé sur les sciences sociales.
- Où est hébergé l'ensemble de données ? Il est accessible en ligne après inscription.
- Quelles instances l'ensemble de données inclut-il ? Il se compose de tweets, chacun annoté pour le sexisme.
- Combien d'instances y a-t-il ? L'ensemble de données comprend plus de 13 000 instances.
- Dans quels contextes l'ensemble de données a-t-il été utilisé ? Il a été utilisé pour évaluer des modèles d'apprentissage machine pour la détection du sexisme.
- Y a-t-il des ensembles de données alternatifs ? Plusieurs autres existent, mais celui-ci capture une vue d'ensemble du sexisme.
- La collecte de l'ensemble de données peut-elle être reproduite facilement ? Bien que certaines données soient accessibles, reproduire l'ensemble de données original peut être difficile.
- Des examens éthiques ont-ils été réalisés ? Il n'y a pas eu de révision formelle, mais des considérations éthiques ont été prises en compte.
- Y a-t-il des risques potentiels pour les utilisateurs ? La nature du contenu peut être perturbante pour certains.
Construct Definition
- Quel construit l'ensemble de données vise-t-il à mesurer ? L'ensemble de données mesure divers aspects du sexisme.
- Comment le construit est-il opérationnalisé ? Un schéma de codage a été développé pour étiqueter les instances selon des critères spécifiques.
- Quels construits liés pourraient être mesurés ? D'autres ensembles de données sur le langage abusif peuvent partager des similarités.
- Quelle est la population cible ? L'ensemble de données cible les utilisateurs des réseaux sociaux, en particulier ceux de Twitter.
- Comment l'ensemble de données traite-t-il les sous-populations ? Il ne traite pas spécifiquement des détails démographiques.
Platform Selection
- Quelles sont les caractéristiques clés de la plateforme ? L'ensemble de données provient de Twitter, qui limite les tweets à 280 caractères.
- Quels sont les impacts des conditions d'utilisation ? Les conditions peuvent façonner le contenu disponible pour la collecte.
- Comment les normes socioculturelles affectent-elles les données ? La culture de Twitter influence la nature des discussions et des sujets.
- Comment les traces ont-elles été collectées ? Les tweets ont été rassemblés en utilisant l'API de Twitter basée sur un terme de recherche spécifique.
Data Collection
- Comment les données associées à chaque instance ont-elles été acquises ? Les tweets contenant "call me sexist, but" ont été collectés.
- Y avait-il des données qui n'ont pas pu être collectées ? Certains tweets peuvent avoir été supprimés ou effacés.
- Des informations manquent-elles sur les instances ? Le processus de collecte a été conçu pour être cohérent.
- L'ensemble de données inclut-il des données sensibles ? Des efforts ont été faits pour anonymiser le contenu sensible.
Data Preprocessing and Data Analysis
- Y a-t-il une étiquette associée à chaque instance ? Les étiquettes ont été générées par des annotations de travailleurs à la tâche.
- Quel impact ont les méthodes automatisées ? Certains outils ont été utilisés, mais un soin particulier a été apporté à évaluer leur fiabilité.
- Qui étaient les annotateurs ? Les travailleurs à la tâche ont été soigneusement sélectionnés en fonction de leur performance.
- Comment les étiquettes finales ont-elles été déterminées ? Un vote majoritaire a conduit aux étiquettes finales pour chaque instance.
- Les étiquettes ont-elles été validées ? Des processus de validation ont confirmé un fort accord parmi les annotateurs.
- Les données pourraient-elles être mal utilisées ? Il y a des risques associés à la manière dont l'ensemble de données pourrait être utilisé.
- L'ensemble de données pourrait-il renforcer l'inégalité sociale ? Des considérations ont été faites pour aborder les abus potentiels.
Conclusion
Le modèle de documentation TES-D est un outil précieux pour les chercheurs travaillant avec des données en ligne. Il promeut de meilleures pratiques de données en encourageant la réflexion sur la qualité et les méthodes de collecte des ensembles de données. En documentant ces processus, les chercheurs peuvent améliorer la transparence et la fiabilité de leur travail, contribuant ainsi à de meilleurs résultats de recherche.
Les chercheurs sont encouragés à utiliser le modèle et le manuel TES-D pour documenter leurs ensembles de données. Cette approche structurée facilitera des insights plus profonds sur les données et leurs implications, favorisant des pratiques de recherche responsables dans le paysage en constante évolution des données en ligne.
Titre: Total Error Sheets for Datasets (TES-D) -- A Critical Guide to Documenting Online Platform Datasets
Résumé: This paper proposes a template for documenting datasets that have been collected from online platforms for research purposes. The template should help to critically reflect on data quality and increase transparency in research fields that make use of online platform data. The paper describes our motivation, outlines the procedure for developing a specific documentation template that we refer to as TES-D (Total Error Sheets for Datasets) and has the current version of the template, guiding questions and a manual attached as supplementary material. The TES-D approach builds upon prior work in designing error frameworks for data from online platforms, namely the Total Error Framework for digital traces of human behavior on online platforms (TED-On, https://doi.org/10.1093/poq/nfab018).
Auteurs: Leon Fröhling, Indira Sen, Felix Soldner, Leonie Steinbrinker, Maria Zens, Katrin Weller
Dernière mise à jour: 2023-06-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.14219
Source PDF: https://arxiv.org/pdf/2306.14219
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.