データセット用のトータルエラーシートを紹介します。
オンラインリサーチのデータ品質とドキュメンテーションを向上させるための新しいテンプレート。
― 1 分で読む
このドキュメントは、オンラインプラットフォームから収集したデータセットを研究者が文書化するためのテンプレートを紹介しています。目標は、インターネットからのデータに依存する研究の透明性を高めることです。このテンプレートは、データの質を反映することを目的とした「データセットのためのトータルエラーシート(TES-D)」と呼ばれています。これは、オンラインデータに関するエラーフレームワークに基づいています。
目的と重要性
計算社会科学やウェブリサーチなどの分野の研究者は、ソーシャルメディアやウェブサイトなどのオンラインプラットフォームからデータを使用します。このデータは、デジタル行動データと呼ばれ、人間の行動について貴重な洞察を提供することができます。しかし、このデータが収集される方法がその質や有用性に影響を与える可能性があります。
オンラインプラットフォームは常に変化しているため、研究者は信頼できるデータを収集するのに苦労しています。TES-Dテンプレートは、データがどのように収集され、処理されるかを文書化するための構造化された方法を提供し、その質を評価しやすくしています。
現在の実践と背景
データの文書化は新しいことではなく、すでにいくつかの研究分野では一般的です。たとえば、機械学習の分野ではデータセットを文書化する方法が作られています。これらの実践は、アルゴリズムのトレーニングに使用されるデータセットの公平性や代表性の問題を強調することを目指しています。
社会科学では、エラーフレームワークが潜在的なバイアスの源を特定するのに役立ちます。デジタルトレースの人間行動に関するトータルエラーフレームワーク(TED-On)は、オンラインデータにこのアイデアを適用した例です。データ収集方法が研究結果に与える影響を検討しています。
全体的に、研究者の間では、オンラインソースから取得したデータセットの質を向上させるためには、より良い文書化が不可欠であるという合意が高まっています。
TES-Dテンプレートの開発
TES-Dテンプレートを作成するために、既存の文書化の実践とエラーフレームワークを組み合わせました。データセットのクリエイターが自分の作業を文書化するために答える一連の質問を概説した「データセットのためのデータシート」のアプローチを選びました。
TED-Onフレームワークは、特にオンラインプラットフォームから派生したデータを対象にしているため選ばれました。研究プロセスを明確なステップに分解し、さまざまな設計上の決定が結果にどのように影響するかを議論します。
私たちは、「データセットのためのデータシート」からの関連質問をTED-Onフレームワークのこれらのステップにマッピングしました。また、データセットの一般的な特性に関するセクションも含め、すべての重要な特徴が文書化されるようにしました。
TES-Dを使いやすくするために、研究者がエラー反映を自分のワークフローに統合できるように、さまざまな形式を開発しました。これには、シンプルな質問リストや、文書化プロセスをガイドするビジュアルテンプレート、データ収集中の潜在的なバイアスに対処する方法を説明するマニュアルが含まれています。
提供される資料
TES-Dは、研究者をサポートするために協力する3つの形式を提供します。
1. 図に基づくテンプレート
このテンプレートは、研究プロセスを図として示し、関与するさまざまなステップや潜在的なエラーを説明します。ユーザーは、特定されたエラーについてメモを取ることができます。
2. 質問のセット
この質問リストは研究プロセスに従って整理されており、データセットのクリエイターが自分の作業について批判的に考え、選択を文書化するよう促します。
3. マニュアル
マニュアルは、図と質問のコンテキストを提供します。各ステップと関連する質問の重要性を説明し、データの種類に不慣れな人にとって貴重なリソースとなります。
さらに、特定のデータセットを使用して文書化の質問にどのように答えるかを示す例も提供されています。
次のステップ
私たちは、TES-Dフレームワークのユーザーからフィードバックを集める予定です。ユーザーがフレームワークを自分のデータセットに適用する前後にアンケートを実施することで、データ文書化に対する彼らの視点をより良く理解したいと考えています。
このフィードバックにより、TES-Dを改善し、さまざまなバックグラウンドの研究者にとってよりアクセスしやすくすることが可能になります。また、データセット文書化を簡素化し、研究者がデータセットの文書を生成しやすくするために、TES-Dを人気のプログラミングツールに統合する作業も進めています。
TES-Dテンプレートの概要
TES-Dテンプレートはいくつかのセクションで構成されており、ユーザーがデータセットを文書化する手助けをします。
一般的な特徴
このセクションでは、ユーザーがデータセットに関する基本情報を共有する必要があります。
- データセットを収集したのは誰で、誰が資金提供しましたか? 関与した人や組織についての詳細を提供してください。
- データセットはどこにホストされていますか? アクセスやライセンス情報を含めてください。
- データセットのインスタンスは何を表していますか? 含まれているデータの種類を説明してください。
- 各カテゴリにはどれくらいのインスタンスがありますか? より良い理解のために数字を示してください。
- データセットはどのような文脈で使用されましたか? データセットに関連するアプリケーションや研究を提供してください。
- 代替データセットはありますか? 他のデータセットが同様の目的を果たせるかどうかを議論してください。
- データセット収集は再現可能ですか? データセットの再現に関する課題に触れてください。
- 倫理的レビューは行われましたか? 考慮された倫理的な観点を共有してください。
- ユーザーに潜在的なリスクはありますか? 不安を引き起こす可能性のある敏感なコンテンツについて議論してください。
構成の定義
このセクションは、データセットが何を測定するかを明確にすることに焦点を当てています。
- データセットはどの構成を測定することを目的としていますか? 明確な定義を提供してください。
- 構成はどのように操作化されていますか? データセットが構成をどのように捉えているかを説明してください。
- 測定可能な関連構成には何がありますか? 他の可能な測定について議論してください。
- ターゲットとなる集団は誰ですか? データセットが関連する人々を定義してください。
- データセットは異なるサブポピュレーションをどのように扱っていますか? データセット内での代表性について反映してください。
プラットフォーム選択
この部分では、データ収集に使用されるプラットフォームを検討します。
- プラットフォームの主な特徴は何ですか? データ収集に影響を与える特徴を説明してください。
- 利用規約の影響は何ですか? プラットフォームのルールがデータの質にどのように影響するかを議論してください。
- 社会文化的規範はデータにどのように影響しますか? プラットフォーム文化がユーザー行動にどのように影響を与えるかを反映してください。
- トレースはどのように収集されましたか? データ収集の技術的な側面を説明してください。
データ収集
ここでは、ユーザーが自分の収集方法を文書化します。
- 各インスタンスに関連付けられたデータはどのように取得されましたか? 選択に使用された基準を説明してください。
- 収集できなかったデータはありましたか? 直面した制限について記述してください。
- インスタンスに情報が欠落していますか? 潜在的なバイアスについて触れてください。
- データセットには敏感なデータが含まれていますか? 取られた保護措置について議論してください。
データ前処理とデータ分析
このセクションは、データ収集後に行われたステップに焦点を当てています。
- ラベルやターゲットはありますか? ラベルがどのように生成されたかを説明してください。
- 自動化された方法はどのような影響を持ちますか? 使用されたモデルのパフォーマンスについて議論してください。
- アノテーターは誰でしたか? 選択とトレーニングのプロセスを説明してください。
- 最終ラベルはどのように決定されましたか? 集約方法を説明してください。
- ラベルは検証されましたか? ラベルの正確性を確保するための努力について議論してください。
- データが悪用される可能性はありますか? 潜在的な有害な使用について反映してください。
- データセットが社会的不平等を助長する可能性はありますか? 懸念事項について検討してください。
例: Call Me Sexist, But...
デモとして、特定のデータセット「Call Me Sexist, But...」の文書化を提供します。
一般的な特徴
- データセットを収集したのは誰ですか? 社会科学に焦点を当てた研究所のチーム。
- データセットはどこにホストされていますか? オンラインで利用可能で、登録後にアクセスできます。
- データセットにはどのようなインスタンスが含まれていますか? 各ツイートに対して性差別に関する注釈が付けられています。
- インスタンス数はどれくらいですか? データセットには13,000以上のインスタンスが含まれています。
- データセットはどのような文脈で使用されましたか? 性差別検出のための機械学習モデルの評価に利用されました。
- 代替データセットはありますか? いくつかの他のデータセットがありますが、このデータセットは性差別の包括的な見方を捉えています。
- データセットの収集は容易に再現可能ですか? 一部のデータはアクセス可能ですが、オリジナルのデータセットを再現するのは難しいかもしれません。
- 倫理的レビューは行われましたか? 公式なレビューは行われませんでしたが、倫理的な考慮はされました。
- ユーザーに潜在的なリスクはありますか? コンテンツの性質が一部の人にとって不安を引き起こすかもしれません。
構成の定義
- データセットはどの構成を測定することを目的としていますか? 性差別のさまざまな側面を測定します。
- 構成はどのように操作化されていますか? 特定の基準に基づいてインスタンスにラベルを付けるためのコーディングスキームが開発されました。
- 測定可能な関連構成には何がありますか? その他の攻撃的な言語に関するデータセットが類似している可能性があります。
- ターゲットとなる集団は誰ですか? Twitterユーザーを対象としています。
- データセットはサブポピュレーションをどのように扱っていますか? 人口統計的な詳細には特に言及していません。
プラットフォーム選択
- プラットフォームの主な特徴は何ですか? データセットはTwitterからのもので、ツイートは280文字に制限されています。
- 利用規約の影響は何ですか? 利用規約が収集可能なコンテンツを決定します。
- 社会文化的規範はデータにどのように影響しますか? Twitterの文化が議論やトピックの性質に影響を与えます。
- トレースはどのように収集されましたか? 特定の検索用語に基づいてTwitterのAPIを使用してツイートが集められました。
データ収集
- 各インスタンスに関連付けられたデータはどのように取得されましたか? 「call me sexist, but」を含むツイートが収集されました。
- 収集できなかったデータはありましたか? 特定のツイートが削除されたり、消去された可能性があります。
- インスタンスに情報が欠落していますか? 収集プロセスは一貫性を持つように設計されました。
- データセットには敏感なデータが含まれていますか? 敏感な内容を匿名化するための努力が行われました。
データ前処理とデータ分析
- 各インスタンスにラベルはありますか? ラベルはクラウドワーカーのアノテーションによって生成されました。
- 自動化された方法はどのような影響を持ちますか? 一部のツールが使用されましたが、その信頼性を評価するために注意が払われました。
- アノテーターは誰でしたか? パフォーマンスに基づいてクラウドワーカーが慎重に選ばれました。
- 最終ラベルはどのように決定されましたか? 各インスタンスの最終ラベルは多数決によって決定されました。
- ラベルは検証されましたか? 検証プロセスにより、アノテーターの間で高い合意が確認されました。
- データが悪用される可能性はありますか? データセットの使用方法に関するリスクがあります。
- データセットが社会的不平等を助長する可能性はありますか? 潜在的な悪用について考慮がされました。
結論
TES-D文書化テンプレートは、オンラインデータで作業する研究者にとって貴重なツールです。データセットの質や収集方法についての反映を促し、より良いデータプラクティスを推進します。これらのプロセスを文書化することで、研究者は自分の仕事の透明性や信頼性を高め、最終的にはより良い研究成果に貢献できます。
研究者は、データセットを文書化するためにTES-Dテンプレートとマニュアルを利用することをお勧めします。この構造化されたアプローチにより、データやその影響についてのより深い洞察が促進され、オンラインデータの常に変化する環境における責任ある研究慣行が育まれます。
タイトル: Total Error Sheets for Datasets (TES-D) -- A Critical Guide to Documenting Online Platform Datasets
概要: This paper proposes a template for documenting datasets that have been collected from online platforms for research purposes. The template should help to critically reflect on data quality and increase transparency in research fields that make use of online platform data. The paper describes our motivation, outlines the procedure for developing a specific documentation template that we refer to as TES-D (Total Error Sheets for Datasets) and has the current version of the template, guiding questions and a manual attached as supplementary material. The TES-D approach builds upon prior work in designing error frameworks for data from online platforms, namely the Total Error Framework for digital traces of human behavior on online platforms (TED-On, https://doi.org/10.1093/poq/nfab018).
著者: Leon Fröhling, Indira Sen, Felix Soldner, Leonie Steinbrinker, Maria Zens, Katrin Weller
最終更新: 2023-06-25 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2306.14219
ソースPDF: https://arxiv.org/pdf/2306.14219
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。