効果的なヘイトスピーチ検出データセットのフレームワーク
ヘイトスピーチ分析のための効果的なデータセットを作るための構造的アプローチ。
― 1 分で読む
目次
ヘイトスピーチの検出は、自然言語処理(NLP)において重要な作業の一つになってるね。誰がターゲットにされてるか、データをどう集めるか、どうラベル付けするか、どの検出方法を選ぶか、これらの方法がちゃんと機能するかを確認するために、いろんな手法が使われてる。でも、この分野の大きな問題は、一般的に使える大きくて構造化されたデータセットが足りてないってこと。ヘイトスピーチの検出は、個人的な意見や判断がたくさん関わるからなんだ。
このディスカッションでは、データの視点からヘイトスピーチ検出を巡る問題を見ていくよ。性の少数者をターゲットにしたヘイトスピーチのデータセット作成のための重要なステップを含んだ明確なフレームワークを示すつもり。これを使うことで、ヘイトスピーチに関するデータセットを作るときにベストプラクティスをフォローできるようになるよ。
最近、NLPのコミュニティは、ヘイトフルで有害なスピーチを見つけることにもっと興味を示してる。多くのワークショップがこの分野の研究を支援するために開催されて、さまざまなタスクが作られて人気のデータセットを理解する手助けをしてる。
でも、ヘイトスピーチの検出は簡単じゃなくて、個人的な意見に依存することが多いんだ。だから、ある状況のために作られたデータセットが別の状況ではうまく機能しないこともある。たとえ適用できるように見えても、さまざまなアプリケーションにとっては多くのユーザーが気づかない課題を生むんだ。予測モデルが異なるデータで効果的かつ公平に機能するためには、データセットの作成者が各ステップでどんな決定をしたのかを知ることが大事だよ。
多くの研究者がデータ作成プロセスのさまざまなステップを調査して、これらのステップがいかに複雑になりうるかを示してきた。例えば、注釈者の意図しないバイアスがデータセットの全体的な感情を変えてしまうことに気づいた人もいる。このことから、データセットを作る人はバイアスを最小限に抑えるために行動し、ラベリング中に一貫したルールに従う必要があるってことが浮き彫りになったね。
私たちの研究の目的は、さまざまな要因を一つのフレームワークに結びつけて、これらの要因がどう関連しているのか、または異なるのかを明確に理解することだよ。まず、データの視点からヘイトスピーチ検出システムに影響を与える一般的な問題を簡単に見ていく。次に、将来のデータセット作成者が従うべき堅実なフレームワークの必要性について説明する。さらに、私たちのフレームワークを詳しく説明し、データセット作成時に考慮すべき重要な要因のリストを共有する。最後に、ヘイトスピーチ検出の分野での現在の課題について話し、研究を締めくくる。
要するに、私たちの主な貢献は以下の通りだよ:(1) データの視点から見たヘイトスピーチ検出の分析、一般化できないデータセットに関するさまざまな問題を指摘すること;(2) データセット作成に重要な7つのキーポイントをカバーする研究計画の提案;(3) 研究者と実務家のためのベストプラクティスの要約。
統一フレームワークの必要性
ヘイトスピーチのデータセットを作成する際、著者は各ステップで多くの決定を下さなければならない。これはデータにラベルを付けるかどうか、ラベル付けのルールを書くか、ラベルをどう組み合わせるかといったことから始まる。これらの決定を無視すると、過去に一般的だったように、バイアスや注釈者間の合意の少なさ、テーマの不明確さ、さらにはプライバシーの懸念など、望まない特徴を持つデータセットが生まれる可能性がある。
これらの問題は一般的にNLPのデータセットに影響を与えるけど、ヘイトスピーチ検出のような主観的なタスクでは、データ収集プロセス中の曖昧さを避けることが特に重要だよ。私たちは、各ステップで情報に基づいた選択をし、これらの選択をオープンにすることで、将来の研究者がデータセットが他のタスクに役立つかどうかを判断しやすくなると主張してる。
次のセクションでは、広範な研究計画を示すフレームワークを提示するよ。このフレームワークは、データセットの作成者が他の人々によって公正かつ効果的に使われるデータセットを確保するための指針になるんだ。
提案されたヘイトスピーチフレームワーク
このフレームワークは、信頼できるヘイトスピーチデータセットを作成するためのガイダンスを提供するよ。ヘイトスピーチのデータセットを作成するための全プロセスを網羅する7つのチェックポイントを定義する:
ヘイトの定義: データ収集の前に、その特定のタスクにおける「ヘイト」が何を意味するのかを定義するのが重要だよ。
データソースの選択: 既存のデータセットを分析することで、そのタスクに合ったデータソースを見つけるのが役立つこともある。
データのラベリング: データにラベルを付ける方法の構造を確立する、いわゆるアノテーションスキーマを確立することを含む。
アノテーションガイドラインの作成: アノテータにデータにラベルを付ける方法について明確な指示を提供する必要があるよ。
ラベリングプロセスの設定: ラベリングの方法は一貫していて信頼できる必要がある。
アノテーターの選択: アノテーターの背景やアイデンティティは、彼らのヘイトスピーチに対する理解に影響を与えることがある。
ラベルの集約: ラベル付けが終わったら、それらのラベルをどう組み合わせて明確な真実を形成するかを決定する必要がある。
このステップを厳密に直線的に従う必要はなく、いくつかのステップは重なることがあるってことに注意が必要だよ。
ヘイトの定義
データセットを作成する前に、その特定のタスクにおける「ヘイト」が何を意味するのかを明確に定義することが重要だよ。ヘイトを小さい要素に分解することで、正確な定義を作るのが助けになる。たとえば、ターゲットグループが性的指向に関連している場合、研究者は支配的なグループを定義から除外することを選ぶかもしれない。
ヘイトを定義することで、アノテーターが特定のガイドラインに従いやすくなり、データを正しくラベル付けできるようになる。
データソースの選択
データを選択する際には、そのタスクのニーズに合う既存のデータセットをレビューするのがベストだよ。オープンソースのデータセットカタログは、関連するデータを見つけるための良いスタートポイントになるかも。ただ、既存のデータセットがタスクの複雑さに合わない場合は、新しいデータセットを作成する必要があるかもしれない。
ソーシャルメディアのデータはよく入手可能で、コンテンツを検索する柔軟性がある。従来のテキストソースと比べて、安価でアクセスしやすいこともあるし、さまざまなソーシャルメディアプラットフォームには、大量のデータを収集できるAPIがある。場合によっては、既存のソースが不十分なときにAIを使って合成データセットを作成するのも価値のあるアプローチだよ。
アノテーションスキーマの定義
アノテーションスキーマは、ラベリングタスクのラベルの構造がどうなっているかを詳述するものだよ。歴史的に、ヘイトスピーチは「ヘイトフル」か「そうでない」かにカテゴライズされてきたけど、複数のラベルを使った柔軟なアプローチが、コンテンツをよりよく理解する手助けになるかもしれない。
最近のプロジェクトでは、ヘイトスピーチをカテゴライズするためにマルチレベルのアプローチを使うことが提案されていて、これによりより微妙なラベルの作成が可能になる。この方法はヘイトの複雑さを捉えるのに役立って、より表現力豊かなアノテーションを提供することができる。
アノテーションガイドラインの定義
アノテーションスキーマが確立されたら、次にアノテータに各テキストのラベルを付ける方法について明確な指示を提供することが重要だよ。ガイドラインは、タスクのニーズに応じて主観性を促進したり抑制したりすることができる。
たとえば、厳しいモデレーションシステムを設計することが目標なら、明確で具体的なガイドラインが必要になるだろう。でも、さまざまな意見を捉えることが目的なら、あまり正確でないアプローチでもいいかもしれない。
特定のアイデンティティを持つアノテーターの選択
アノテーターの背景は、ヘイトスピーチの理解に大きく影響を与えることがある。たとえば、研究者はさまざまなグループが経験に基づいてヘイトスピーチを解釈する方法の違いを発見している。
さまざまな見解を捉えることが重要なら、ターゲットグループと似た背景を持つアノテーターを使うのが助けになるかもしれない。一方で、非常に構造化されたデータセットの場合、共通の経験を持たない一般的なアノテーターを使用するのも許容されるかもしれない。
アノテーターとして誰を雇うかの決定は、タスクの目的と、結果として得られるデータセットの多様性に合わせる必要がある。
アノテーションプロセスの設定
大きなデータセットで作業する際には、一貫して信頼できるラベリングプロセスを持つことが重要だよ。さまざまなプラットフォームがこれを助けてくれる。たとえば、人気のクラウドソーシングサービスは注釈を収集する手助けができて、労働者のパフォーマンスをフィルタリングし分析するコントロールを提供する。
どのプラットフォームを使うかは、データセットのサイズやアノテーターの可用性に依存することがある。
ラベルの集約
アノテーターがデータにラベルを付けた後、次の課題は、そのラベルをどう組み合わせてヘイトスピーチとされるものの明確な結論を形成するかだよ。どの視点を基準として考えるべきかは、データセットの創作者、ユーザー、アノテーターを含む利害関係者によって異なるかもしれない。
複数のラベルを扱うための一般的な手法は過半数投票を使うことだけど、選ばれる方法はアノテーションスキーマに依存することがある。より微妙なデータの場合は、順序付きラベルを使うことでラベルを平均する柔軟性を持たせることができるよ。
結論
ヘイトスピーチ検出のためのデータセットを構築することは、いくつかの課題を伴うことがわかったね。プロセスの各ステップでデータと方法論を考慮することが大事だよ。このフレームワークは、情報に基づいた選択を行い、詳細なデータステートメントを維持し、個々のデータポイントにコンテキストを提供する必要性を強調してる。
このフレームワークは、将来のヘイトスピーチ検出のためのデータセットを作成する際に研究者が参考にできるようにすることを目指してる。これらのデータセット作成の多くの側面をカバーしたけど、データサンプリングの管理方法やマルチモーダルデータの取り扱いなど、まだ探るべき他の選択肢があるからね。
この分野が進化するにつれて、さらなる研究がマルチランゲージデータセットに取り組む必要があるし、研究者はこの分野における倫理的な責任を考慮することを勧めるよ。
タイトル: On the Challenges of Building Datasets for Hate Speech Detection
概要: Detection of hate speech has been formulated as a standalone application of NLP and different approaches have been adopted for identifying the target groups, obtaining raw data, defining the labeling process, choosing the detection algorithm, and evaluating the performance in the desired setting. However, unlike other downstream tasks, hate speech suffers from the lack of large-sized, carefully curated, generalizable datasets owing to the highly subjective nature of the task. In this paper, we first analyze the issues surrounding hate speech detection through a data-centric lens. We then outline a holistic framework to encapsulate the data creation pipeline across seven broad dimensions by taking the specific example of hate speech towards sexual minorities. We posit that practitioners would benefit from following this framework as a form of best practice when creating hate speech datasets in the future.
著者: Vitthal Bhandari
最終更新: 2023-09-06 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.02912
ソースPDF: https://arxiv.org/pdf/2309.02912
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://hatespeechdata.com/
- https://developer.twitter.com/en
- https://www.reddit.com/dev/api/
- https://developers.google.com/youtube/v3/docs
- https://docs.joinmastodon.org/api/
- https://developers.tiktok.com/
- https://www.perspectiveapi.com/
- https://www.mturk.com/
- https://appen.com/
- https://github.com/doccano/doccano
- https://github.com/davidjurgens/potato
- https://labelstud.io/
- https://argilla.io/