Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# ソフトウェア工学# 計算と言語

HateSpeech検出の評価:HateModerateデータセットを使って

新しいデータセットが、ソーシャルメディアでのヘイトスピーチ検出を改善することを目指してるよ。

― 1 分で読む


ヘイトスピーチ検出データセヘイトスピーチ検出データセット評価自動ヘイトスピーチ検出器の効果を評価する
目次

今日のデジタル時代、ソーシャルメディアプラットフォームはユーザーが自由にコミュニケーションできるようにしてるけど、ヘイトスピーチみたいな有害なコンテンツにも晒されることがある。ユーザーを守るために、多くのプラットフォームがヘイトスピーチを検出してフィルタリングする自動ツールを開発してる。でも、重要な問題が残ってる:これらの検出ツールはプラットフォームが設定した特定のコンテンツルールに従ってるの?この記事では、HateModerateという新しいデータセットの作成について話すよ。これは、自動ヘイトスピーチ検出器がソーシャルメディアのポリシーにどれだけ合ってるかを調べるために作られたんだ。

ヘイトスピーチ検出の問題

自動ツールはヘイトスピーチを識別する能力が向上してるけど、さまざまなプラットフォームの独自のルールに対応するのが難しいことが多い。これらのルールは何が攻撃的なコンテンツかを決めるけど、現在のデータセットはそのバリエーションに十分に対応してないんだ。たとえば、Facebookには特定のガイドラインがあって、検出に使われるデータセットには載ってないことがある。このギャップが、これらのツールがルールにどれだけ従っているかを評価するのを難しくしてる。

HateModerateデータセットの作成

この問題に対処するために、HateModerateデータセットが作られた。これは、Facebookのコミュニティスタンダードに対してヘイトスピーチ検出ツールを評価するためのもの。データセットには、ヘイトフルなコンテンツとそうでないコンテンツの7,704の例が含まれていて、全部Facebookの特定のルールにマップされてる。この作成プロセスは、いくつかのステップを経て、アノテーションガイドラインのグループと自然言語処理技術に頼って進められたよ。

アノテーションプロセス

合計で28人の大学院生が、既存のヘイトスピーチの例をレビューして、Facebookのガイドラインに合う新しい例を特定することでデータセットに貢献した。学生たちは、例を包括的かつ正確に編纂するために、構造化された6ステップのプロセスに従ったんだ。

  1. ヘイトフルな例の特定: アノテーターは手動で既存のデータセットを検索して、特定のガイドラインに合うヘイトスピーチの例を探した。特定のポリシーに合う十分な例を見つけるのが難しいと報告があったので、更なるデータ生成につながった。

  2. 例の拡充: 例が不足しているガイドラインのために、チームは機械学習モデルを使って新しいヘイトフルなコンテンツを生成した。これでギャップが埋まり、より豊富な例のセットが得られた。

  3. 検証: 例が収集された後、追加のアノテーターがガイドラインに対してその適切さを確認した。不適切と判断された例は削除された。

  4. 非ヘイトフルな例の収集: ヘイトスピーチ検出器の効果を評価するために、非ヘイトフルなコンテンツの難しい例も集めた。これらの例はヘイトフルな例に似せて提供され、モデルの強力な評価が可能になった。

  5. 非ヘイトフルな例のデータ増強: ヘイトフルな例と同様に、最初の検索で十分な結果が得られなかった場合、機械学習ツールを使って非ヘイトフルな例も生成した。

  6. 非ヘイトフルな例の検証: ヘイトフルな例と同じように、アノテーターグループが非ヘイトフルな例の正確性を確認してガイドラインに従っていることを確かめた。

データセットの構成

最終的なHateModerateデータセットは、ヘイトフルな例と非ヘイトフルな例のバランスの取れたコレクションで構成されている。このデータセット内の多様性は、自動ヘイトスピーチ検出器の性能をよりよく評価するのに役立つんだ。

ヘイトスピーチ検出器の評価

HateModerateデータセットを使って、いくつかの人気のあるヘイトスピーチ検出器を評価した。これにはGoogleのPerspective API、OpenAIのModeration API、FacebookとCardiff NLPから微調整されたモデルが含まれてる。評価の目的は、これらの検出器がFacebookのコミュニティスタンダードにどれだけ従っているかを確認することだ。

評価からの主要な発見

評価結果からいくつかのトレンドが見えてきた:

  1. パフォーマンスの変動: モデルによってFacebookのガイドラインへの適合度にばらつきがあった。OpenAIのモデルは一般的に最も良い結果を出したけど、他のモデルは特に非ヘイトフルな例に関して大きな欠点があった。

  2. 厳しいポリシーの優先: ほとんどの検出器は、軽いヘイトスピーチよりも重いヘイトスピーチを特定するのが得意な傾向があった。この不一致は、これらのモデルの信頼性について疑問を投げかける。

  3. 失敗率: モデルは非ヘイトフルな例を検出する際に高い失敗率を示した。これは、一部のモデルがヘイトフルなコンテンツと無害なコンテンツを正確に区別するのに苦労していることを示唆している。

モデルのパフォーマンス向上

ヘイトスピーチ検出器のパフォーマンスを向上させるために、研究者たちはHateModerateを使ってモデルの微調整を試みた。目標は、この新しいデータセットを追加することで失敗率を減少させることができるかを見ることだった。

微調整プロセス

微調整は、HateModerateのサブセットを既存のトレーニングデータと一緒に使用することを含んでいた。この新しいデータを導入することで、研究者たちはモデルが特定のガイドラインを理解しやすくし、正確な分類ができるように目指した。

微調整の結果

微調整のプロセスは良い結果をもたらした。HateModerateデータセットを取り入れたモデルは、Facebookのガイドラインへの適合度が向上し、他のテストセットにおけるパフォーマンスも維持された。これにより、HateModerateデータセットがヘイトスピーチ検出モデルの向上に重要な役割を果たす可能性が示唆された。

モデルのバイアスの解消

ヘイトスピーチ検出で考慮すべき重要な点は、バイアスの可能性だよ。特定のデータセットでモデルを微調整すると、特定のグループに対するバイアスを無意識に引き起こすことがある。研究者たちは、HateModerateを使った場合にモデルのバイアスが増加したかどうかを評価するために追加のテストを行った。

バイアスに関する発見

評価結果は、微調整されたモデルは全体的にパフォーマンスが向上したけど、いくつかのバイアスが残っていることを示した。しかし、HateModerateの追加は元のモデルと比べてバイアスを大きく増加させることはなかった。この発見は良いことで、データセットが公平性を損なうことなく効果的に利用できることを示唆している。

結論

HateModerateデータセットは、特定のソーシャルメディアポリシーに沿った自動ヘイトスピーチ検出を改善するための重要なステップを示している。ヘイトスピーチデータセットにおける既存のギャップを埋めることで、検出ツールの効果をより正確に評価することができる。結果は、HateModerateで微調整されたモデルが正確性を向上させ、失敗率を減少させることができることを示している。また、このデータセットは既存のモデルに存在する可能性のあるバイアスについての貴重な洞察を提供する。ソーシャルメディアプラットフォームが進化し続ける中、HateModerateのようなツールはオンラインコミュニケーションの安全性と整合性を確保する上で重要な役割を果たすだろう。

オリジナルソース

タイトル: HateModerate: Testing Hate Speech Detectors against Content Moderation Policies

概要: To protect users from massive hateful content, existing works studied automated hate speech detection. Despite the existing efforts, one question remains: do automated hate speech detectors conform to social media content policies? A platform's content policies are a checklist of content moderated by the social media platform. Because content moderation rules are often uniquely defined, existing hate speech datasets cannot directly answer this question. This work seeks to answer this question by creating HateModerate, a dataset for testing the behaviors of automated content moderators against content policies. First, we engage 28 annotators and GPT in a six-step annotation process, resulting in a list of hateful and non-hateful test suites matching each of Facebook's 41 hate speech policies. Second, we test the performance of state-of-the-art hate speech detectors against HateModerate, revealing substantial failures these models have in their conformity to the policies. Third, using HateModerate, we augment the training data of a top-downloaded hate detector on HuggingFace. We observe significant improvement in the models' conformity to content policies while having comparable scores on the original test data. Our dataset and code can be found in the attachment.

著者: Jiangrui Zheng, Xueqing Liu, Guanqun Yang, Mirazul Haque, Xing Qian, Ravishka Rathnasuriya, Wei Yang, Girish Budhrani

最終更新: 2024-03-18 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2307.12418

ソースPDF: https://arxiv.org/pdf/2307.12418

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

コンピュータビジョンとパターン認識DiffusionTrackを使ったマルチオブジェクト追跡の進展

DiffusionTrackは、騒がしい予測をうまく修正することで、マルチオブジェクトトラッキングを改善するよ。

― 1 分で読む

類似の記事