Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能

インドネシアのオンラインでのヘイトスピーチ対策

新しいデータセットは、インドネシアでのヘイトスピーチ検出を改善することを目的としてるよ。

― 1 分で読む


オンラインヘイトスピーチとオンラインヘイトスピーチと戦うスピーチの増加に取り組んでるよ。新しいデータセットがインドネシアのヘイト
目次

ヘイトスピーチは、特にオンラインでの社会の大きな問題になってるよ。これがいろんなグループ間の関係を傷つけて、深刻な社会問題につながることもある。インドネシアでは、オンラインのヘイトスピーチが急増してて、その対策として効果的な検出方法を見つけることが急務になってるんだ。残念ながら、インドネシア語でのヘイトスピーチを明確に特定するデータが不足してるんだよね。特に、シーア派ムスリムやLGBTQ+の人々、民族的マイノリティに対してのものが多い。データが足りないから、信頼できる検出システムを開発するのが難しい。

より良い検出システムの必要性

ここ2年でインドネシアではオンラインのヘイトスピーチが大幅に増加した。これは効果的にヘイトスピーチを特定して対処するためのより良い検出システムが必要ってことを示してる。でも、これを作るのは難しいんだ。なぜなら、利用可能なデータセットは古かったり、詳細が足りなかったりするから。既存のデータセットには、ラベル付きのテキストが少ないため、信頼できる検出ツールを構築するのが制限されてる。

さらに、ヘイトスピーチは、特にマイノリティコミュニティをターゲットにした場合、報告されないことが多い。これが、そのような言葉を理解し分類するのをさらに複雑にしてる。現在のデータセットは、人々がヘイトスピーチを何と考えるかの異なる視点も考慮してないから、検出努力をさらに難しくしてる。

IndoToxic2024の紹介

ヘイトスピーチの検出のギャップを埋めるために、IndoToxic2024という新しいデータセットが作られた。このデータセットは、様々なバックグラウンドを持つ19人の個人によってラベル付けされた43,692のエントリーが含まれている。特に最近の大統領選挙の際に、インドネシアの脆弱なグループをターゲットにしたテキストに特化してる。IndoToxic2024の目標は、オンラインのヘイトスピーチや有害な行動の検出システムをより良くすることだよ。

ヘイトスピーチを特定するだけでなく、デモグラフィック情報が分類モデルをどう改善するかも分析することを目指してる。IndoBERTweetというモデルがこのデータセットを使ってファインチューニングされ、良いパフォーマンスを達成したんだけど、デモグラフィック情報に過度に焦点を当てると、モデルの精度が下がることもあるって指摘された。

ヘイトスピーチの影響

ヘイトスピーチは社会の調和に深刻な影響を与えることがある。こんな言葉は、異なるグループ間に分断を生み出すだけでなく、敵意や対立を悪化させることもある。特に、こうした言葉の主なターゲットになることが多いマイノリティコミュニティにとっては特にそう。オンラインのヘイトスピーチの増加は、社会の分極化を助長して、脆弱なグループをさらに危険にさらすかもしれない。

自動ヘイトスピーチ検出システムは、ヘイトスピーチの悪影響を最小限に抑えるのに役立つかもしれない。ただ、前述したように、こうしたシステムを開発するのにはいくつかの課題がある。

検出システム開発の課題

大きな課題の一つは、最新のデータが不足していること。多くのインドネシアのデータセットは数千のラベル付きテキストしか含んでいないから、信頼できる検出ツールを作るには足りない。さらに、既存のデータセットには、テキストをラベル付けした人々に関する重要な情報が含まれていないことが多い。これは、異なるバックグラウンドの人々がヘイトスピーチをどう解釈するかを考える上で重要なんだ。

例えば、あるグループがヘイトスピーチと見なすものが、他のグループには普通だったり、面白いと受け入れられたりすることがある。この視点の違いが、ヘイトスピーチを正確に分類するタスクをさらに複雑にしている。

ヘイトスピーチ注釈の主観性

主観性は、テキストがヘイトスピーチとしてラベル付けされる方法に大きく関わる。異なる人々は、背景や経験、見解が異なるから、テキストの認識にも影響を与える。この主観性は、内容がストレートでなかったり、皮肉などの隠れた意味が含まれている場合に特に顕著だ。

信頼できるデータセットを作るには、さまざまなデモグラフィックグループを代表する多様な注釈者が必要だよ。IndoToxic2024は、さまざまなバックグラウンドを持つ個人によってラベル付けされたエントリーを含んでいるから、ヘイトスピーチとは何かについての多様な視点を捉えるのに役立つ。

IndoToxic2024の作成プロセス

IndoToxic2024のデータを収集して注釈を付けるには、いくつかのステップがあった。テキストは、Facebook、Instagram、Twitterなどの人気のあるソーシャルメディアプラットフォームから集められた。研究者は、データセットの多様性を増すために、誤情報に関する記事も使用した。

データを集めた後、19人の多様な注釈者がテキストにラベルを付けるために集められた。各注釈者には報酬が支払われ、さまざまなデモグラフィック背景を代表するよう配慮された。注釈者には、ヘイトスピーチを特定するための特定のガイドラインがトレーニングされたよ。

注釈ガイドライン

注釈プロセスの重要な部分は、注釈者が有害なコメントを認識できるようなガイドラインを開発することだった。毒性は、侮辱、脅迫、性的に露骨な内容など、さまざまな形で現れることがある。注釈者には、明示的および暗示的なヘイトスピーチの両方を考慮するよう指示された。

注釈は、トレーニングフェーズと主な注釈フェーズの2つの段階で行われた。トレーニングフェーズでは、注釈者がガイドラインを理解していることを確認するためにテキストにラベルを付ける練習をした。主な注釈フェーズでは、何千ものテキストにラベルを付け、最終的にIndoToxic2024データセットが作成された。

データセットの分析

IndoToxic2024データセットには、ラベル付けされたヘイトスピーチの種類に関する詳細な統計が含まれている。43,692のテキストのうち、6,894が有害なものとして特定された。ほとんどの有害なテキストは侮辱として分類され、他には脅迫やアイデンティティ攻撃などのさまざまなタイプのヘイトスピーチが含まれていた。

異なるデモグラフィックグループがテキストに対してどのように注釈を付けたかを分析すると、ヘイトスピーチとは何かに関する意見が性別間でかなり異なることがわかった。例えば、男性の注釈者は、女性の注釈者よりも高い割合でテキストを有害としてラベル付けした。この発見は、ヘイトスピーチのラベル付けにおける主観性を強調し、注釈プロセスにおいて多様な視点を含めることの重要性を示している。

注釈における主観性:詳しく見てみる

注釈者の主観性は、ヘイトスピーチ検出システムの結果に影響を与える可能性がある。研究によれば、デモグラフィック情報を含めることでヘイトスピーチの毒性予測が向上することがわかった。ただし、ヘイトスピーチとは何かに関して、注釈者間で意見の不一致があることも強調されている。

分析から、テキストが注釈者にランダムに割り当てられることが多く、特定のデモグラフィックグループがテキストを異なって解釈する場合、ラベル付けにバイアスを生むことがあることが指摘された。この主観性を評価するために、研究者は統計的テストを適用して、ヘイトスピーチラベルの分布がさまざまなデモグラフィックグループ間で異なるかどうかを調べた。

インターコーダー信頼性メトリック

テキストがどれだけ一貫してラベル付けされているかを測定するために、インターコーダー信頼性(ICR)メトリックが使われた。高いICRスコアは、注釈者が評価に合意したことを示す。デモグラフィックグループ内および間のICRスコアを評価することで、主観性がラベル付けプロセスに与える影響を理解するのに役立つ。

一般的には、異なるグループ間よりもグループ内のICRスコアが高いことが予想されていた。ただ、これは必ずしも発見に支持されていなかった。一部のグループは、比較がデモグラフィックカテゴリ内外で行われたかどうかに関係なく、同様のスコアを示した。これは、注釈者のアイデンティティがテキストの認識に影響を与えることを示唆している。

モデリング結果とパフォーマンス評価

IndoToxic2024データセットを使用してIndoBERTweetのようなモデルをファインチューニングすることで、研究者はヘイトスピーチの検出におけるこれらのモデルのパフォーマンスを評価することができた。当初、モデルは良いパフォーマンスを示し、注目すべき精度を達成した。デモグラフィック情報を取り入れ、その影響を分析することで、さらなる洞察が得られた。

いくつかのモデルでは、デモグラフィック情報を含めることでパフォーマンスが向上した。ただ、IndoBERTweetの場合、過度のデモグラフィック情報がパフォーマンスを低下させた。これは、デモグラフィック情報が有用なコンテキストを提供する一方で、慎重に扱わないと学習プロセスを複雑にする可能性があることを示唆している。

トピック情報の役割

デモグラフィック情報に加えて、テキストのトピックの重要性も調査された。モデルにトピックに関する情報を提供することで、研究者は全体のパフォーマンスが向上することを発見した。テキストが何を話しているかに関するコンテキストを提供することで、モデルがテキストがヘイトスピーチと見なされる可能性についてより良い予測を立てるのに役立った。

この改善は、モデルがより豊かな情報を扱うことで、ヘイトスピーチを分類する際により微妙な判断を下すのに役立つことを示している。

今後の方向性と提案

IndoToxic2024の作成と分析から得た知識にもかかわらず、いくつかの重要な課題が残っている。主な懸念の一つは、ヘイトスピーチデータセットの悪用の可能性だ。こうしたデータセットの倫理的な影響は慎重に考慮されるべきで、特にそれがヘイトスピーチを生成するモデルのトレーニングに使用される可能性があるから。

前進するためには、脆弱なグループをターゲットにしたヘイトスピーチに特化した追加のデータセットを作成することが奨励されている。ヘイトスピーチを正確に分類できる自動検出システムの開発は、これらのコミュニティを保護するために重要だ。

さらに、デモグラフィック情報とトピック情報がモデルのパフォーマンスを向上させる方法を探求することで、ヘイトスピーチ検出技術の興味深い進展が得られるかもしれない。

結論

オンラインのヘイトスピーチに関する状況は、緊急の注意を要する問題だ。IndoToxic2024は、インドネシアでヘイトスピーチを特定し管理するための効果的な検出システムを作るための重要なステップを示している。ヘイトスピーチの注釈の複雑さを認識し、主観性、デモグラフィックの考慮、文脈情報の側面を含めることで、特にマイノリティコミュニティ向けの安全なオンラインスペースを作れるよう努力していくことができる。

継続的な研究と開発を通じて、ヘイトスピーチによって引き起こされる有害な影響を軽減し、さまざまなグループ間での理解と尊重を促進できるようにしていけたらいいね。

オリジナルソース

タイトル: IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language

概要: Hate speech poses a significant threat to social harmony. Over the past two years, Indonesia has seen a ten-fold increase in the online hate speech ratio, underscoring the urgent need for effective detection mechanisms. However, progress is hindered by the limited availability of labeled data for Indonesian texts. The condition is even worse for marginalized minorities, such as Shia, LGBTQ, and other ethnic minorities because hate speech is underreported and less understood by detection tools. Furthermore, the lack of accommodation for subjectivity in current datasets compounds this issue. To address this, we introduce IndoToxic2024, a comprehensive Indonesian hate speech and toxicity classification dataset. Comprising 43,692 entries annotated by 19 diverse individuals, the dataset focuses on texts targeting vulnerable groups in Indonesia, specifically during the hottest political event in the country: the presidential election. We establish baselines for seven binary classification tasks, achieving a macro-F1 score of 0.78 with a BERT model (IndoBERTweet) fine-tuned for hate speech classification. Furthermore, we demonstrate how incorporating demographic information can enhance the zero-shot performance of the large language model, gpt-3.5-turbo. However, we also caution that an overemphasis on demographic information can negatively impact the fine-tuned model performance due to data fragmentation.

著者: Lucky Susanto, Musa Izzanardi Wijanarko, Prasetia Anugrah Pratama, Traci Hong, Ika Idris, Alham Fikri Aji, Derry Wijaya

最終更新: 2024-06-27 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2406.19349

ソースPDF: https://arxiv.org/pdf/2406.19349

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事