ミャンマーのデジタル空間でのヘイトスピーチ対策
ミャンマーでのオンラインヘイトスピーチに対処するためのコミュニティ重視のアプローチ。
― 1 分で読む
目次
ミャンマーでは、ソーシャルメディアの普及がヘイトスピーチの広がりに注目を集めていて、その結果、現実の暴力や混乱に繋がっているんだ。この問題は、国の政治的歴史や社会的緊張を考えると特に心配だよ。オンラインのヘイトスピーチの問題に対処するためには、テクノロジーとローカルな知識を組み合わせた方法が必要だね。文化的な文脈を理解している人たちと密に協力することで、ソーシャルメディアプラットフォーム上でのヘイトスピーチを特定し、管理するためのより良いシステムを作れるんだ。
ミャンマーにおけるヘイトスピーチの問題
ミャンマーは、特にロヒンギャの人々に対して、紛争や差別の複雑な歴史を持っている。ソーシャルメディアプラットフォーム、特にFacebookは、有害なメッセージやデマの拡散に重要な役割を果たしていて、それが暴力を煽る結果になっている。国際的な組織からの報告によれば、ソーシャルメディア上のヘイトスピーチがロヒンギャに対する暴力を助長し、何千人もの死者や広範な避難を引き起こしたことが強調されているんだ。
2020年の国政選挙が近づくにつれて、ヘイトスピーチがエスカレートするんじゃないかと懸念されていた。観察者たちは、オンライン上のアクターが既存の緊張を利用して暴力を煽る可能性があることを心配していた。この状況は、ミャンマーのニーズや文脈に合わせた効果的なヘイトスピーチ検出システムの開発を求めている。
コンテキストエキスパートの役割
効果的なヘイトスピーチ検出システムを作るためには、ミャンマーの社会的・政治的状況を深く理解しているローカルな専門家を巻き込む必要がある。このコンテキストエキスパートたちは、単なる言語の翻訳者ではなく、対立を引き起こす可能性のある発言の種類について貴重な洞察を持っている。彼らと協力することで、ヘイトスピーチを特定するためのより正確で文化的に関連性のある方法を開発できるんだ。
協力プロセスの構築
私たちは、ヘイトスピーチ検出プロジェクト全体でコンテキストエキスパートと協力するための体系的なプロセスを確立した。このプロセスにはいくつかの重要なステップが含まれているんだ:
パートナーシップ:私たちは、ヘイトスピーチや民主主義に関する問題に焦点を当てたローカルの組織との関係を築くことから始めた。このパートナーシップは、私たちの取り組みが地域の文脈に根ざし、コミュニティの優先順位に合致するために重要なんだ。
ヘイトスピーチの定義:法律の専門家やコンテキストエキスパートと協力して、ミャンマーにおけるヘイトスピーチの定義を考えた。この定義は国際基準から適応され、ローカルな感性を反映するように調整されていて、関連するヘイトスピーチのすべての事例をカバーできるようになっているんだ。
データ生成:コンテキストエキスパートの協力で、ヘイトスピーチを含むソーシャルメディアの投稿データセットを作成した。CrowdTangleのようなテクノロジープラットフォームを利用して投稿を収集し、合意された定義を使ってヘイトスピーチを特定したんだ。
モデルの検証:データが収集され処理された後、コンテキストエキスパートたちは、私たちが開発したヘイトスピーチ検出のための機械学習モデルの検証に重要な役割を果たした。彼らの洞察は、モデルの改善が必要な部分を特定するのにとても役立ったんだ。
直面した課題
このプロセスの中でいくつかの課題が生じたんだけど、その主な原因は、ビルマ語のような低資源言語におけるヘイトスピーチに関するデータが限られていたことだ。以下のような問題があった:
小さなデータセット:私たちのデータセットで検出されたヘイトスピーチの量は、レビューした投稿の総数に比べて比較的小さかった。これが、効果的な機械学習モデルのトレーニングを難しくしていたんだ。
データの不均衡:ほとんどのソーシャルメディア投稿はヘイトスピーチではなかった。この不均衡は、ヘイトスピーチを正確に特定するのが難しいモデルを生む可能性があるんだ。
データのクローズドな取り扱い:研究者とローカルのコンテキストエキスパートの間でデータを共有することが、ソーシャルメディアプラットフォームのデータ共有ポリシーによって複雑になっていた。これらのポリシーは、データの使い方や共有の方法を制限していることが多いんだ。
ヘイトスピーチ検出モデルの開発
課題があっても、私たちはソーシャルメディア上のヘイトスピーチを自動的に検出するモデルを開発した。このモデルは、コンテキストエキスパートの協力で作成したデータセットをもとに訓練された機械学習アルゴリズムに依存している。従来の手法や新しいニューラルネットワークベースのモデルなど、いくつかのタイプのアルゴリズムがテストされたんだ。限られた不均衡なデータセットでも効果的に機能するモデルを確保することが重要だった。
注釈ガイドライン
ヘイトスピーチ検出モデルの効果を高めるために、コンテキストエキスパートの助けを借りて明確な注釈ガイドラインを作成した。このガイドラインには、合意された基準に基づいて投稿をヘイトスピーチとそれ以外にラベル付けする方法が示されているんだ。ガイドラインは、ラベリングプロセスの一貫性を確保するのに重要で、注釈者が情報に基づいて判断できるようにするための例を提供している。
データ収集プロセス
データ収集プロセスでは、ミャンマーの文脈に特有のヘイト用語のリストを作成した。既存のヘイトスピーチ辞書からこれらの用語を集め、コンテキストエキスパートの助けを借りて洗練させたんだ。目標は、ソーシャルメディアの投稿でヘイトスピーチを示す可能性のある言葉の包括的なリストを作成することだった。
CrowdTangleサービスを利用して、選ばれたヘイト用語を含むミャンマーのさまざまな社会的・政治的ページから投稿を集めた。データをクリーンにするための大規模な前処理を行った後、作業できるかなりのデータセットが得られたんだ。
データの注釈付け
投稿の適切なラベリングは、効果的な機械学習モデルをトレーニングするために重要だ。ラベリングプロセスでのエラーを最小限に抑えるために、私たちは2人の注釈者が同じ投稿セットを独立してレビューするペアリング戦略を採用した。彼らは、ラベリングの決定について話し合い、違いを解消した。この戦略は、時間が経つにつれて注釈者の合意を向上させるのに役立ったんだ。
モデルのパフォーマンスと検証
データにラベルを付けた後、私たちは異なる機械学習技術を用いてヘイトスピーチ検出モデルのパフォーマンスをテストした。モデルの精度、再現率、F1スコアを基に、そのヘイトスピーチをどれだけ正確に特定できるかを評価した。コンテキストエキスパートがモデルの決定をレビューして、そのパフォーマンスについて質的な洞察を提供し、改善が必要な部分を特定したんだ。
重要な発見
私たちの発見は、低資源言語環境におけるヘイトスピーチ検出システム開発のいくつかの重要な側面を浮き彫りにしている:
コンテキストエキスパートとのコラボレーション:ローカルな専門家を巻き込むことは、ヘイトスピーチの定義を調整し、検出システムが地域の文脈に関連していることを確保するために重要だ。
データの課題:高品質なトレーニングデータの限られた入手可能性は、効果的なヘイトスピーチ検出モデルの開発に対する重要な障壁であり続ける。コミュニティベースのデータ収集に関与することで、これらの課題に対処できるかもしれない。
明確なガイドラインの重要性:ヘイトスピーチかどうかをラベル付けする際の一貫性を確保するために、明確で文脈に敏感な注釈ガイドラインを設けることが重要だ。
今後の研究に向けた提言
私たちの経験に基づいて、今後の研究で低資源言語環境におけるヘイトスピーチ検出を改善するためにいくつかの方向性を探ることができる:
データ拡張:既存のヘイトスピーチデータから追加のトレーニング例を生成する技術を探ることで、ラベル付きデータの不足を軽減できるかもしれない。
社会的文脈の理解:ソーシャルメディアやニュースソースからの追加の文脈を検出モデルに組み込むことで、その効果を高めることができる。
マルチモーダルアプローチ:テキストだけでなく、ヘイトスピーチを含む画像や動画を分析できるシステムを開発することで、問題に対するより包括的な解決策を提供できる。
非専門家の関与:機械学習プロジェクトに非専門家を巻き込む方法を見つけ続けることで、協力を促進し、これらの取り組みの持続可能性を向上させることができる。
結論
ミャンマーのデジタル空間におけるヘイトスピーチに対処するためには、地域の専門知識と理解を活用した思慮深くコミュニティ中心のアプローチが必要だ。協力することで、ヘイトスピーチを特定し、対応するためのより良いシステムを開発でき、最終的には誰にとっても安全なオンライン環境を育むことができるよ。この経験から得られた教訓は、オンラインでのヘイトスピーチの課題に直面している他の地域でも貴重な洞察を提供できるんだ。
タイトル: Tackling Hate Speech in Low-resource Languages with Context Experts
概要: Given Myanmars historical and socio-political context, hate speech spread on social media has escalated into offline unrest and violence. This paper presents findings from our remote study on the automatic detection of hate speech online in Myanmar. We argue that effectively addressing this problem will require community-based approaches that combine the knowledge of context experts with machine learning tools that can analyze the vast amount of data produced. To this end, we develop a systematic process to facilitate this collaboration covering key aspects of data collection, annotation, and model validation strategies. We highlight challenges in this area stemming from small and imbalanced datasets, the need to balance non-glamorous data work and stakeholder priorities, and closed data-sharing practices. Stemming from these findings, we discuss avenues for further work in developing and deploying hate speech detection systems for low-resource languages.
著者: Daniel Nkemelu, Harshil Shah, Irfan Essa, Michael L. Best
最終更新: 2023-03-29 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.16828
ソースPDF: https://arxiv.org/pdf/2303.16828
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。