リソースが少ない言語でのヘイトスピーチ検出
この調査は、さまざまな言語でヘイトスピーチを検出する際の課題と進展を示してるよ。
Susmita Das, Arpita Dutta, Kingshuk Roy, Abir Mondal, Arnab Mukhopadhyay
― 1 分で読む
目次
ソーシャルメディアは、過去10年でコミュニケーションの仕方を変えたよね。人々はアイデアや意見を交換したり、時にはあまり良くないコメントをしたりする。これらのプラットフォームでの匿名性は、ヘイトスピーチを引き起こし、これは世界中で大きな問題になってる。これは人々が何を言うかだけじゃなくて、どう言うかにも関わってる。言語が進化する中で、新しい言葉や表現が生まれる。それはヘイトスピーチを理解して対処しようとする人たちにとって挑戦を生んでるんだ。
英語はヘイトスピーチ検出に関して多くの注目を集めてるけど、多くの人が母国語を使ってオンラインで会話してる。このため、データや研究が十分に存在しない低資源言語に焦点を当てた研究が必要とされている。この調査では、その状況を詳しく見ていって、そうした言語におけるヘイトスピーチ検出に関する発見を紹介するよ。
ヘイトスピーチって何?
ヘイトスピーチの定義は簡単じゃないよね。まるで滑る魚を捕まえるみたい。人々のグループによって、ヘイトスピーチとみなされるものに対する意見が違うんだ。一般的には、ヘイトスピーチは人種、宗教、性別、または他のアイデンティティ要因に基づいて個人やグループを攻撃する言葉や行動を含む。例えば、誰かが特定の人種や宗教を侮辱するために derogatoryな言葉を使ったら、それはヘイトスピーチに当たるね。
多くの主要なソーシャルメディアプラットフォームにはそれぞれの定義がある。例えば:
- Meta: ヘイトスピーチを人種や性別などの保護された特徴に基づく直接的な攻撃として定義してる。
- YouTube: ヘイトスピーチは特定のグループに対して暴力を扇動するものと考えてる。
- Twitter: 人種、性別、その他の個人的特徴に基づく攻撃を禁止してる。
- TikTok: 特徴に基づいて個人を非人間化するコンテンツに焦点を当ててる。
- LinkedIn: 個人の特徴に基づいたヘイトスピーチを禁止してる。
ヘイトスピーチのカテゴリー
ヘイトスピーチは、誰や何をターゲットにしているかによっていくつかのカテゴリーに分けられる。ここにいくつかの主要なものを紹介するよ:
人種差別と外国人嫌悪
このカテゴリーは、人種や国籍に基づいて人々に対する否定的なコメントを含む。例えば、移民はよく出身地に基づいて敵対的な扱いを受けることがあるね。
性差別と性別に対するヘイト
これは、性別に基づいて個人に対する偏見のある発言を含む。女性がこうしたコメントの標的となることが多いけど、いろんな性別の人もヘイトスピーチを受けることがあるよ。
宗教的ヘイトスピーチ
このタイプは、宗教的信念に基づいて個人をターゲットにしてる。差別は暴力、対立、社会的不安に繋がることもある。
障害者差別
ここでのヘイトスピーチは、障害を持つ個人を攻撃することに向けられてる。これには、彼らの能力についての侮蔑的な発言や仮定が含まれることがあるよ。
ヘイトスピーチの検出が難しい理由
ヘイトスピーチを検出するのは、いくつかの理由で難しいよ。まず、言語は複雑で、文脈が重要だから。ある場面では無害に見えるコメントが、別の場面では攻撃的になることもある。人々はしばしば皮肉や巧妙な言葉遊びを使って、これが自動化システムを混乱させるんだ。
次に、ソーシャルメディアは毎日大量のデータを生成していて、手作業で全部を監視するのはほぼ不可能。だから、ヘイトスピーチを自動的に見つけるために、機械の助けが求められてるんだ。
自動ヘイトスピーチ検出の必要性
より多くの人が自己表現のためにソーシャルメディアを利用するようになるにつれて、ヘイトスピーチの量も増えてきた。手作業での監視は現実的じゃないから、多くの研究者がこの問題を解決するために、自動検出の手法に向かってる。
自動化システムは、自然言語処理、機械学習、深層学習の高度な技術を利用してる。膨大なテキストをスクリーニングして、ヘイトフルなコンテンツを特定するよ。ただ、この研究の多くは英語に集中していて、他の言語に関する研究にはギャップが残ってる。
データセット
ヘイトスピーチに関するデータを集めるのは、検出システムを訓練するための重要な部分だ。利用可能なデータセットのほとんどは英語で、Twitterや他のプラットフォームからのさまざまなデータセットは貴重なリソースを提供してるけど、低資源言語のデータ収集はまだ課題がある。
研究者たちは、アラビア語、ヒンディー語、タミル語などの言語でデータセットをまとめ始めていて、単言語および多言語の側面に焦点を当ててる。でも、量や質はまだ英語のデータセットには及んでない。
ヘイトスピーチ検出に使われる技術
ヘイトスピーチを検出する主な方法は、伝統的なアプローチと現代的なアプローチを組み合わせたものだ:
伝統的な方法
最初はキーワードベースの検出が一般的だった。これは単に、ヘイトスピーチに関連する特定の言葉やフレーズを特定するだけのものだった。役に立つけど、文脈やニュアンスを見逃すことが多くて、誤検出も多かった。
現代の技術
最近のアプローチは、文脈、感情、さらには画像を考慮した深層学習モデルを使うようになってる。例えば:
- BERT: このモデルは、文脈の中での言葉の関係や意味を理解してる。
- CNN: 畳み込みニューラルネットワークは、テキストのパターンを特定するために使われることが多い。
- RNN: 再帰型ニューラルネットワークはシーケンスを理解するために設計されていて、言語処理に便利だよ。
低資源言語の課題
低資源言語に関しては、課題がさらに増える:
- データ不足: モデルを効果的に訓練するための公開データが十分にないから、検出精度が低下することになる。
- 文化的ニュアンス: 地域によって言語の使い方が違うから、すべてに対応できるモデルを開発するのが難しい。
- ヘイトスピーチの定義: 「ヘイトスピーチ」っていう言葉は文化によって意味が異なるから、データセットの注釈付けが複雑になる。
研究の機会
課題はたくさんあるけど、ヘイトスピーチ検出を改善する機会もたくさんあるよ:
- データ収集の強化: 低資源言語からのデータ収集に焦点を当てることが役立つ。
- 文化的認識: 文化的文脈を考慮したモデルを作ることで、検出システムがより効果的になる。
- 学際的な協力: 社会学者、言語学者、データサイエンティストのチームワークを促進することで、より良い理解と解決策が得られるかも。
結論
特に低資源言語におけるヘイトスピーチ検出には、いろんな課題と機会がある。ソーシャルメディアがコミュニケーションの場であり続ける限り、ヘイトスピーチを自動的に特定して対処する重要性は増していくよね。まだやるべきことがたくさんあるけど、技術の進歩と言語のニュアンスの理解が、より包括的な未来を切り開くかもしれない。機械の助けを借りて、この問題に一緒に取り組んでいこう!
タイトル: A Survey on Automatic Online Hate Speech Detection in Low-Resource Languages
概要: The expanding influence of social media platforms over the past decade has impacted the way people communicate. The level of obscurity provided by social media and easy accessibility of the internet has facilitated the spread of hate speech. The terms and expressions related to hate speech gets updated with changing times which poses an obstacle to policy-makers and researchers in case of hate speech identification. With growing number of individuals using their native languages to communicate with each other, hate speech in these low-resource languages are also growing. Although, there is awareness about the English-related approaches, much attention have not been provided to these low-resource languages due to lack of datasets and online available data. This article provides a detailed survey of hate speech detection in low-resource languages around the world with details of available datasets, features utilized and techniques used. This survey further discusses the prevailing surveys, overlapping concepts related to hate speech, research challenges and opportunities.
著者: Susmita Das, Arpita Dutta, Kingshuk Roy, Abir Mondal, Arnab Mukhopadhyay
最終更新: 2024-11-28 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2411.19017
ソースPDF: https://arxiv.org/pdf/2411.19017
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://creativecommons.org/licenses/by-sa/4.0/
- https://transparency.meta.com/en-gb/policies/community-standards/hate-speech/
- https://www.youtube.com/intl/ALL
- https://help.twitter.com/en/rules-and-policies/x-rules
- https://www.tiktok.com/safety/en/countering-hate/
- https://www.linkedin.com/help/linkedin/answer/a1339812
- https://github.com/ZeerakW/hatespeech
- https://github.com/t-davidson/hate-s
- https://github.com/jing-qian/A-Bench
- https://github.com/ziqizhang/data
- https://github.com/intelligence-csd-auth-gr/Ethos-Hate-Speech-Dataset
- https://github.com/punyajoy/HateXplain
- https://zpitenis.com/ogtd
- https://github.com/paulafortuna/Port
- https://github.com/msang/hate-speech-corpus
- https://goo.gl/27EVbU
- https://github.com/nuhaalbadi/Arabic
- https://github.com/UCSM-DUE/
- https://github.com/
- https://github.com/ialfina/id-hatespeech-detection
- https://huggingface.co/datasets/sinhala-nlp/SOLD
- https://github.com/pmathur5k10/Hinglish-Offensive-Text-Classification
- https://github.com/rezacsedu/Bengali-Hate-Speech-Dataset
- https://github.com/l3cube-pune/MarathiNLP
- https://coltekin.github.io/offensive-turkish/
- https://github.com/verimsu/
- https://github.com/mawic/german-abusive-language-covid-19
- https://github.com/clips/hades
- https://github.com/adlnlp/K-MHaS
- https://github.com/deepanshu1995/HateSpeech-HindiEnglish-Code-Mixed-Social-Media-Text
- https://github.com/naurosromim/hate-speech-dataset-for-Bengali-social-media
- https://github.com/msang/hateval/
- https://projects.cai
- https://sites.google.com/site/offensevalsharedtask/home
- https://github.com/marcoguerini/CONAN
- https://hasocfire.github.io/hasoc/2019/dataset.html
- https://hasocfire.github.io/hasoc/2021/dataset.html
- https://gombru.github.io/2019/10/09/MMHS/
- https://hatefulmemeschallenge.com/
- https://github.com/Farhan-jafri/Russia-Ukraine
- https://github.com/eftekhar-hossain/MUTE-AACL22