マルチメディアにおけるヘイトスピーチ検出の改善
音声、動画、テキストを組み合わせることで、ヘイトスピーチの検出が強化されるんだ。
― 1 分で読む
インターネットの利用が増えてきたことで、オーディオやビデオコンテンツの中でのヘイトスピーチを特定するのが難しくなってきた。動画や音声をテキストに変換するだけだと、文脈を見逃すことが多いんだよね。人はヘイトワードを遊び感覚で使ったり、トーンや動作でいろんな感情を表現したりするからさ。今のヘイトスピーチ検出法は、大抵テキストだけに焦点を当ててる。この研究では、画像や音声、テキストを組み合わせて、動画内のヘイトスピーチ検出を改善する方法を提案しているんだ。
ヘイトスピーチに対処する重要性
今のデジタル社会では、ヘイトスピーチは書き込まれたコメントや投稿だけじゃなくて、音声メッセージやビデオにも存在する。こういう有害なコンテンツは、サイバーブリングや暴力行為などの深刻な問題につながることがある。多くのヘイトクライムはオンラインから始まっていて、実際の人々に影響を与えているって報告もあるし。こうしたデータは声や顔の表情に関連していることが多いから、ヘイトスピーチを検出する際にはこれらすべての要素を考慮するのが重要なんだ。
現在の方法とその限界
現在の研究は、ヘイトスピーチを特定するためにテキストデータに依存しすぎていることが多い。でも、こういう方法は感情トーンや表情を無視するから不十分なんだ。この研究は、オーディオ、ビデオ、テキストを一緒に考慮することで精度を高めることを目指している。
研究アプローチ
この研究のアプローチは、いくつかの主要なステップから成る:
データ収集: 映画やシリーズなどから、ヘイトスピーチと非ヘイトスピーチの例を集めた動画をいくつか集めた。
データ準備: 動画を処理して画像、音声、テキストコンテンツを抽出。それぞれのコンテンツをヘイトか非ヘイトとしてラベル付けした。
特徴抽出: 画像、音声クリップ、テキストの関連する特性を特定して抽出。重要な特徴を選ぶためにいろんな技術を使った。
モデル開発: 画像、音声、テキストのための別々のモデルを作成。それぞれのモデルの結果を組み合わせて、最終的にヘイトスピーチが含まれているかどうかを決定した。
データソースとタイプ
この研究では、合計1,051本の動画が準備され、ヘイトスピーチと非ヘイトスピーチに分類された。ヘイトスピーチは怒りや恐怖といったネガティブな感情と結びついていて、非ヘイトスピーチは喜びや楽しさといったポジティブな感情に関連づけられていた。動画データは、そのようなコンテンツを処理するためのツールを使って抽出され、結果は適切にラベル付けされた。
データ処理
画像データ
動画から30フレーム/秒のペースで画像を抽出して、それぞれの画像を内容に基づいてラベル付けした。これらの画像は、分析の一貫性のためにリサイズされた。
音声データ
動画の音声は背景雑音を取り除いて、ヘイトスピーチを特定しやすくした。音声は効果的な分析のために短いセグメントに分けられ、音データの正確な評価を可能にした。
テキストデータ
音声データは音声認識技術を使ってテキストに変換された。変換後、特別な文字やストップワードなどの不要な要素を取り除いて、主要なメッセージに焦点を当てるようにテキストを整理した。
特徴抽出技術
画像用
画像は処理用に配列に変換された。ヘイトと非ヘイトコンテンツの違いを強調するための重要な特徴が抽出された。
音声用
音声信号は時間と周波数の両方のドメインで分析された。エネルギーレベルや音の変化の速度など、ヘイトスピーチを示す可能性がある基礎的な特徴を理解するために、さまざまな特性が計算された。
テキスト用
テキストデータは、単語の出現回数をカウントしたり、ドキュメント全体で特定の単語の重要性を評価したりする方法を使って、固定長のベクトルに変換された。
関連する特徴の選択
特徴を抽出した後、特徴選択のために設計された特定の技術を使って、最も重要な特性を選択した。これによって、最終モデルに使うのは最も有用な情報だけになるようにした。
テストと結果
いくつかの機械学習モデルを使って、ヘイトスピーチ検出システムの性能を評価した。その中には:
- サポートベクターマシン(SVM): このモデルは、ヘイトコンテンツと非ヘイトコンテンツを分ける最適な決定境界を特定した。
- ランダムフォレスト: この手法は、複数の決定木を構築してコンセンサスを得ることで、エラーを最小限に抑えた。
- ロジスティック回帰: この統計モデルは、コンテンツがヘイトか非ヘイトとして分類される可能性に影響を与えるさまざまな要因を評価した。
- アダブースト: このアプローチは、以前の誤分類に基づいてデータの重みを調整することで、弱いモデルの性能を向上させることに焦点を当てた。
- ナイーブベイズ: このモデルは、特徴が独立しているという仮定に基づき、確率に基づいて分類を行った。
マルチモーダルアプローチ
個々のコンテンツタイプをそれぞれ評価した後、過半数の投票方式を使って結果を統合した。もし、2つ以上のモデルがヘイトスピーチを示したら、そのコンテンツはヘイトスピーチとして最終的に分類された。
結果の分析
マルチモーダルアプローチは、単一のデータタイプを分析するよりも精度が向上することがわかった。試したモデルの中では、アダブーストとナイーブベイズが最も良い結果を出して、75%以上の精度を達成した。他のモデルも競争力のある性能を示したが、異なるコンテンツタイプを統合するアプローチの強みが際立った。
結論
ヘイトスピーチは効果的に対処すべき重要な問題だ。この研究では、オーディオ、ビデオ、テキストを一緒に分析することで、ヘイトコンテンツをより正確に検出する進展があった。多様なデータソースを使用し、異なるモデルからの結果を組み合わせることで、オンラインでの有害なスピーチの拡散を減らす可能性が示された。この取り組みは、安全なオンラインスペースを創出し、尊重あるコミュニケーションを促進するための進行中の努力に貢献している。
タイトル: Multi-modal Hate Speech Detection using Machine Learning
概要: With the continuous growth of internet users and media content, it is very hard to track down hateful speech in audio and video. Converting video or audio into text does not detect hate speech accurately as human sometimes uses hateful words as humorous or pleasant in sense and also uses different voice tones or show different action in the video. The state-ofthe-art hate speech detection models were mostly developed on a single modality. In this research, a combined approach of multimodal system has been proposed to detect hate speech from video contents by extracting feature images, feature values extracted from the audio, text and used machine learning and Natural language processing.
著者: Fariha Tahosin Boishakhi, Ponkoj Chandra Shill, Md. Golam Rabiul Alam
最終更新: 2023-06-15 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2307.11519
ソースPDF: https://arxiv.org/pdf/2307.11519
ライセンス: https://creativecommons.org/publicdomain/zero/1.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.fbi.gov/news/pressrel/press-releases/fbi-releases-2019-hate-crime-statistics
- https://www.medicinenet.com/why-do-people-hate/article.htm
- https://positivepsychology.com/positive-negative-emotions/
- https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.673.2797
- https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/springerEBR09.pdf