Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 機械学習# 人工知能# 計算と言語# 社会と情報ネットワーク

暗黙のヘイトスピーチを検出する新しい方法

新しいシステムがオンラインの会話で隠れたヘイトスピーチに対応してるよ。

― 1 分で読む


隠れたヘイトスピーチを検出隠れたヘイトスピーチを検出する悪を特定する。画期的なシステムが会話の中にある微妙な憎
目次

ソーシャルメディアはめっちゃ成長してるし、それに伴って問題も増えてる。大きな問題の一つがヘイトスピーチで、これは人が自分のアイデンティティに基づいて他の人を傷つけたり不快にさせたりすることを言うこと。多くの研究者が明らかに分かるヘイトスピーチを見つけるために頑張ってきたけど、隠れたヘイトスピーチや間接的なものにはあんまり注目されてないんだ。この隠れたタイプは、はっきりした傷つける言葉を使わないから tricky なんだよね。この記事では、この種のスピーチをオンラインの会話で見つけるための新しいアプローチについて話してる。

ヘイトスピーチを見つけることの問題

ヘイトスピーチは単なる悪口以上のもので、皮肉なコメントや見つけにくい暗号のような言葉に隠れていることがある。多くの人は直接的な侮辱を使えば、それがヘイトスピーチだと思ってるけど、時にはもっと微妙な形でヘイトが表現されることもあって、それが人や機械にとって見分けるのが難しいんだ。

こういうあまり明確じゃないヘイトスピーチを検出するのは重要だよ。だって、それが危害を加えたりコミュニティ内でネガティブな雰囲気を広める原因になるから。Twitter や Facebook みたいな多くのオンラインプラットフォームは、ヘイトスピーチに効果的に対処するのが難しい。ヘイトスピーチと戦うための取り組みはテクノロジー企業に限ったことじゃなくて、世界中の組織もこの問題に取り組んでる。

陰のヘイトスピーチって何?

明示的なヘイトスピーチは見分けやすい。直接的で厳しいからね。暗黙のヘイトスピーチは違って、はっきりした嫌な言葉を使わないことが多い。代わりに、皮肉やジョーク、表面的には無害に見える間接的な言及を使うことがある。このタイプのスピーチは注意が必要で、すぐには誰も気づかないうちにヘイトを広めることができる。

この問題を解決するためには、会話の中で隠れた意味を拾い上げられるシステムが必要だよ。今あるツールはストレートなヘイトスピーチを見つけるために作られてるけど、もっと微妙な形には気づけてない。だから、暗黙のヘイトスピーチを理解して特定するための新しい方法が必要なんだ。

コンテキストの重要性

暗黙のヘイトスピーチを見つける上での大きな課題の一つが、その発言が現れるコンテキストなんだ。会話の中で、誰かが言うことは他の人が前に言ったことによって変わる可能性がある。だから、コメントがヘイトなのかを本当に理解するためには、そのコメントだけでなく、全体の会話を見なきゃいけない。

例えば、誰かが無邪気なコメントに対して皮肉なことを言うかもしれない。その皮肉な発言だけだと不快に思えないかもしれないけど、議論の文脈の中では深い憎しみや偏見を示しているかもしれない。だから、ヘイトスピーチを検出しようとするシステムは、個別の発言だけでなく、会話全体を考慮する必要があるんだ。

新しいアプローチ:CoSyn

暗黙のヘイトスピーチ検出の問題に取り組むために、CoSynっていう新しいシステムが開発された。CoSynは、会話をもっと包括的に見ることを目指してる。このシステムは、個人的なコンテキスト、つまりユーザーのソーシャルメディアでの歴史や、その会話自体のコンテキストを考慮に入れる。

個人的コンテキスト

CoSynはまず、ユーザーの過去のインタラクションの歴史に注目する。どのユーザーも過去の投稿やコメント、コミュニケーションのスタイルがあって、それがその人の性格や偏見を理解する手助けになる。ユーザーが過去に何を言ったかを調べることで、CoSynはその人が通常どうコミュニケーションするかの明確なイメージを構築できる。過去の行動が新しいコメントがヘイトかどうかを判断するのに役立つんだ、特にそれが定まったスピーチのパターンに合致する場合には。

会話のコンテキスト

次に、CoSynはコメントが見つかった大きな会話を見ていく。会話の流れや、前のコメントへの反応、ユーザー同士のインタラクションの仕方を考慮する。つまり、CoSynは単にコメントを孤立して読むんじゃなくて、会話が積み重なっていく中で意味がどう変わるかを理解してる。

個人的なコンテキストと会話のコンテキストを組み合わせることで、CoSynはより効果的に暗黙のヘイトスピーチを特定できる。この二方向のアプローチによって、単純なキーワード検索では見逃される繋がりが見えてくるんだ。

CoSynの仕組み

CoSynは、Twitterのようなプラットフォームでの複雑な社会的インタラクションを理解するために、データを処理・分析する高度な方法を使ってる。テキストとユーザー間の関係を理解するために設計された機械学習技術の組み合わせを使ってる。

過去のエンゲージメント分析

CoSynはまず、ユーザーの過去の投稿やインタラクションを分析して、そのユーザーのプロファイルを作る。これによって、時間の経過に伴うパターン、特にヘイトスピーチの傾向を特定するのに役立つ。例えば、特定のグループについて否定的なコメントをよく共有するユーザーは、今後のインタラクションで警告サインになるかもしれない。

社会的つながり

次に、CoSynはユーザー同士のつながりを見ていく。誰が誰をフォローしてるか、誰が誰に返信してるか、どれくらい頻繁にユーザー同士が関わってるかを基にネットワークを作る。こうした関係を理解することで、CoSynは一人のユーザーが他のユーザーに与える影響を評価できるんだ。これは、意見や偏見が感染しやすい会話において重要なんだ。

コンテキスト分析

最後に、CoSynは個人的なコンテキストと会話のコンテキストを組み合わせて新しいコメントを評価する。全体の対話やユーザーの過去の行動に基づいて、発言がヘイトである可能性があるかどうかを分析する。この深い理解によって、ニュートラルなコメントが誤ってヘイトスピーチとしてフラグ付けされるのを減らすことができる。

結果と効果

CoSynは、ユーザーが明示的なヘイトスピーチと暗黙のヘイトスピーチの両方を使うことが多い Twitter の会話データセットでテストされて、結果的に CoSyn は単純なヘイトスピーチだけを見ていた以前のモデルよりもかなり良いパフォーマンスを示した。特に、会話の中で微妙な形のヘイトを認識するのに効果的で、現在のシステムにおける重要なギャップを解消している。

ユーザー歴の重要性

CoSynの評価からの重要な発見の一つは、ユーザーの歴史を知ることが重要だってこと。このデータが無害なコメントと潜在的に有害なコメントを区別するのに役立つ。例えば、ユーザーがヘイトに満ちたコメントを過去に投稿している場合、その新しい投稿は問題があると見なされる可能性が高い。

コンテキストの重要性

CoSynは、ヘイトスピーチを検出する上でコンテキストの重要性も示してる。全体の会話から得られた洞察は、単一のコメントでは表現できないパターンを明らかにする。このコンテキストの理解によって、CoSynは見過ごされがちな暗黙のヘイトスピーチをキャッチすることができる。

結論

オンライン会話における暗黙のヘイトスピーチを検出するのは大きな課題だ。でも、CoSynのようなシステムが導入されることで改善の可能性がある。個人的な歴史と会話のコンテキストの両方を含む広い視点を持つことで、CoSynはオンラインのヘイトスピーチと戦うために有望な一歩を示してる。

ソーシャルメディアがコミュニケーションで重要な役割を果たし続ける中で、隠れたヘイトスピーチに対処することがますます重要になってきてる。今後の作業は、これらのシステムをさらに強化して、追加の知識源を組み込む方法を見つけて、この重要な問題を特定し対処する能力を向上させる方向に進むだろう。

オリジナルソース

タイトル: CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network

概要: The tremendous growth of social media users interacting in online conversations has led to significant growth in hate speech, affecting people from various demographics. Most of the prior works focus on detecting explicit hate speech, which is overt and leverages hateful phrases, with very little work focusing on detecting hate speech that is implicit or denotes hatred through indirect or coded language. In this paper, we present CoSyn, a context-synergized neural network that explicitly incorporates user- and conversational context for detecting implicit hate speech in online conversations. CoSyn introduces novel ways to encode these external contexts and employs a novel context interaction mechanism that clearly captures the interplay between them, making independent assessments of the amounts of information to be retrieved from these noisy contexts. Additionally, it carries out all these operations in the hyperbolic space to account for the scale-free dynamics of social media. We demonstrate the effectiveness of CoSyn on 6 hate speech datasets and show that CoSyn outperforms all our baselines in detecting implicit hate speech with absolute improvements in the range of 1.24% - 57.8%.

著者: Sreyan Ghosh, Manan Suri, Purva Chiniya, Utkarsh Tyagi, Sonal Kumar, Dinesh Manocha

最終更新: 2023-10-24 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2303.03387

ソースPDF: https://arxiv.org/pdf/2303.03387

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事