ギャング暴力に対処するためのソーシャルメディアの活用
研究によると、ソーシャルメディアがギャング暴力の影響を受けた人たちをサポートするのに役立つことがわかった。
― 1 分で読む
目次
ギャング活動に関わっている人たちは、FacebookやTwitterみたいなソーシャルメディアを使って、脅迫や悲しみ、思い出をシェアすることが多いんだ。でも、ソーシャルメディアを通じてこういった活動がコミュニティにどんな影響を与えるかを理解するのは、独特なチャレンジがあるんだよね。例えば、ギャングの暴力に関わった人たちのデータを倫理的に探すことや、そういう人たちのツイートに見られる独特な言語スタイルを理解することが難しいんだ。
私たちの研究は、自然言語処理ツールを使って、カウンセリングや対立解決の支援が必要な人を特定できるってことを示しているよ。シカゴのツイートサンプルを使って、ギャング暴力に関連するツイートを特定できるモデルを作ったんだ。これらのツイートに使われている言語はすごく重要で、機械学習ツールが色んな言語スタイルを考慮することが効率よく機能するために必要なんだ。
シカゴの状況
シカゴは長い間、高い殺人率と特定の地域に集中する暴力に悩まされてきたんだ。ギャングの暴力は殺人の急増に関連していて、例えば2016年には年間の死亡者が500人から750人に増えた。こういった暴力にさらされると、メンタルヘルスの問題のリスクが高く、学校へのアクセスが減少し、復讐を通じて暴力が継続する可能性があるんだ。暴力の継続的なストーリーは、ギャングネットワークに関わったり近くにいる人たちが抱える複雑な喪失感、フラストレーション、そしてレジリエンスを隠してしまうことがある。
私たちの仕事は、ギャング暴力によって影響を受けている人たちを見つける手助けをすることに向けられているよ。
コミュニティワーカーの役割
コミュニティワーカーは、警察が知る前に暴力事件の可能性を聞くことが多いんだ。彼らは、ソーシャルメディアで攻撃的なメッセージを投稿しそうな人たちと話すことで、暴力を遅らせたり、予防したりできるんだ。他の組織、例えば教会は、対立中のギャングメンバー間での調停を行ったり、ダンスオフみたいな健全な競争ができるイベントを開催したりしてる。学校は、プロムみたいな大きなイベントの安全を確保するために、ソーシャルメディアのギャング関連の投稿に注意を払ってる。
Twitter上でギャング暴力に影響を受けた人たちを特定することに焦点を当てることで、支援が必要な人たちに手を差し伸べられるかもしれないね。
以前の方法
ソーシャルメディアに関する多くの以前の研究は、特定の言葉やコミュニティメンバーシップを探して、メンタルヘルスの問題を抱える人たちを見つけることに焦点を当ててた。ギャングメンバーを探す試みは、ハッシュタグやギャング活動に関連する画像に依存することが多かった。これらの方法は危険で、誰かをギャングメンバーとして特定することが深刻な法的結果をもたらす可能性があるんだ。
他の研究は、ギャングメンバーのツイートにおける悲しみや怒りのパターンを調べ、これらの感情を分類するモデルを開発したんだ。彼らは、アフリカ系アメリカ人英語(AAE)で書かれたツイートを理解するのが難しいことを強調していて、これは標準アメリカ英語(SAE)とは違うんだ。研究によると、多くの言語処理ツールはAAEにはあまり効果がなく、分類の誤解を招くことがあるらしい。
最近の研究では、言語処理ツールにおける潜在的なバイアスを評価する方法が改善されたんだ。これらの研究は、異なる単語の置き換えが人種、政治、性別に沿ったバイアスを示すことを示している。また、いくつかの方法は、従来のバイアス指標なしでも純粋なテキスト分類タスクにおけるバイアスを特定することができるんだ。
私たちのアプローチ
私たちは、ある人のツイートがギャング暴力に関連した支援の必要を示しているかどうかを分類する作業としてタスクを位置付けた。これによって、カウンセラーやソーシャルワーカーのようなコミュニティリソースが、オープンなオンラインソースを使って支援が必要な人を見つけることができるんだ。ギャング暴力に影響を受けた人を特定する時に高いレベルの自信を持つことが重要で、そういった活動へのリンクは深刻な影響を持つ可能性があるからね。
ギャング暴力に影響を受けた人からのトレーニングデータを集める方法を開発したんだ。これによって、彼らがギャング活動に参加しているとは限らないという前提を持たずにデータを集められるから、モデルが個人を犯罪行為に間違って告発することがないようになっている。次に、支援が必要な個人を特定する点で、以前の方法よりも優れたロジスティック回帰分類器を構築したんだ。さらに、ツイートで使われる言語がモデルのバイアスにどのように影響を与えるかを説明し、異なるコミュニティとどのように相互作用するかを理解するのに役立てたよ。
データ収集
ギャング暴力に影響を受けた個人を特定するための分類器を作るために、ギャング暴力を体験している人たちのツイートとシカゴからのランダムなツイートを集めたんだ。感情や言語スタイルでラベル付けされたツイートも含めて、モデルのバイアスをテストするために使用したよ。
ギャング所属の特定の問題
既存の多くの研究は、ギャングメンバーを特定するために、特定のハッシュタグやギャングに関連する画像のような識別特徴を探していたんだ。でも、これらの方法には大きな不確実性が伴うんだよね。例えば、ギャング所属を示唆する参照を持っているユーザーを見つけたけど、さらなる調査でその仮定には疑問が出たこともあった。公の投稿は、その人をギャングメンバーとして自信を持って特定するには十分ではないことも多いんだ。
倫理的データ収集
私たちの研究は、マイノリティコミュニティからの実際の経験を共有するツイートを含むので、倫理的声明を作成したんだ。私たちの方法は正式なレビューを必要としないけど、犯罪歴が知られていない支援が必要な個人を特定することに重点を置いて、私たちの予測が犯罪行為を暗示しないようにしている。さらに、私たちは制度的不平等を学び、さまざまな専門家と相談したんだ。全てのデータは機密に保たれていて、生きている個人のツイートは匿名化されているよ。
ギャング暴力に影響を受けた個人
私たちはギャング暴力に関与している人々に焦点を当てるのではなく、影響を受けた人々、つまり被害者や関与している人の家族や親しい友人にターゲットを絞っているんだ。この人たちを特定するために、ギャング暴力の被害を受けたシカゴの2人のティーンエイジャーのツイートを利用したんだ。彼らのツイートが、悲しみや喪失に関する感情分析の基盤となったよ。
これらの個人のツイートを使って、彼らの感情表現を喪失、攻撃性、その他のカテゴリーに分類するためのデータを集めたんだ。それから、彼らとオンラインで頻繁にやり取りしている人たちを特定して、サンプルサイズを増やしたんだ。
比較のためのランダムサンプル
比較のためのランダムな人口を作るために、Twitterの投稿ストリームから1ヶ月間のツイートを集めたんだ。このサンプルで、コミュニティリソースの必要性が不明なユーザーのツイートを分析できた。英語で書かれたツイートをタグ付けに集中し、データの整合性を確保するためにリツイートを除外したんだ。
言語のバリエーション
研究によると、アフリカ系アメリカ人コミュニティは特有の社会的な条件に直面していて、それが特定の言語スタイルにつながることがあるんだ。私たちの研究は、ギャングに関与する若者の多くのツイートがアフリカ系アメリカ人英語の要素と彼らのコミュニティの独自の言語を組み合わせていることを示しているよ。
分類器のパフォーマンスを異なる英語の形式で比較するために、アフリカ系アメリカン、ヒスパニック、ホワイト英語で書かれたツイートのデータセットを使用したんだ。
特徴とモデル構造
ツイートを標準的なテキスト処理技術を使って処理して、ストップワードや句読点のような無関係なコンポーネントを排除したんだ。それから、特定の単語の頻度、絵文字の存在、異なるスピーチのタイプの割合など、さまざまな特徴を調べながら処理されたツイートを分析したよ。
ロジスティック回帰やランダムフォレスト分類器を含むいくつかのモデルを試して、私たちの分析に最適な方法を決定したんだ。
予測の評価
サンプルサイズの不均衡を考慮して、精度と再現率に基づいてモデルを評価したんだ。精度は必要な支援を求めるツイートの正確性を測り、再現率はすべての関連ツイートを見つけるモデルの能力を評価するんだ。
モデルパフォーマンスの比較
トレーニングデータとテストデータを分けるための3つの方法を試して、私たちの分類器が支援を必要とするツイートをどれだけ特定できるかを測ったんだ。異なる条件下で異なるモデルがより良い結果を出すことが分かったけど、全体的には、私たちのシステムはギャング関連のツイートを特定する従来の方法よりも効果的だったよ。
バイアスの評価
使われる言語が特定のコミュニティに結びつくことが多いから、バイアスが私たちのモデルの予測にどう影響するかを調べたんだ。分類器の特徴の重要性を観察することで、モデルの予測が特定の言語スタイルにどのように関連しているかを理解しようとしたよ。
今後の方向性
私たちの仕事は、ギャング暴力に影響を受けた人々の支援ニーズを予測するさらなる研究の基盤を築いているんだ。今後は、絵文字の解釈を改善したり、ツイートの感情を検討したり、地理データを組み込んだり、語彙のベースライン手法を洗練させたりすることを提案しているよ。
データサイエンスと社会的洞察の交差点は、ギャング暴力によって助けを必要とする人々を見つけるのに大いに役立つんだ。私たちの研究は、ギャング暴力に影響を受けた個人たちが独特な言語スタイルを使うことを示していて、これは彼らの実際のバックグラウンドや経験を反映しているかもしれないし、そうでないかもしれないんだ。これらの言語バイアスを認識することで、本当にケアが必要な人々を特定するための公正な方法を開発できるし、ギャングへの関与についての仮定を避けられるんだ。今後の研究では、標準アメリカ英語を超えたさまざまな言語形式との相互作用を引き続き検討するべきだと思うよ。
タイトル: Understanding Lexical Biases when Identifying Gang-related Social Media Communications
概要: Individuals involved in gang-related activity use mainstream social media including Facebook and Twitter to express taunts and threats as well as grief and memorializing. However, identifying the impact of gang-related activity in order to serve community member needs through social media sources has a unique set of challenges. This includes the difficulty of ethically identifying training data of individuals impacted by gang activity and the need to account for a non-standard language style commonly used in the tweets from these individuals. Our study provides evidence of methods where natural language processing tools can be helpful in efficiently identifying individuals who may be in need of community care resources such as counselors, conflict mediators, or academic/professional training programs. We demonstrate that our binary logistic classifier outperforms baseline standards in identifying individuals impacted by gang-related violence using a sample of gang-related tweets associated with Chicago. We ultimately found that the language of a tweet is highly relevant and that uses of ``big data'' methods or machine learning models need to better understand how language impacts the model's performance and how it discriminates among populations.
著者: Dhiraj Murthy, Constantine Caramanis, Koustav Rudra
最終更新: 2023-04-22 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.11485
ソースPDF: https://arxiv.org/pdf/2304.11485
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。