Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 機械学習

ソーシャルメディアの言葉で人種差別を見抜く

エクアドルに焦点を当てたツイッターの人種差別的な言葉を調べて分類する。

― 1 分で読む


オンラインでの差別的な言葉オンラインでの差別的な言葉を特定すること然とした人種差別を明らかにする。ツイッターを分析して、隠れた人種差別と公
目次

多様な形で人種差別は存在していて、社会のいろんな場面で見ることができる。特に言語の中でそれらの形を理解し、特定するのは大事なんだ。SNSの普及に伴って、差別的な言語はもっと複雑になって、見抜きにくくなってる。この記事では、大量のテキストコレクション、特にツイートを使って、さまざまなタイプの差別的な言語を認識して分類する方法を紹介するよ。

人種差別の概念

人種差別っていろんな定義があるんだ。多くの学者は、人種に基づいて人をカテゴリーに分ける社会的な行動だと同意していて、これはしばしば社会的不平等につながるんだ。広く言えば、人種差別は特定の人種の優位性を促進し、他を劣位とみなすシステムとして理解できる。この理解は、研究者が人種差別がどのように機能し、時間とともに進化するかを考察する手助けをする。

人種差別の異なる形

人種差別には、明示的なものと隠れたものの二つの主な形がある。明示的な人種差別はオープンに表現され、明確な侮蔑的な言葉を含むことが多い。一方で、隠れた人種差別はもっと微妙で、コード化された言語やステレオタイプ、さらには一見無害に見えるフレーズでも、特定の人種グループに対してネガティブな意味を持つことがある。その見えない性質が、隠れた人種差別を特に危険にしている。なぜなら、それは見落とされたり無視されたりすることがあるからなんだ。

現代における人種差別の理解

言語は人種差別的な考えを広める上で重要な役割を果たす。特定の人種についての話し方は、既存の権力ダイナミクスを反映し、社会的ヒエラルキーを強化することがある。言語が使われる文脈を理解することは、差別的な言説を特定するために不可欠なんだ。例えば、エクアドルでは、歴史的および社会的な文脈が、特に先住民に対する人種差別の表現方法を形作っている。

エクアドルの人種構造

エクアドルの人種構造は、植民地時代の過去に根ざしていて、先住民は厳しい差別と不平等に直面してきた。これらの歴史的な要因は、現代の日常的な相互作用や人種に関する発言にも影響を与えている。先住民コミュニティは政治的な力と社会的な認知を得るために頑張ってきたけど、挑戦や差別的な態度に直面し続けている。

方法論

人種差別的な言語を効果的に特定し、分類するためには、理論的な概念と現代の機械学習技術を組み合わせた体系的なアプローチを提案するよ。このプロセスは、まず人種差別の文脈を理解し、コーディングフレームワークを構築し、テキストを正確に分類できる高度な言語処理モデルを使うことを含む。

ステップ1: 概念化

研究者はまず、自分の研究で人種差別が何を意味するのかを定義しなきゃいけない。これがすごく重要で、研究の成果に影響を与えるから。明確な定義を設けることで、理論的な理解に基づいた仮説を立てることができる。

ステップ2: 文脈化

人種差別が概念化されたら、次にそれを特定の歴史的および社会的な文脈の中に位置づけることが重要だ。例えば、ラテンアメリカでの人種差別の機能は、アメリカ合衆国での表れ方と大きく異なるかもしれない。研究者は、地域の歴史、社会構造、文化的なダイナミクスなどの要因を考慮しなきゃいけない。

ステップ3: 差別的な言語の特定

人種差別を文脈化した後は、それが言語の中でどのように現れるかを認識するステップに移る。この過程では、データにおいて識別されたさまざまな表現の人種差別を反映するコーディングスキームを作成することが必要だ。

ステップ4: 機械学習技術の適用

効果的な分類のために、文脈の中でテキストを理解できる機械学習モデルを使うよ。XLM-RoBERTaモデルは、このタスクにおいて優れた選択肢で、言語分類タスクで良いパフォーマンスを示しているんだ。人種差別的な言語の複雑さを反映したラベル付きデータセットでモデルをトレーニングすることで、精度と信頼性を向上させることができる。

データ収集

この研究は、2018年から2021年までのエクアドルの先住民コミュニティに関連するツイートに焦点を当てていて、特に2019年の10月の抗議活動に重点を置いている。このデータセットには何百万ものツイートが含まれていて、SNSでの人種差別の表現方法について多くの情報を提供している。

ツイッターデータの探索

ツイートは先住民コミュニティに関連するさまざまな検索用語を使って集められた。このアプローチにより、明示的なものと隠れたものの両方の差別的な発言をカバーする広範囲なコンテンツが確保された。目的は、先住民に関する言説の幅を捉えることだった。

トレーニングプロセス

機械学習モデルをトレーニングするために、ラベル付きのツイートデータセットが作成された。このプロセスでは、ツイートを明示的な人種差別、隠れた人種差別、または非人種差別的にコーディングすることが求められ、先に設定した定義に基づいている。

コードブックの構築

ツイートを正しく特定し、ラベル付けするために、コーダーを導くコードブックが開発された。これには、明示的および隠れた人種差別のための定義、ルール、例が含まれていて、ラベリングプロセス全体の一貫性を確保している。コードブックは、あいまいなテキストに直面したときにコーダーが情報に基づいた判断を下せるようにする。

機械学習の実装

しっかりしたデータセットと明確なコーディングガイドラインが整ったら、次のステップは機械学習モデルをトレーニングすることだ。文脈を理解する能力で知られるXLM-RoBERTaモデルがこのタスクに選ばれた。

モデルの事前トレーニング

モデルは、特にエクアドルの文脈における人種差別の表現に焦点を当てて、多くのツイートからさらに事前トレーニングされた。この追加のトレーニングは、隠れた人種差別と明示的な人種差別に関連する微妙な言語の理解を向上させることを目指していた。

モデルのファインチューニング

事前トレーニングが終わったら、ツイートをより正確に分類するためにモデルがファインチューニングされた。このステップでは、ハイパーパラメータを調整し、パフォーマンスを評価するためのクロスバリデーションという方法論を使用した。モデルのファインチューニングを行うことで、さまざまな形の人種差別的な言説を特定する精度を向上させることを目指している。

結果と分析

トレーニングされたモデルは、収集したツイートに適用され、さまざまな形の人種差別的言説の普及についての洞察を提供した。結果は、隠れた人種差別が明示的な人種差別よりも一般的であることを示し、社会的なダイナミクスに基づく期待と一致していた。

隠れた人種差別 vs. 明示的な人種差別

分析の結果、明示的な人種差別は社会的な結果のためにあまり頻繁には表現されないが、隠れた人種差別は日常的な議論の中に漂っていることが示された。この発見は、微妙な形の人種差別を認識するためには継続的な警戒が必要であることを強調している。

公人の役割

公人は普通のユーザーと比べて明示的な人種差別的言語を使うことが少ないことがわかった。この行動は、公の発言に伴う社会的コストに影響されていると思われる。一方、隠れた人種差別はより広く受け入れられ、さまざまなタイプのユーザーからのツイートに現れている。

人種差別理解への影響

この研究の結果は、現代社会における人種差別の現れを理解する上で重要な意味を持っている。先進的な方法を使って差別的な言語を検出することで、人種差別がどのように機能し、進化するかをより良く理解できる。特にデジタル時代においてね。

社会における人種差別への対処

さまざまな形の人種差別的言説を特定する能力は、社会内で人種差別に対処するために不可欠だ。明示的な人種差別と隠れた人種差別を認識することで、これらの問題に効果的に取り組むための取り組みを開発できる。

結論

この記事は、特にSNS上のテキストにおけるさまざまな形の人種差別的言語を分類するための包括的なアプローチを提供している。人種差別を概念化し、それを文脈化し、言語を特定し、機械学習技術を用いることで、研究者は現代社会における人種差別のダイナミクスについて貴重な洞察を得ることができる。結果は、隠れた人種差別の広がりや、社会的ヒエラルキーとの微妙な相互作用、すべての形の人種差別を理解し、対抗するための継続的な努力の重要性を浮き彫りにしている。

オリジナルソース

タイトル: Machines Do See Color: A Guideline to Classify Different Forms of Racist Discourse in Large Corpora

概要: Current methods to identify and classify racist language in text rely on small-n qualitative approaches or large-n approaches focusing exclusively on overt forms of racist discourse. This article provides a step-by-step generalizable guideline to identify and classify different forms of racist discourse in large corpora. In our approach, we start by conceptualizing racism and its different manifestations. We then contextualize these racist manifestations to the time and place of interest, which allows researchers to identify their discursive form. Finally, we apply XLM-RoBERTa (XLM-R), a cross-lingual model for supervised text classification with a cutting-edge contextual understanding of text. We show that XLM-R and XLM-R-Racismo, our pretrained model, outperform other state-of-the-art approaches in classifying racism in large corpora. We illustrate our approach using a corpus of tweets relating to the Ecuadorian ind\'igena community between 2018 and 2021.

著者: Diana Davila Gordillo, Joan Timoneda, Sebastian Vallejo Vera

最終更新: 2024-01-20 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2401.09333

ソースPDF: https://arxiv.org/pdf/2401.09333

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事