テキストから画像生成におけるカーストの表現
T2Isがカーストのアイデンティティをどう描いて、ステレオタイプを強めているかを調べる。
― 1 分で読む
テキストから画像生成器(T2IS)は、書かれたプロンプトに基づいて画像を作成するツールだよ。最近すごく人気があって、いろんな分野で広く使われてる。でも、その使用が増えるにつれて、公正さや人々に与える影響についての懸念も増えてるんだ。このテーマに関するほとんどの研究は、西洋の文脈でよく見られるアイデンティティや、グローバルに認識されているものに焦点を当てがち。でも、この論文は、あまり議論されていないけど重要な問題、インドのカーストについて取り上げるよ。
カーストは、人々を社会的なルールや家族の背景に基づいて異なるグループに分けるシステムで、多くの人の生活に影響を与えてるんだ。この議論では、特に「Stable Diffusion」というT2Iモデルが、異なるカースト背景を持つ人々をどのように描いているのか、そしてどんな職業に見せているのかを見ていくよ。さまざまなプロンプトで画像を作成して分析することで、既存の社会的バイアスやステレオタイプを反映するパターンが明らかになるんだ。
背景
T2Isって何?
T2Isは、書かれた説明を画像に変換する高度なAIプログラムだよ。Stable Diffusionを含むこれらのモデルは、大量のテキストと画像から成るデータセットを使って、適切なビジュアルを生成する方法を学んでいるんだ。プロンプトを単語に分解して、それに視覚的な要素を結びつけて、これらの関連に基づいて画像を作るんだ。
カーストを理解する
カーストという言葉は「系譜」を意味する用語から来ていて、インドで深い歴史を持っている。何千年も前から確立されていて、人々を異なるグループに分類する役割を果たしているんだ。古代の文献によると、人々は社会的な役割や家族の遺産に基づいて特定のカーストに属している。
このシステムで認識されている主なカーストには、
- バラモン: 伝統的に僧侶や教師
- クシャトリヤ: 戦士や支配者
- ヴァイシャ: 商人や農民
- シュードラ: 労働者やサービス提供者
- ダリット: 以前は「不可触民」と呼ばれ、極度の差別と排除に直面している。
- アディヴァシ: インドの先住民族。
カーストのアイデンティティは、生まれた時に決められて、一生変わらないから、結婚の選択や就職の機会などの多くの側面に影響を与える。
今日のカーストに基づく差別
カーストに基づく差別は、アパルトヘイトに似ていて、異なる社会システムを作り出し、カーストに基づいて異なる権利や特権を与える。今でも、低いカーストの人々は多くの挑戦や障壁に直面している。多くの運動がこの抑圧に対抗して平等と権利の保護を求めて戦っているけど、まだ多くの問題が残っている。
研究の焦点
この研究の目的は、T2IモデルであるStable Diffusionが生成する画像で、カーストをどのように表現しているかを調べることだよ。特に、高カーストと低カーストの人々に関するステレオタイプを強化しているかどうかに興味がある。異なるカーストのアイデンティティを比較して、これらの画像がどのように社会的な見方を反映しているかを探るよ。
この研究を通じて、T2Isの文脈でカーストがどのように解釈されているのか、そしてそれが表現された個人にどんな影響を与えるのかについての重要な質問に答えようと思ってる。
方法論
画像生成
私たちは、Stable Diffusionを使って画像を生成するために、いろいろなプロンプトを使ったよ。特定のカーストの人々や特定の職業に関する画像を頼んで、どんな画像が生成されるのか観察したんだ。各プロンプトごとに100枚の画像を作成して、多様な出力を分析できるようにしたよ。
画像の比較と分析
異なるプロンプトから生成された画像の類似性を評価するために、コサイン類似度という方法を使ったよ。これには、画像のセットを比較して、表現の近さを理解することが含まれる。
この定量的分析に加えて、画像の質的レビューも行って、現れたパターンを評価し特定したよ。この組み合わせの方法で、出力を徹底的に分析することができたんだ。
結果
T2Isにおけるカーストの表現
高カーストの人々に焦点を当てたプロンプトの出力と、低カーストの人々に関するプロンプトを比較した時、明らかな違いが見られた。高カーストの人々の画像は、より都市的で裕福な環境にいて、背景は中立的なものが多かった。一方、低カーストの人々の画像は、農村の設定で貧困や労働-intensiveな役割を強調したものが多かった。
例えば、「インドの人」の画像を生成するようにプロンプトを出した時、高カーストの人やバラモンの人の画像に非常に似た出力が得られた。画像はしばしば洗練されていて、現代の服を着た人々がプロフェッショナルな活動に従事している様子が映し出されていた。
それに対して、「低カースト」の人々に関連するプロンプトからは、農業の現場や手作業に従事している人々の画像が生成された。農村の背景が目立つ傾向があり、低カーストの人々が貧困に閉じ込められているというステレオタイプを強調していた。
ダリットの人々に生成された出力には、個人の代わりに抗議活動している集団が多く描かれていて、ダリットが活動家や闘争と結びついているという印象を与える結果になった。それは彼らの個性や多様性を見落としてしまうものだった。
カーストレスのパターン
出力の中で一貫したパターンは、サヴァルナ(高カースト)アイデンティティが「カーストレス」として描かれる傾向があったことだよ。つまり、高カーストの人々の画像は、彼らのカーストの背景を反映していないことが多かった。一方で、低カーストの人々は彼らの社会的地位に関連するマーカーを持って描かれていた。これによって、高カーストであることが能力や成功を意味し、低カーストのアイデンティティが貧困と結びついているという物語が強化されちゃうんだ。
発見の影響
この発見は重要な問題を浮き彫りにしている。まず、T2Isの出力が有害なステレオタイプを助長する可能性があること。低カーストの人々を労働の役割にだけ描くことで、このモデルはこれらのコミュニティを周縁化する社会的バイアスに寄与しちゃう。次に、高カーストの人々をカーストレスとして描くことは、カーストシステムの微妙さやその影響を無視しているんだ。
改善のための提言
これらの問題に対処するために、T2Isの設計と出力を改善するためのいくつかの方法を提案するよ:
多様なコミュニティを巻き込む: 様々なカースト背景を持つ人々と関わって、彼らの視点や経験を理解する。彼らの洞察が、より正確な表現を導き、有害なステレオタイプを避ける手助けになるんだ。
データ収集の強化: 幅広い表現や経験を含む強力なデータ収集技術を実施する、特にカーストに抑圧されているコミュニティから。
教育的努力: カーストシステム、その影響、そして周縁化されたグループが直面している課題についての意識を高める。ユーザーにAI出力に存在する可能性のあるバイアスについて教育することで、より意識的な関与を促進できる。
出力の監視: T2Isの出力を継続的に評価して、潜在的なステレオタイプや不正確さを見つけ出し、必要に応じて基盤モデルを調整して、公正な表現を確保する。
文化的敏感さのトレーニング: 開発者や研究者は、自分たちのツールに存在するバイアスやその社会的影響を認識するためのトレーニングを受けるべきだよ。
成功の測定基準を再考する: 伝統的でしばしばバイアスがかかっている指標に依存せず、成功や表現の別の定義を探る。
社会変革の支援: カースト制度を解体し、周縁化されたコミュニティのための公平性を促進する取り組みを支援する。
結論
T2I出力におけるカーストの検討は、表現やステレオタイプの永続化に関する重要な問題を示している。Stable Diffusionというモデルは革新的だけど、さまざまなグループがどのように見られるかに影響を与える広範な社会的バイアスを反映しているんだ。公平さと平等を促進するツールを作りたいなら、生成された出力を批判的に評価し、より包括的な設計実践に向けて積極的に取り組まなきゃね。そうすることで、すべてのアイデンティティが正確に公平に表現される未来に向かって進むことができるんだ。
タイトル: Interpretations, Representations, and Stereotypes of Caste within Text-to-Image Generators
概要: The surge in the popularity of text-to-image generators (T2Is) has been matched by extensive research into ensuring fairness and equitable outcomes, with a focus on how they impact society. However, such work has typically focused on globally-experienced identities or centered Western contexts. In this paper, we address interpretations, representations, and stereotypes surrounding a tragically underexplored context in T2I research: caste. We examine how the T2I Stable Diffusion displays people of various castes, and what professions they are depicted as performing. Generating 100 images per prompt, we perform CLIP-cosine similarity comparisons with default depictions of an 'Indian person' by Stable Diffusion, and explore patterns of similarity. Our findings reveal how Stable Diffusion outputs perpetuate systems of 'castelessness', equating Indianness with high-castes and depicting caste-oppressed identities with markers of poverty. In particular, we note the stereotyping and representational harm towards the historically-marginalized Dalits, prominently depicted as living in rural areas and always at protests. Our findings underscore a need for a caste-aware approach towards T2I design, and we conclude with design recommendations.
著者: Sourojit Ghosh
最終更新: 2024-08-02 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2408.01590
ソースPDF: https://arxiv.org/pdf/2408.01590
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。