画像生成におけるノンシスジェンダーの表現の検討
この記事では、画像生成技術における非シスジェンダーアイデンティティの描写を分析してるよ。
― 1 分で読む
最近の画像生成技術の進歩は、多くの人を驚かせていて、テキストから高品質な画像を作成する能力が注目されてる。でも、これらの技術は文化的なステレオタイプを反映したり、強化したりすることで害をもたらすこともある。この文章では、特にトランスジェンダーやノンバイナリーのような非シスジェンダーのアイデンティティがどのように表現されているのかを調査する。
問題の概要
画像生成モデルは、時々有害な結果を生むことがある。これは、生成された画像が人々をネガティブなステレオタイプと一致させるような形で表現したり、実際のアイデンティティの多様性を反映しない場合に起こる。私たちの目標は、シスジェンダー(出生時の性別に一致する人々)と非シスジェンダーのアイデンティティに関連したプロンプトを与えたときに、これらのモデルがどのように機能するかを分析すること。
研究デザイン
この研究では、人気のある3つの画像生成モデルの出力を比較した。シスジェンダーと非シスジェンダーのアイデンティティ用語を含むプロンプトに対して、どのように応答するかを見た。また、非シスジェンダーの人々に対して、彼らがどのように表現されているかや、これらの技術から生じる可能性のある害について意見を集めるために調査やインタビューを行った。
発見
非シスジェンダーアイデンティティの誤表現
私たちの分析では、非シスジェンダーアイデンティティがしばしばシスジェンダーの人々に比べて人間らしく描かれていないことがわかった。たとえば、ある画像では非シスジェンダーの人々がより漫画的に描かれたり、誇張された特徴を持っていた。また、非シスジェンダーの個人がその人間性ではなく、性的な部分が強調されて描かれる傾向も見られた。
調査の洞察
この技術の影響をより理解するために、非シスジェンダーの人々に調査を行った。回答者からの主な懸念は以下の通り:
- 誤表現:多くの人が生成された画像が自分のアイデンティティを正確に反映していないと感じていた。
- ネガティブなステレオタイプの強化:回答者は、偏った表現が有害な社会的信念や行動につながることを心配していた。
- コミュニティの関与を望む声:参加者は、非シスジェンダーコミュニティがこのモデルにおいてどのように表現されるかの形を作るためにもっと意見を出してほしいと求めていた。
質的観察
特定のプロンプトを調査した際、特定のアイデンティティがステレオタイプと一緒に描かれることが多かった。たとえば、「ツースピリット」という用語のために生成された画像は、伝統的な服を着た複数の個人を含むことが多く、このアイデンティティの複雑さを反映していない。また、トランスジェンダー女性はしばしば男性的な特徴を持って描かれ、彼女たちの自己認識と合わないことがあった。
今後のモデル開発への影響
回答者は、有害を防ぐための単純なルールやヒューリスティックスにはほとんど満足していなかった。代わりに、多様なアイデンティティを含むより良いトレーニングデータを求める強い希望を示した。これにより、モデルが非シスジェンダーの個人をより正確で本物の表現をするように学ぶ手助けとなるだろう。
改善のための提案
- コミュニティの関与を増やすこと:非シスジェンダーの人々をこれらのモデルの作成と開発に関与させることで、彼らの視点が取り入れられるようにする。
- キュレーションされたトレーニングデータ:モデルはさまざまな非シスジェンダーのアイデンティティを含む広範で代表的なデータセットでトレーニングされるべき。
- カスタマイズオプションの提供:ユーザーが表現を調整できるようにすることで、個々のアイデンティティをより正確に反映することが可能になる。
- 透明な開発プロセス:モデルのトレーニングやデータ収集のプロセスを明確にすることで、潜在的な害を軽減できる。
結論
現在の画像生成モデルの状態は、非シスジェンダーの個人の表現に関して大きな害の可能性を示している。これらの問題を理解し、コミュニティの声や多様なトレーニングデータを優先する変更を実施することで、技術が人間のアイデンティティの豊かさを正確かつ前向きに描写する未来に向けて努力できる。
関連研究
技術における性別アイデンティティの表現を探ることは新しいことではないが、画像生成モデルに特化したフォーカスはまだ発展中だ。過去の自然言語処理(NLP)研究でも似たようなバイアスが指摘されている。言語の使い方が性別やアイデンティティの認識に影響を与えることが示された。NLPと画像生成のギャップを埋める研究が急務だ。
アイデンティティを包括するNLP
NLPの取り組みでは、非シスジェンダーアイデンティティに対するバイアスに取り組み始めているが、まだ多くの作業が残っている。一部の研究では、性別非依存の代名詞の使用が探求され、言語モデルが包括性の点で改善できる領域が特定された。これらの結果は画像生成におけるより良いプラクティスの基礎となる。
画像生成におけるバイアス分析
言語生成におけるバイアスの特定にはかなりの研究が行われてきたが、画像生成の分野はまだあまり探求されていない。初期の研究では、モデルが特定のデモグラフィックを好むことが示されており、若い白人個人を一般的に描く傾向がある。これは、修正が必要な表現のバランスが大きく崩れていることを浮き彫りにする。
生成結果の分析
私たちの研究では、モデルがさまざまな性別アイデンティティを含むプロンプトにどのように反応するかに焦点を当てた。異なるアイデンティティ用語をセットテンプレートに挿入することによって、画像を生成し、いくつかの基準に基づいてその質を評価した。
方法論
私たちは、さまざまな非シスジェンダーアイデンティティを網羅するアイデンティティ用語のセットを選び、典型的な代名詞や記述子も含めた。テンプレートを使用することで、一貫性を保ちながらアイデンティティ間の変化を探求できた。一部のテンプレートは、既存のデータセットに基づいて商業使用シナリオに合わせてデザインされた。
画像生成プロセス
画像は、一般に公開されている人気のあるモデルを使って生成された。各プロンプトの結果、複数の画像が得られ、その出力の質と表現を比較・分析することができた。
結果:観察と統計
画像の提示
生成された画像はさまざまな特性を反映していた。フォトリアリズムの度合いを評価し、示唆されるヌードや民族的多様性などの特徴を注目した。結果は、シスジェンダーアイデンティティのプロンプトに対して生成された画像と非シスジェンダーのプロンプトの画像の間で明確な対照を示した。
注目すべきパターン
- フォトリアリズム:非シスジェンダーアイデンティティのために生成された画像は、フォトリアリズムのスコアが低いことが多く、リアルな表現が不足していることを示している。
- ヌード:非シスジェンダーアイデンティティに関連する画像には、ヌードの割合が高く、性的化の傾向が示唆されている。
- 民族的表現:生成された画像の大多数が白人に見える個人を特徴としており、多様性の欠如を強調している。
調査の洞察:回答とテーマ
回答者のデモグラフィック
調査には多様な非シスジェンダーの個人が参加し、表現に関するさまざまな視点を提供した。大多数はノンバイナリーと自己認識し、AI技術に対する親しみを表明した。
表現に対する視点
回答者は、技術において自分たちのアイデンティティを正確に表現することの重要性を強調した。多くの人が誤表現の影響を示す個人的な経験を共有した。彼らのフィードバックから以下の主なテーマが浮かび上がった:
- 本物の表現を望む声:非シスジェンダーの人々は、自分たちが正確に表現されることを望んでおり、性別表現の多様性にも余地があることを期待している。
- 物化に対する懸念:参加者は、自分たちのアイデンティティが単なるステレオタイプや性的なイメージに還元されることを心配していた。
今後の開発のための提案
私たちの分析、調査、インタビューから得られた結果に基づいて、画像生成モデルが非シスジェンダーアイデンティティを扱う方法を改善するためのいくつかの提案ができる:
- 多様なトレーニングデータの収集:トレーニングデータセットに多様性を求めることで、より代表的な出力を生み出す助けになる。
- コミュニティのフィードバックを促進する:非シスジェンダーの人々をデザインと開発の段階に関与させることが重要。彼らの洞察は、より良いモデルの創造に導く。
- カスタマイズ機能の作成:ユーザーが生成された画像を修正するオプションを持つことで、自己表現を正確に描写できるようにする。
- 開発の透明性を確保する:データが収集され、モデルがトレーニングされる方法について明確にコミュニケーションすることで、これらの技術に影響を受けるコミュニティとの信頼を築く。
結論
非シスジェンダーアイデンティティに関する誤表現やステレオタイプに関する調査は、これらの技術がどのように運用されるかにおいて変化の緊急性を示している。コミュニティの関与、より良いトレーニングプラクティス、強化されたモデル機能を通じて、デジタル空間でより包括的な環境を育むことができる。
今後の方向性
この研究で特定された問題は、技術、アイデンティティ、表現の交差点における継続的な研究の必要性を示しています。今後の研究では、性別アイデンティティの進化する性質と、これらの進展がどのように包括性を支援または妨げるかを考慮すべきです。
より広い影響
- 社会への影響:メディア、特にデジタル画像における誤表現は、公衆の認識に影響を与え、非シスジェンダーアイデンティティに関する有害なステレオタイプを強化する可能性がある。
- 文化的感受性:開発者や研究者は、アイデンティティの表現を、マイノリティグループの経験に対する文化的な認識や感受性を持ってアプローチする必要がある。
この会話を続け、より責任ある開発プラクティスを推進することで、人間のアイデンティティの豊かな多様性を正確に反映し、尊重する技術を目指していくことができる。
タイトル: Stereotypes and Smut: The (Mis)representation of Non-cisgender Identities by Text-to-Image Models
概要: Cutting-edge image generation has been praised for producing high-quality images, suggesting a ubiquitous future in a variety of applications. However, initial studies have pointed to the potential for harm due to predictive bias, reflecting and potentially reinforcing cultural stereotypes. In this work, we are the first to investigate how multimodal models handle diverse gender identities. Concretely, we conduct a thorough analysis in which we compare the output of three image generation models for prompts containing cisgender vs. non-cisgender identity terms. Our findings demonstrate that certain non-cisgender identities are consistently (mis)represented as less human, more stereotyped and more sexualised. We complement our experimental analysis with (a)~a survey among non-cisgender individuals and (b) a series of interviews, to establish which harms affected individuals anticipate, and how they would like to be represented. We find respondents are particularly concerned about misrepresentation, and the potential to drive harmful behaviours and beliefs. Simple heuristics to limit offensive content are widely rejected, and instead respondents call for community involvement, curated training data and the ability to customise. These improvements could pave the way for a future where change is led by the affected community, and technology is used to positively ``[portray] queerness in ways that we haven't even thought of'' rather than reproducing stale, offensive stereotypes.
著者: Eddie L. Ungless, Björn Ross, Anne Lauscher
最終更新: 2023-05-26 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.17072
ソースPDF: https://arxiv.org/pdf/2305.17072
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://twitter.com/jose_falanga/status/1537953980633911297
- https://twitter.com/ScientistRik/status/1553151218050125826
- https://twitter.com/NannaInie/status/1536276032319279106
- https://huggingface.co/runwayml/stable-diffusion-v1-5
- https://github.com/openai/dalle-2-preview/blob/main/system-card.md
- https://dallery.gallery/the-dalle-2-prompt-book/
- https://colab.research.google.com/github/borisdayma/dalle-mini/blob/main/tools/inference/inference_pipeline.ipynb
- https://github.com/openai/openai-python
- https://www.craiyon.com/
- https://openai.com/blog/dall-e-introducing-outpainting/
- https://huggingface.co/dalle-mini/dalle-mega
- https://www.gendercensus.com/results/2022-worldwide/
- https://www.nativeyouthsexualhealth.com/two-spirit-mentors-support-circle