マルチモーダルAIモデルにおけるジェンダーバイアスの評価
画像やテキスト生成モデルの性別バイアスを評価する新しい方法。
― 1 分で読む
最近、DALL-EやStable Diffusionみたいなモデルが注目を集めてるよね。このモデルはテキスト入力をもとに画像を生成できるから、クリエイティブな可能性が広がるんだ。ただ、これらのモデルは訓練に使ったデータに含まれる社会的バイアスも反映しちゃってるんだよね。特に性別に関するバイアスが問題視されてる。
これらのモデルのバイアスを手動で監査するのはすごく手間がかかるし、リソースも必要なんだ。モデルが処理できる入力の形がいろいろあるから、さらに複雑になるしね。これまでのバイアス測定に関する研究は、通常は一種類のデータだけを扱う簡単なモデルに焦点を当ててたけど、複数のデータタイプを扱うマルチモーダルモデルの登場で、効果的にバイアスを測定するための新しい方法が必要になってる。
この記事では、マルチモーダルモデルの性別バイアスを評価するための新しい方法、マルチモーダル複合連合スコア(MCAS)を紹介するよ。この方法を使ってDALL-E 2やStable Diffusionをテストした結果、これらのモデルに埋め込まれた概念の中に明確な性別関連が見つかったんだ。MCASは、異なるモードやタイプ間で潜在的なバイアスを定量化するシンプルでスケーラブルな方法を目指してる。
性別、人種、民族などの社会的バイアスは、特にコンピュータビジョンで使われる深層学習モデルでは新しい問題じゃない。既存のバイアス監査手法は、モデルがどう学ぶかを測定するアプローチと、予測を評価するアプローチに主に集中してる。でも、深層学習の進歩で、複数のデータタイプを扱う新しいモデルには、バイアス検出のための新しい戦略が必要だね。
DALL-EやStable Diffusionみたいなモデルは、テキストと画像の両方を使うから、分類に特化した古いモデルよりも能力が高いんだ。テキストの説明から画像を生成したり、長さの異なるテキストを画像に関連付けたりできるんだ。このモデルの応用範囲は広く、コンテンツ作成から画像検索まで様々なんだ。
これらのモデルのマルチステージの特性が、あるモデルが別のモデルのバイアスを増大させる状況を引き起こすことがあるんだ。そこで、MCASを提案して、性別と仕事、スポーツ、物体などの特定の概念との関連を測定する方法を考えたんだ。MCASは、言葉の関連性をみるWord Embeddings Association Test(WEAT)の発展系で、テキストと画像のつながりを両方見るんだ。
MCASの目標は、バイアスを詳細なレベルで測定して、モデル内の観察可能なバイアスのドライブ要素を理解することなんだ。この方法で生成される数字は、データに見つかった関連性の強さとタイプに対応してる。MCASを使った初期テストでは、男性と女性に関連するステレオタイプを明らかにすることに焦点を当てたけど、もっと広範な性別表現を評価するように適応できるんだ。
この記事の残り部分では、コンピュータビジョンにおける性別バイアスに関する以前の研究を紹介し、MCASがどのように機能するか、その構成要素やDALL-E 2やStable Diffusionのモデルでのバイアスを特定する方法について説明するよ。
関連研究
マルチモーダルモデルにおける性別バイアスの研究は、さまざまなシステム内でこれらのバイアスが持続していることを指摘している。たとえば、CLIPというモデルは「ブロンド」という言葉を女性に関連付け、「医者」や「重役」という言葉を男性にリンクさせることがわかった。他にも一般的に女性にリンクされる用語には「ニュースプレゼンター」や「ニュースキャスター」があったけど、性別に中立な用語の使用にもかかわらずそうだった。
さらに、人気の画像データセットの調査によると、男性は車両やアウトドア活動に関わるよりアクティブな場面でよく描かれ、女性は家庭的なシーンに多く登場することがわかった。スポーツのイメージでは、男性は主にアウトドアスポーツに関連付けられ、女性はインドア活動にもっと見られた。
最近の研究では、バイアス検出に焦点を当ててきて、InsideBiasのような取り組みが、トレーニングデータの変更に基づいてニューラルネットワークがどのように異なる反応を示すかを測定している。他の研究では、モデルが女性を家庭の仕事に関連付けて性別バイアスを反映することが示された。
Word Embeddings Association Test(WEAT)は、言語モデルのバイアスを測定するための方法で、言葉の関連性を使ってバイアスを評価するんだ。このテストは特定の単語が二つの異なるカテゴリーにどのように関連しているかを評価し、言語使用におけるバイアスを明らかにする。これらの概念は、視覚モデルにおけるバイアスを測定するために、視覚表現と性別属性の相関を分析するImage Embeddings Association Test(iEAT)に拡張されている。
ここで紹介される研究は、複雑なマルチモーダルモデルにおける概念間の関連を評価するための方法を作るために、これらの以前の研究に基づいている。
生成モデル
最近、DALL-EやStable Diffusionのような拡散過程に基づく生成モデルが大幅に改善された。これらのモデルは、Generative Adversarial Networks(GANs)に比べてトレーニングが簡単で、さまざまな画像を生成できる。こうした柔軟性により、複雑なデータの組み合わせを処理し、もっと抽象的なアイデアに基づいて画像を生成できるんだ。
でも、これらのモデルを訓練するために使われるデータセットは、しばしば膨大でフィルターなしなため、モデルがオンラインに存在する社会的バイアスを引き継いじゃうんだ。この状況は、効果的なバイアス測定方法の必要性を強調してる。
MCASはWEATから派生したもので、特定の性別がさまざまなタスク、オブジェクト、分野にどのように関連するかを評価することを目指してる。4つのコアスコアコンポーネントから成り立っていて、それぞれ異なるデータ形式(画像とテキスト)に焦点を当ててる。これは、WEATのアプローチと同じく、関連性の強さを測定することに対応してる。
MCASの構成
MCASは、生成モデルにおけるバイアスの特定の側面に焦点を当てた4つの個別スコアで構成されてる:
- 画像-画像関連スコア:生成された画像が性別属性とどれくらい関連があるかを評価するスコア。
- 画像-テキストプロンプト関連スコア:性別を表す画像と、ターゲット概念を生成するために使われたテキストプロンプトを比較するスコア。
- 画像-テキスト属性関連スコア:テキスト属性と生成された画像との関連を見るスコア。
- テキスト-テキスト関連スコア:テキストデータに基づいたバイアスを評価するスコア。
これらのスコアを計算する方法は、関連するデータタイプから特徴を抽出し、関連性の強さを評価することに関わってる。
全体のMCASスコアは、すべての個別関連スコアの合計で、マルチモーダルモデルに存在するバイアスを包括的に定量化する仕組みになってる。これによって、モデルの動作のさまざまなステージ内でバイアスがどこに存在するのかを完全に理解できるんだ。
スコアのためのデータキュレーション
MCASが性別バイアスを効果的に明らかにできるかテストするために、属性用のデータセットとターゲット概念用のデータセットの二つを作成したよ。これらは、性別に関連する視覚的およびテキストデータをカバーしてる。このデータセットは、男性と女性に関連する用語をバランスよく選んで、職業、活動、シーンに焦点を当ててる。
合計688枚の画像が、性別関連の関連性を特定するための初期研究から作成されたプロンプトを使って生成された。生成されたデータセットは、性別バイアスを評価するために使われたよ。
スコアの計算
スコアは、CLIPというモデルを使ってテキストと画像から特徴を抽出することで計算された。DALL-EとStable Diffusionの両方がCLIPを利用しているから、生成される埋め込みは比較可能なんだ。
MCASスコアは、性別に関連するバイアスの強さを明らかにした。正のスコアは男性をターゲットにした概念との関連が強いことを示し、負のスコアは女性をターゲットにした概念との強い関連を示唆してる。スコアがゼロに近いと、男性と女性の間にニュートラルであることを示すんだ。
発見と議論
MCASを使ったDALL-E 2とStable Diffusionモデルでの検証は、これまでの研究と一致する明確なバイアスパターンを示した。メトリクスは、これらのモデル内で性別バイアスがどのように現れるかの一貫したトレンドを明らかにしたよ。
たとえば、物体に関連する概念を調べたところ、「メイクアップキット」が女性と強く関連付けられた。他の職業カテゴリーでは、「CEO」が主に男性に関連付けられ、「ハウスキーパー」が女性と強く関連してた。さらに、スポーツの分野では、「体操」は女性と強く関連してた唯一のターゲットで、大半のスポーツは男性に関連付けられてた。
両モデルは似たようなトレンドを示したけど、特定のカテゴリーでは違いもあった。一般的に、結果は女性のステレオタイプ的な表現に関するバイアスがより顕著であることを示してた。
また、結果はStable DiffusionがDALL-Eよりも広範かつ強い性別関連を示してることを示唆していて、各モデルがどのように社会的バイアスを処理し反映するかに違いがあるかもしれない。
結論と今後の研究
MCASの導入は、マルチモーダル生成モデルにおけるバイアス評価の重要なステップを示している。DALL-E 2とStable Diffusionの両方に従来の性別バイアスが存在することを示してる。MCASを通じて開発されたスコアリングシステムは、さまざまなデータ形式を通じてバイアスを測定する詳細な方法を提供するんだ。
この研究は性別バイアスに焦点を当ててるけど、この方法は人種、民族、地理に関連する他のバイアスの研究にも適応できるんだ。モデルコンポーネントを評価する能力は、どのステージがバイアスに寄与しているか、これらの影響がどのように重なり合うかを特定するのに役立つよ。
MCASの今後の適用は、機械学習の操作に使用されて、バイアス評価が容易になるようなことも考えられる。この方法論は、モデルトレーニング中のバイアス緩和活動にも役立つから、より公平で公正なAIシステムを作りたい開発者にとって貴重なツールになると思うよ。
タイトル: Multimodal Composite Association Score: Measuring Gender Bias in Generative Multimodal Models
概要: Generative multimodal models based on diffusion models have seen tremendous growth and advances in recent years. Models such as DALL-E and Stable Diffusion have become increasingly popular and successful at creating images from texts, often combining abstract ideas. However, like other deep learning models, they also reflect social biases they inherit from their training data, which is often crawled from the internet. Manually auditing models for biases can be very time and resource consuming and is further complicated by the unbounded and unconstrained nature of inputs these models can take. Research into bias measurement and quantification has generally focused on small single-stage models working on a single modality. Thus the emergence of multistage multimodal models requires a different approach. In this paper, we propose Multimodal Composite Association Score (MCAS) as a new method of measuring gender bias in multimodal generative models. Evaluating both DALL-E 2 and Stable Diffusion using this approach uncovered the presence of gendered associations of concepts embedded within the models. We propose MCAS as an accessible and scalable method of quantifying potential bias for models with different modalities and a range of potential biases.
著者: Abhishek Mandal, Susan Leavy, Suzanne Little
最終更新: 2023-04-26 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.13855
ソースPDF: https://arxiv.org/pdf/2304.13855
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。