視覚と言語モデルのバイアス
この研究は、画像-テキストモデルにおける重要なバイアスとその社会的影響を明らかにしている。
― 1 分で読む
最近、大量の画像とテキストのセットを集めて、画像と言語をつなぐモデルを訓練する動きが増えてきたよ。このトレンドは便利だけど、公平性やバイアスについての疑問も出てきてるんだ。小さなデータセットでも、MSCOCOみたいに、社会的な見方を反映したバイアスが見えることがある。この問題は、インターネットからデータを集めるときに監視が少ないと、もっと大きくなるんだ。今の大量の画像を調べるためのツールが足りないから、この問題を解決するのは特に難しい。
貢献
この研究には3つの主な貢献があるよ。まず、Google Conceptual Captions (GCC)データセットの一部に人口統計や文脈ラベルを追加して、4つの人口統計的側面と2つの文脈的側面をマークしたんだ。次に、これらの注釈の詳細な分析を提供して、異なる人口統計グループがどのように表現されているかを見てみた。最後に、画像と言語をつなぐための3つの一般的なタスクを評価したよ:画像にキャプションを生成すること、テキスト-画像の埋め込みを作成すること、テキストから画像を生成すること。私たちの結果は、すべてのタスクでバイアスが続いていることを示している。
トレーニングデータのシフト
近年、視覚と言語のモデルを訓練する方法が変わったよ。MS-COCOやVisual Genomeみたいな慎重に注釈されたデータセットを使う代わりに、今はインターネットから自動的に収集された大規模なデータセットに頼ってる。この変化は、トレーニング用の画像-テキストペアが増えていることからもわかるんだ。昔のデータセットには数十万の画像が含まれていたけど、最新のコレクションは何百万ものサンプルを含んでいる。このデータの増加が、CLIPやImagen、DALL-E 2みたいな素晴らしいモデルの開発につながっているんだ。これらのモデルは、分類や画像生成のタスクで素晴らしい結果を出している。
でも、大きなデータセットは実際のデータに対するコントロールが減ることが多い。オンラインで有害なコンテンツが簡単に手に入るから、こうした手作りじゃないコレクションで訓練されたモデルは、世界のバイアスを学びやすくなっちゃう。これが、異なる人口統計グループによって異なるパフォーマンスを示すモデルにつながることがあるんだ。
バイアスのリスク
不公平な表現を受け取るリスクはかなり大きいよ。バイアスのあるデータセットから学習したモデルは、これらのバイアスを反映するだけじゃなくて、より強調してしまうこともある。これは、これらのモデルが制御された環境を超えて使用されるときに深刻な結果をもたらす可能性がある。
データセットの注釈と分析
このバイアスに対抗するためには、公平性の対策がデータセット作成プロセスとモデル開発フェーズの両方に組み込まれなきゃいけない。でも、これらの対策を効果的に適用するためには、性別や肌の色などの人口統計情報が必要なんだ。残念ながら、そういった注釈は現在はあまりなくて、いくつかのデータセットにしか存在していない。
この研究では、GCCデータセットの一部に6種類の属性-4つの人口統計(年齢、性別、肌の色、民族)と2つの文脈的(感情、活動)-を追加したよ。このデータセットには約330万の画像キャプションペアが含まれていて、自動的に収集された最初の大規模なデータセットの一つだったんだ。私たちはこれらの注釈を「社会評価のための認知された人間の注釈」という名前を付けて、異なる人口統計グループがどのように表現されているかを分析した。
私たちの分析では、すべての人口統計属性において大きな不均衡が明らかになったよ。MSCOCOと比較したとき、GCCデータセットは性別と肌の色に関してより大きな表現のギャップを示した。また、3つのタスクを調べた結果、すべての場合でバイアスが存在し、異なる人口統計グループが異なるパフォーマンスを出すことがわかった。
関連研究
視覚と言語のタスクにおけるバイアスは、多くの研究の対象になっているよ。これらのタスクは、キャプション生成や視覚的質問応答など、画像とテキストデータを組み合わせることが多い。研究によって、MSCOCOのようなデータセットには男女の表現に偏りがあることがわかっているし、他の研究では性別や肌の色といった人口統計属性がこれらのタスクの結果に影響を与えることが指摘されている。
注釈プロセス
私たちが扱ったGCCデータセットは、約330万の画像とキャプションのペアで構成されているよ。意味のある注釈を作成するために、まず不適切なコンテンツを取り除くために画像をフィルタリングしたんだ。私たちの目的は、これらの画像にいる異なる人々のグループを注釈することで、人口統計や文脈的な属性に特に焦点を当てたんだ。
Amazon Mechanical Turkを使って注釈プロセスをクラウドソースしたよ。これは3ラウンドに分けて行われたんだ。最初のラウンドでは、注釈者が年齢と性別に関連する人口統計属性をラベル付けした。2ラウンド目では、肌の色と民族を特定した。最後のラウンドでは、感情と活動をカテゴリ分けしたよ。
注釈の課題
人口統計の詳細を注釈するのはさまざまな課題があるんだ。認知された属性は、画像にいる個人を真に表現しているとは限らないし、民族や人種に関連する用語も文化的な文脈によって異なることがある。また、一度私たちの注釈が公に公開されると、それがどのように悪用されるかをコントロールできないことも認識しているよ。
これらのリスクにもかかわらず、人口統計の注釈はデータセットやモデルの出力におけるバイアスを測定するために重要なんだ。各サンプルに複数の注釈を提供することで、主観性の影響を減らして、私たちの発見の信頼性を高めることを目指したよ。
注釈の統計的概要
注釈プロセスでは、GCCデータセットに明らかな不均衡があることがわかったよ。年齢では、最も一般的に表現されたクラスは「大人」だったし、性別では、男性の表現が女性を大きく上回っていた。また、肌の色と民族も著しい不均衡があり、明るい肌色と白人の民族が過剰に表現されていた。
文脈を通じて表現を分析すると、支配的な感情は「中立」で、最も一般的な活動は「ポージング」だったよ。
下流タスクのバイアス
私たちは、作成した人口統計注釈を使って、3つの下流タスク-画像キャプション生成、CLIP埋め込み、テキストから画像生成-のパフォーマンスを調べたんだ。すべてのタスクで、画像に表現された人口統計クラスに基づいてパフォーマンスに顕著な違いがあったよ。
画像キャプション生成
画像キャプション生成は、視覚と言語のプロジェクトでの主要なタスクで、モデルが画像に対して説明的なテキストを生成するんだ。私たちは、OFAとClipCapという2つの最先端モデルを分析して、私たちの注釈に含まれる人口統計属性をどのように扱っているかを調査したよ。結果は、両方のモデルが特定の人口統計グループに対して大きなバイアスを示していて、バイアス緩和技術の緊急な必要性を浮き彫りにしたんだ。
テキスト-画像CLIP埋め込み
次に、人口統計属性のための事前訓練されたCLIP埋め込みのパフォーマンスを評価したよ。テキストと画像の埋め込みに基づいて検証キャプションをランク付けし、これらの属性が埋め込みの精度に与える影響を特定しようとした。結果は、異なる人口統計クラス間でパフォーマンスに大きな違いがあることを示したよ。
テキストから画像生成
最後に、テキストによる説明から画像を生成する際の主要なモデルであるStable Diffusionに焦点を当てたよ。生成された画像の中の人口統計の表現を評価した。注目すべきは、私たちの発見が、モデルが中立的なプロンプトを与えられた場合、しばしば白人男性を表現する画像を生成する傾向があることを示したことだ。
結論
要するに、私たちの研究は、視覚と言語モデルにおける社会的バイアスに対処するためには人口統計注釈が必要だということを強調しているよ。Google Conceptual Captionsデータセットを分析することで、バイアスが存在し、異なる人口統計グループの表現が不平等であることを示したんだ。私たちの発見は、これらのモデルのバイアスに対処するためのリソースや技術の開発の重要性を強調していて、現実のアプリケーションでより公平な結果を保証するためのものなんだ。
今後の方向性
今後は、多様な人口統計属性のバランスの取れた表現を提供する包括的なデータセットの必要性が明らかだよ。また、バイアスを分析し緩和するための効果的なツールの作成も、公平な視覚と言語モデルの開発において重要になるだろう。技術が進化し続ける中で、私たちは生じる可能性のあるバイアスに対して警戒を怠らず、進歩が社会のすべてのメンバーに平等に貢献するようにしなきゃいけないね。
タイトル: Uncurated Image-Text Datasets: Shedding Light on Demographic Bias
概要: The increasing tendency to collect large and uncurated datasets to train vision-and-language models has raised concerns about fair representations. It is known that even small but manually annotated datasets, such as MSCOCO, are affected by societal bias. This problem, far from being solved, may be getting worse with data crawled from the Internet without much control. In addition, the lack of tools to analyze societal bias in big collections of images makes addressing the problem extremely challenging. Our first contribution is to annotate part of the Google Conceptual Captions dataset, widely used for training vision-and-language models, with four demographic and two contextual attributes. Our second contribution is to conduct a comprehensive analysis of the annotations, focusing on how different demographic groups are represented. Our last contribution lies in evaluating three prevailing vision-and-language tasks: image captioning, text-image CLIP embeddings, and text-to-image generation, showing that societal bias is a persistent problem in all of them.
著者: Noa Garcia, Yusuke Hirota, Yankun Wu, Yuta Nakashima
最終更新: 2023-04-05 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.02828
ソースPDF: https://arxiv.org/pdf/2304.02828
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。