ビジョン・ランゲージモデルの文化的バイアス
文化的バイアスがAIの画像理解にどう影響するかを調べる。
― 1 分で読む
画像を見てテキストを理解する人工知能(AI)モデル、いわゆるビジョン-ランゲージモデル(VLM)は、さまざまな言語で画像に関する質問に答えるように設計されている。しかし、これらのモデルは訓練に使われたデータの文化に影響されることがある。研究によると、異なる文化の人々は画像を異なって解釈することがわかっている。例えば、西洋文化の人々は写真のメインの主題に注目することが多い一方で、東洋文化の人々は背景や文脈にもっと注意を払う傾向がある。
この記事では、VLMが画像を処理する際に西洋の文化的偏見を反映しがちであることを調査しています。さまざまな文化からの画像とテキストを使って、これらのモデルが視覚的なタスクをどれだけうまくこなせるか評価しました。私たちの発見は、VLMが通常、西洋の画像やテキストに対してはより良いパフォーマンスを示すことを明らかにしました。
私たちの研究からの一つの重要なポイントは、AIモデルの訓練に使用された言語が、彼らが画像を理解する方法に大きな役割を果たすということです。訓練段階で異なる言語のミックスを試してみたところ、より多様な言語が異なる文化の間で公正なパフォーマンスに繋がることがわかりました。これらのモデルは多くの言語で応答を生成できるものの、訓練データに表現される優位文化の視点を反映し続けることが多いです。
文化的偏見の重要性
VLMにおける文化的偏見は、これらのモデルが誰のためにサービスを提供しているのかについて重要な疑問を提起します。複数の言語を理解できるにもかかわらず、多くのトップVLMは西洋のイメージや視点を優先するようです。多様な言語と文化的文脈を含むよりバランスの取れた訓練アプローチは、さまざまな世界観をよりよく表現するモデルを生み出す可能性があります。
アート批評家のジョン・バーガーは、私たちの認識は私たちの知識や信念によって形作られ、それがまた私たちの文化的背景に影響されることを指摘しました。認知科学の研究もこの考えを支持しており、文化が人々の色の知覚、物体の分類、画像への注意の払い方に大きな影響を与えることを示しています。
以前の研究では、言語モデル内の知識や価値観における西洋中心の焦点が指摘されてきましたが、イメージ-ランゲージモデルはこの文脈ではあまり探求されていません。私たちの研究は、VLMがどの文化的視点を表現しているのか、そしてその視点を決定する要因は何かという2つの重要な質問に答えることを目的としています。
VLMの仕組み
最近のAIの進展により、VLMが作られました。これは、事前に訓練された画像エンコーダーと大規模言語モデル(LLM)を組み合わせたものです。これらのVLMは、LLMの知識を活用して幅広い画像認識タスクをシームレスに実行します。異なる言語で応答できるものの、その言語に関連する文化的ニュアンスを正確に反映することが重要です。
以前の研究では、いくつかのVLMが主に西洋のコンテンツで訓練されているため、非西洋の画像に苦労していることが示されました。私たちの研究は、主観的なタスクにまで調査を拡大し、訓練データの言語分布やモデルとのインタラクションに使用されるプロンプトの役割に焦点を当てました。
私たちは研究の中で2つの重要な質問に取り組みました:
- 主なVLMは、西洋の画像やラベルと比べて東洋のものに対してパフォーマンスが良いのか?
- プロンプトの言語は、そのパフォーマンスにどのように影響するのか?
私たちはオブジェクト識別、質問応答、アートにおける感情分類など、さまざまなタスクでVLMを評価しました。
主な発見
評価の中で、私たちはほぼすべてのVLMがすべてのタスクで西洋の偏見を示すことを一貫して観察しました。中国語でのプロンプトはこの偏見を若干減少させることが示しましたが、それはすべてのモデルに均一ではありませんでした。
バイアス形成における言語の役割をより良く調査するために、いくつかのバージョンのVLMを訓練し、訓練方法の違いがパフォーマンスにどのように影響を与えるかに注目しました。例えば、CLIPをLlama2およびBaichuan2の指示調整バージョンと組み合わせ、これらはそれぞれ大量の英語および英語/中国語のテキストで事前訓練されました。訓練中の言語のよりバランスの取れたミックスが、画像を含むタスクのバイアスを減少させ、文化的に豊かなコンテンツを処理する能力を向上させることがわかりました。
興味深いことに、中国語でのプロンプトはバイアスを減少させる助けとなりましたが、訓練中に中国語が十分に表現されているときの結果は著しく良好でした。これは特に主観的なタスクで明らかで、オブジェクティブなタスク、例えばオブジェクトを識別する場合でも顕著でした。
AIにおける文化的表現
私たちの研究の発見は、VLMの開発に重要な意味を持っています。特定の文化に関連付けられた言語でプロンプトを受けたとき、モデルは文化的に関連する連想を引き出すことでパフォーマンスを向上させます。しかし、その言語が訓練データにより頻繁に表現されている場合、その効果は増します。
AIモデルは、技術に存在する文化的不均衡を永続させるリスクがあります。私たちの発見は、パフォーマンスにおける西洋の偏見がモデルがスケールアップするにつれて悪化する傾向があることを示しており、より包括的で多様な文化的景観を反映するモデルの開発が急務であることを強調しています。
バイアスの分析
私たちのアプローチは2つの重要なステップから成り立っていました。まず、文化的に多様なタスクでのパフォーマンスを比較することによって、さまざまなVLMに存在する西洋のバイアスを測定しました。次に、多言語VLMを訓練し、訓練中の言語ミックスやプロンプト言語など、さまざまな要因がパフォーマンスに与える影響を調べました。
私たちは、文化的表現が異なり、さまざまな形式の画像理解を必要とするタスクに焦点を当てました。タスクには以下が含まれます:
- オブジェクト識別:多様なデータセットからの日常的なオブジェクトを使用し、VLMがこれらのアイテムをどれだけよく認識しているかを評価。
- 視覚的質問応答:画像と文化的文脈の両方の理解を必要とする質問を使用。
- アート感情分類:アートワークに表現された感情を異なる文化がどのように認識するかを分析。
各タスクには、西洋と東洋の文化からの画像と注釈が含まれており、バイアスを効果的に評価できました。
評価の結果、ほぼすべてのVLMが西洋のバイアスを示しており、東洋の文化的文脈を理解する能力にギャップがあることが分かりました。いくつかのモデルは中国語でプロンプトを受けた際に偏見が少ないことがありましたが、これは普遍的ではありませんでした。
影響要因の調査
バイアスに対するさまざまな要因の影響を調査するために、モデル訓練の3つの重要な側面を探求しました:
事前訓練中の言語ミックス:訓練データ内の言語の構成が、モデルが文化的文脈でどれだけうまくパフォーマンスできるかに影響を与えます。
プロンプト言語:モデルとの対話に使用される言語が、その文化的文脈に合致する場合、応答を形成することがあります。
融合言語ミックス:画像とテキストペアの訓練中に使用される言語のバランスも、バイアス形成において重要な役割を果たします。
私たちの研究は、よりバランスの取れた言語ミックスでモデルを訓練することが、画像を解釈する際のバイアスを大幅に減少させることを示しました。オブジェクティブなタスクにおいて、英語と中国語のミックスで訓練されたモデルは、文化的に多様な画像を解釈する際にパフォーマンスが向上しました。
ターゲット文化の言語でプロンプトを受けることはバイアスを減少させるかもしれませんが、その言語がモデルのデータの重要な部分として訓練されている場合に far より効果的です。結果は、多言語データで訓練されたモデルが、主に1言語に焦点を当てたモデルよりも一般的にバイアスが少ないことを強調しました。
画像理解における文化的特異性
私たちの発見は、AIモデルにおける文化的特異性の知識が必要であることも強調しました。異なる文化がさまざまな概念に持つ関連付けは、画像理解において重要です。私たちの研究は、西洋データで主に訓練されたVLMが東洋の視点のニュアンスを反映できず、多様な視覚コンテンツを扱う際の有効性が制限されることを示しました。
感情をアートワークで分類するような主観的解釈を含むタスクでは、より多様な言語ミックスで訓練されたVLMが、一般的に非西洋の視点に関するより良い洞察を提供することがわかりました。これは、訓練方法が最初から文化的多様性を考慮する必要があり、単に公正性のギャップを埋めるためのアフターフォローであってはいけないことを示唆しています。
今後の開発に向けた提言
私たちの発見に基づき、さまざまな文化的文脈と効果的に関与できるVLMを開発するためのいくつかの提言を提案します:
多言語訓練データへの投資:複数の言語や文化的視点を含む、より多様な訓練リソースを収集し、整理する努力をすべきです。
文化的専門知識を組み込む:さまざまな文化的背景を持つ専門家が訓練および評価プロセスに関与し、モデルが多様な視点を真実に反映できるようにするべきです。
バランスの取れた言語ミックスを優先する:開発者は、文化的バイアスを打破するために、事前訓練中に言語のバランスの取れた分布を優先する言語モデルの作成に焦点を当てるべきです。
多様なタスクで評価する:VLMを文化的に代表的なタスクの範囲でテストすることで、バイアスを明らかにし、異なる文化的文脈と意味のあるインタラクションの能力を改善する手助けになります。
文化を越えたコラボレーションを促進する:さまざまな文化的背景を持つ研究者や実務者の間でコラボレーションを促進することで、文化的に適切なコンテンツを理解し生成できる、より強固なAIモデルが生まれるでしょう。
結論
私たちの研究は、AIモデルが文化的文脈とどのように関与するかを調査する成長する分野に貢献します。VLMにおける西洋の偏見は、公正さや技術における表現についての重要な問題を提起します。これは、人間の経験の豊かな多様性を尊重し、反映するように訓練されたモデルの必要性を強調しています。
AIに内在する文化的バイアスを理解し、対処することによって、画像を正確に解釈するだけでなく、それらの画像の背後にある文化的な意味を理解し、関与できるモデルを開発するために向かって努力できます。これは、人工知能の分野における継続的な旅であり、技術のより公平な未来を確保するためには継続的な反省と行動が必要です。
タイトル: See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding
概要: Vision-language models (VLMs) can respond to queries about images in many languages. However, beyond language, culture affects how we see things. For example, individuals from Western cultures focus more on the central figure in an image while individuals from Eastern cultures attend more to scene context. In this work, we present a novel investigation that demonstrates and localizes VLMs' Western bias in image understanding. We evaluate large VLMs across subjective and objective visual tasks with culturally diverse images and annotations. We find that VLMs perform better on the Western subset than the Eastern subset of each task. Controlled experimentation tracing the source of this bias highlights the importance of a diverse language mix in text-only pre-training for building equitable VLMs, even when inference is performed in English. Moreover, while prompting in the language of a target culture can lead to reductions in bias, it is not a substitute for building AI more representative of the world's languages.
著者: Amith Ananthram, Elias Stengel-Eskin, Carl Vondrick, Mohit Bansal, Kathleen McKeown
最終更新: 2024-06-17 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.11665
ソースPDF: https://arxiv.org/pdf/2406.11665
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。