画像生成モデルにおける地理的表現の検討
画像モデルがどれだけ世界の多様性を反映しているかの研究。
― 1 分で読む
最近、テクノロジーはテキストの説明に基づいて画像を生成するモデルを作成するのに大きな進歩を遂げたよ。これにより、誰でも文章を書くだけでその文章に合った画像を手に入れられるようになったんだ。これらのツールは、毎日無数の画像を作成するために使われている。アートやマーケティング、既存データの改善など、多くの分野に大きな影響を与えてる。でも、これだけの影響力があるからには、これらのモデルが作る画像が特定の地域や国だけが表現されるんじゃなくて、世界中のさまざまな場所や文化を反映することが大事なんだ。
何をしたか
私たちの研究では、これらの画像生成モデルがどれだけ世界の多様な場所を反映しているかを詳しく調べた。特に「家」や「ビーチ」みたいな一般名詞に焦点を当てたんだ。そのために、さまざまな国から参加者のフィードバックを集めた。具体的な国を言わなかった場合、人々が説明したアイテムの画像はアメリカやインドのものに最も似ていることが多かった。一方で、ギリシャや日本、ニュージーランドの画像はあまり頻繁には見られなかった。
国名をテキストプロンプトに含めることで状況が変わるか見てみたかった。参加者が国名を指定すると、その場所を表す画像はやや良くなった。それでも、多くの国の画像はスコアが低くて、今後のモデルはもっと広範な地理的表現を示す必要があることが分かった。
画像生成の改善
過去1年で、これらのテキストから画像へのモデルの質は大幅に向上したよ。今では、もっとリアルで説明に関連した画像を生成している。この改善は、これらのモデルを教えるために使われる大規模なデータセットと、TransformersやDiffusionモデルのようなデザインの進歩の組み合わせによるものなんだ。
この進展のおかげで、これらのモデルは研究者や一般ユーザーに多くの関心を集めている。例えば、DALL·Eは何百万ものユーザーがアート制作や画像編集、マーケティングのために何百万もの画像を生成している。
私たちの研究の一部では、参加者にこれらのモデルが生成した画像を見せて、どれだけ彼らが普段見るものに合っているかを尋ねた。作成された画像がその地域の文化やアーティファクトを正しく表しているかを知りたかったんだ。
画像生成のバイアス
これらのテキストから画像へのモデルには広い魅力があるけど、内部に存在するバイアスについては依然として懸念があるよ。これらのバイアスは、モデルがインターネットから引き出された膨大なデータから学んでいるために生じるんだが、そのデータにはしばしばネガティブやステレオタイプな内容が含まれていることが多い。それに、インターネットアクセスの不平等も問題を悪化させていて、貧しい国や発展途上国の声が無視されることがよくある。
研究によって、言語や視覚モデルにはバイアスが存在することが示されていて、いくつかの研究では人種、性別、階級に関連するテキストから画像へのモデルのバイアスについても調べられている。でも、見落とされがちなバイアスの分野は地理的表現なんだ。これらのモデルが世界を公正に表現するためには、特定の国を優遇することなく、多様な文化や場所を反映した画像を生成することが必要なんだ。
地理的表現の測定方法
モデルが世界のさまざまな場所をどれだけうまく表現しているかを測定するために、我々は多くの国の参加者を対象にユーザー調査を行った。参加者は、DALL·EやStable Diffusionモデルによって生成された一般名詞の画像を評価した。一部の画像は国名が指定されて作成され、その他はそうではなかった。参加者は、画像が周囲にあるものをどれだけ表しているか、また画像がどれだけリアルに見えるかをスコアリングしたんだ。
分析の結果、多くの国が地理的表現スケールで低いスコアを獲得したことが分かった。例えば、指定しない場合、画像は最もアメリカのアーティファクトを反映していて、次にインドやカナダのものが多かった。でも、ギリシャや日本、ニュージーランドはずっと低いスコアを受け取った。
国名を含めた場合、全体のスコアは改善したけど、それでも多くの地域が十分な表現を欠いていた。これは、今後のモデルが世界中のすべての地理的エリアをもっと包括する必要があることを示しているんだ。
自動化の課題
私たちは、ユーザー調査を行わずに地理的表現を測定するプロセスを自動化できるかどうかも調べた。2つのアプローチを試した: 一つは、テキストプロンプトと生成された画像の類似性を分析するCLIPというモデルを使った方法、もう一つは、Stable Diffusionが生成した画像の地理的表現を推定するためのユーザー注釈を集める方法だった。
残念ながら、どちらの方法も画像が異なる場所をどれだけ表しているかを正確に評価するには効果的ではなかった。これは、画像の地理的表現を理解するためにユーザーフィードバックが重要であることを強調しているんだ。
重要な発見
全体的に、私たちの研究では、モデルによって生成された画像の地理的表現が多くの国でかなり低かったことが分かった。指定しないケースでは、スコアは一貫してアメリカを反映する画像が高く、ギリシャや日本などの国はずっと低いスコアだった。国名をプロンプトに指定するとスコアは改善されたけど、それでも大きな改善の余地があることが明らかになった。
この研究は、テキストから画像へのモデルが適応して、地理的表現の幅を広げる必要があることを強調している。これらのモデルが進化し続ける中で、さまざまな地域の文化やオブジェクトを正確に反映することが大事なんだ。
今後の研究への影響
私たちの発見に関して考えるべき点がいくつかある。多くの国から参加者を集めることを目指したが、実際にはいくつかの国からしか十分な回答が得られなかった。この不均衡は、特に発展途上国からの声が限られることを意味している。また、私たちの評価は一般名詞の選択肢にしか関心を持っていなかったので、将来の研究ではもっと多様なアイテムを含めて、地理的表現の包括的なビューを得ることが有用だろう。
さらに、より地理的に包括的なモデルを作ろうとすると、トレーニングに使う画像-テキストペアのソースについてのより良い文書化が明らかに必要なんだ。これは、研究者がデータセット内のさまざまなオブジェクトや文化の分布を理解するのに役立つかもしれない。
最後に、モデルの開発や評価プロセスにおいて、代表されていない国からの参加を促すことが、テクノロジーへのより包括的なアプローチを実現するために重要だ。これらの問題に対処することで、テキストから画像へのモデルがグローバルなオーディエンスにどのようにサービスを提供するかの改善につながり、世界中の文化の豊かな多様性を正確に表現できるようになるんだ。
タイトル: Inspecting the Geographical Representativeness of Images from Text-to-Image Models
概要: Recent progress in generative models has resulted in models that produce both realistic as well as relevant images for most textual inputs. These models are being used to generate millions of images everyday, and hold the potential to drastically impact areas such as generative art, digital marketing and data augmentation. Given their outsized impact, it is important to ensure that the generated content reflects the artifacts and surroundings across the globe, rather than over-representing certain parts of the world. In this paper, we measure the geographical representativeness of common nouns (e.g., a house) generated through DALL.E 2 and Stable Diffusion models using a crowdsourced study comprising 540 participants across 27 countries. For deliberately underspecified inputs without country names, the generated images most reflect the surroundings of the United States followed by India, and the top generations rarely reflect surroundings from all other countries (average score less than 3 out of 5). Specifying the country names in the input increases the representativeness by 1.44 points on average for DALL.E 2 and 0.75 for Stable Diffusion, however, the overall scores for many countries still remain low, highlighting the need for future models to be more geographically inclusive. Lastly, we examine the feasibility of quantifying the geographical representativeness of generated images without conducting user studies.
著者: Abhipsa Basu, R. Venkatesh Babu, Danish Pruthi
最終更新: 2023-05-18 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.11080
ソースPDF: https://arxiv.org/pdf/2305.11080
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。