Examinando a Representação Geográfica em Modelos de Geração de Imagens
Um estudo sobre como os modelos de imagem refletem a diversidade global.
― 7 min ler
Nos tempos recentes, a tecnologia avançou bastante em criar modelos que geram imagens com base em descrições de texto. Isso significa que qualquer um pode escrever uma frase e obter uma imagem que combina com essa frase. Essas ferramentas estão sendo usadas para criar inúmeras imagens todo dia. Elas têm um grande impacto em áreas como arte, marketing e melhoria de dados já existentes. Porém, com esse nível de influência, é crucial garantir que as imagens criadas por esses modelos não mostrem apenas partes do mundo que estão super-representadas, como certas regiões ou países. Em vez disso, queremos que as imagens reflitam diferentes lugares e culturas pelo globo.
O que Fizemos
No nosso estudo, analisamos de perto quão bem esses modelos de geração de imagens refletem a variedade de lugares no mundo. Focamos especificamente em substantivos comuns, como "casa" ou "praia". Para isso, coletamos feedback de Participantes de vários países. Descobrimos que, quando as pessoas descreveram itens sem mencionar um país específico, as imagens geradas muitas vezes se pareceram mais com aquelas dos Estados Unidos e da Índia. Por outro lado, imagens que representavam países como Grécia, Japão e Nova Zelândia foram bem menos frequentes.
Queríamos ver se incluir o nome de um país no texto mudaria isso. Quando os participantes especificaram nomes de países, as imagens representaram um pouco melhor esses locais. Mesmo assim, muitos países tiveram pontuações baixas para suas imagens, sugerindo que os futuros modelos precisam fazer um trabalho melhor ao mostrar uma gama mais ampla de representações geográficas.
Melhorando a Geração de Imagens
No último ano, a qualidade desses modelos de texto para imagem melhorou bastante. Agora, eles estão produzindo imagens que parecem mais realistas e relevantes às descrições dadas. Essa melhoria se deve a uma combinação de dois fatores principais: os grandes conjuntos de dados usados para ensinar esses modelos e os avanços em seu design, como o uso de Transformers e modelos de Difusão.
Com todo esse progresso, não é surpresa que esses modelos tenham chamado a atenção de muitos, incluindo pesquisadores e usuários casuais. Por exemplo, o DALL·E tem milhões de usuários gerando milhões de imagens para diferentes propósitos, como criação de arte, edição de imagem e marketing.
Uma parte do nosso estudo envolveu mostrar imagens geradas por esses modelos aos participantes e perguntar o quanto as imagens combinavam com o que eles normalmente veem ao seu redor. Queríamos descobrir se as imagens criadas mostravam uma verdadeira representação de sua cultura local e artefatos.
Preconceitos na Geração de Imagens
Enquanto esses modelos de texto para imagem têm um apelo amplo, ainda existem preocupações sobre os preconceitos que existem dentro deles. Esses preconceitos surgem porque os modelos aprendem com grandes quantidades de dados retirados da internet, que muitas vezes podem conter conteúdo negativo ou estereotipado. Esse problema é agravado pelo fato de que o acesso à internet não é igual para todos, resultando em vozes de países mais pobres ou em desenvolvimento sendo frequentemente ignoradas.
Pesquisas mostraram que preconceitos existem em muitos modelos de linguagem e visão, e alguns estudos exploraram preconceitos em modelos de texto para imagem relacionados a raça, gênero e classe. No entanto, uma área de preconceito que muitas vezes é ignorada é a representação geográfica. Para que esses modelos representem o mundo de forma justa, eles precisam gerar imagens que reflitam várias culturas e locais sem favorecer nenhum país específico.
Como a Representação Geográfica Foi Medida
Para medir quão bem os modelos representavam diferentes lugares do mundo, realizamos um estudo com participantes de muitos países. Eles avaliaram imagens de substantivos comuns geradas pelos modelos DALL·E e Stable Diffusion. Algumas imagens foram criadas com o nome do país especificado, enquanto outras não. Os participantes pontuaram o quanto as imagens representavam o que eles viam ao seu redor, além de quão realistas as imagens pareciam.
Da nossa análise, encontramos que muitos países tiveram pontuações baixas na escala de representação geográfica. Por exemplo, nos casos não especificados, as imagens foram consideradas mais refletivas de artefatos dos Estados Unidos, seguidas pela Índia e Canadá. No entanto, países como Grécia, Japão e Nova Zelândia receberam pontuações muito mais baixas.
Quando incluímos nomes de países, as pontuações gerais melhoraram, mas muitas regiões ainda não tinham representação adequada. Isso destaca a necessidade dos futuros modelos serem mais inclusivos com todas as áreas geográficas do mundo.
Desafios na Automação
Nós também investigamos se conseguiríamos automatizar o processo de medir a representação geográfica sem precisar conduzir estudos com usuários. Tentamos duas abordagens: uma analisou a semelhança entre os textos e as imagens geradas usando um modelo projetado para alinhamento de texto e imagem chamado CLIP. A outra abordagem envolveu reunir anotações dos usuários para estimar a representação geográfica das imagens produzidas pelo Stable Diffusion.
Infelizmente, ambos os métodos não foram eficazes em avaliar com precisão quão bem as imagens representavam diferentes lugares. Isso ressalta a importância do feedback dos usuários para entender a representação geográfica das imagens.
Principais Descobertas
No geral, nosso estudo descobriu que a representação geográfica das imagens geradas pelos modelos era bastante baixa para muitos países. Nos casos não especificados, as pontuações foram consistentemente mais altas para imagens refletindo os Estados Unidos, enquanto países como Grécia e Japão marcaram bem mais baixo. Quando especificamos nomes de países nos prompts, as pontuações melhoraram, mas ainda revelaram que há um espaço significativo para melhorias.
Esse estudo enfatiza a necessidade de que os modelos de texto para imagem se adaptem e forneçam uma visão mais ampla da representação geográfica. À medida que esses modelos continuam a evoluir, é essencial garantir que eles reflitam com precisão culturas e objetos de diversas partes do mundo.
Implicações para Pesquisas Futuras
Existem vários pontos que precisamos considerar em relação às nossas descobertas. Embora tivéssemos como objetivo alcançar participantes de muitos países, na verdade, recebemos respostas suficientes de apenas alguns. Essa disparidade limita as vozes representadas na pesquisa, especialmente de nações em desenvolvimento. Além disso, nossa avaliação focou apenas em uma seleção de substantivos comuns. Em pesquisas futuras, seria útil incluir uma variedade maior de itens para obter uma visão mais abrangente da representação geográfica.
Além disso, enquanto nos esforçamos para criar modelos que sejam mais geograficamente inclusivos, há uma necessidade clara de melhor documentação sobre as fontes dos pares de texto-imagem usados para treinamento. Isso pode ajudar os pesquisadores a entender a distribuição de vários objetos e culturas nos conjuntos de dados.
Por fim, incentivar a participação de países sub-representados nos processos de desenvolvimento e avaliação de modelos será crucial para garantir uma abordagem mais inclusiva em tecnologia. Ao abordar esses problemas, podemos ajudar a abrir caminho para melhorias em como os modelos de texto para imagem atendem públicos globais, garantindo que representem com precisão a rica diversidade de culturas ao redor do mundo.
Título: Inspecting the Geographical Representativeness of Images from Text-to-Image Models
Resumo: Recent progress in generative models has resulted in models that produce both realistic as well as relevant images for most textual inputs. These models are being used to generate millions of images everyday, and hold the potential to drastically impact areas such as generative art, digital marketing and data augmentation. Given their outsized impact, it is important to ensure that the generated content reflects the artifacts and surroundings across the globe, rather than over-representing certain parts of the world. In this paper, we measure the geographical representativeness of common nouns (e.g., a house) generated through DALL.E 2 and Stable Diffusion models using a crowdsourced study comprising 540 participants across 27 countries. For deliberately underspecified inputs without country names, the generated images most reflect the surroundings of the United States followed by India, and the top generations rarely reflect surroundings from all other countries (average score less than 3 out of 5). Specifying the country names in the input increases the representativeness by 1.44 points on average for DALL.E 2 and 0.75 for Stable Diffusion, however, the overall scores for many countries still remain low, highlighting the need for future models to be more geographically inclusive. Lastly, we examine the feasibility of quantifying the geographical representativeness of generated images without conducting user studies.
Autores: Abhipsa Basu, R. Venkatesh Babu, Danish Pruthi
Última atualização: 2023-05-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.11080
Fonte PDF: https://arxiv.org/pdf/2305.11080
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.