Preconceitos em Modelos de Geração de Texto para Imagem
Analisando o impacto de preconceitos na geração de imagem T2I.
― 7 min ler
Índice
- O Problema dos Preconceitos
- Métodos de Avaliação
- Descobertas sobre Representação de Gênero
- Representação Racial
- Representação Etária
- Avaliando Traços de Personalidade
- Situações do Dia a Dia e Representação Cultural
- Expansão de Comandos e Estratégias de Mitigação
- Preocupações sobre a Qualidade da Imagem
- Conclusão
- Direções Futuras
- Fonte original
- Ligações de referência
A geração de imagem a partir de texto (T2I) é uma tecnologia nova que cria imagens com base em descrições textuais. Esse sistema pode ajudar muita gente, desde artistas até usuários comuns, fornecendo imagens de alta qualidade a partir de comandos simples. No entanto, esses sistemas dependem de grandes quantidades de dados da internet, o que pode introduzir Preconceitos prejudiciais nas imagens que criam. Este artigo examina como preconceitos sociais podem aparecer em imagens geradas por modelos T2I populares.
O Problema dos Preconceitos
Os modelos T2I aprendem a criar imagens a partir de fontes online gigantes. Isso pode ser arriscado porque os dados podem conter preconceitos relacionados a gênero, idade, raça e localização geográfica. Esses preconceitos podem levar a Representações injustas nas imagens produzidas por esses modelos.
Um estudo analisou dois modelos T2I bem conhecidos, DALL-E 2 e Stable Diffusion, para entender como os preconceitos aparecem nas imagens geradas. Ao analisar como empregos, traços de personalidade e cenários do dia a dia são representados em diferentes categorias sociais, o estudo destaca diferenças significativas nas representações.
Métodos de Avaliação
Para avaliar os preconceitos nesses modelos, os pesquisadores usaram ferramentas automatizadas e avaliações humanas. Eles olharam de perto como pessoas de diferentes Gêneros, Idades, Raças e origens geográficas eram retratadas. As avaliações incluíram comandos básicos, como "uma pessoa", além de descrições mais específicas relacionadas a ocupações e características de personalidade.
Descobertas sobre Representação de Gênero
Os resultados mostraram que DALL-E 2 tende a criar mais imagens de homens brancos jovens, enquanto o Stable Diffusion produziu uma representação mais equilibrada, mas ainda favoreceu mulheres brancas. Isso cria uma lacuna em como outros gêneros e raças são mostrados no conteúdo gerado. Por exemplo, havia menos imagens de indivíduos negros e asiáticos, destacando um preconceito significativo na representação.
Nas ocupações, os preconceitos eram evidentes. Para empregos tradicionalmente masculinos, como CEO, poucas imagens apresentavam mulheres, enquanto ocupações dominadas por mulheres, como enfermagem, quase não tinham representação de homens. Isso mostra que os modelos podem perpetuar estereótipos, impactando como as pessoas veem diferentes profissões.
Representação Racial
Ao examinar a representação racial, ambos os modelos mostraram um viés claro em relação a indivíduos brancos, muitas vezes negligenciando outros grupos raciais. Em muitas categorias de emprego, havia uma ausência notável de indivíduos negros, e grupos raciais como latinos e pessoas do Oriente Médio eram raramente retratados.
Essa tendência levanta preocupações sobre como esses modelos podem reforçar estereótipos existentes sobre raça e ocupações. Se um modelo gera imagens que mostram principalmente pessoas brancas em várias áreas, isso pode contribuir para uma visão limitada sobre quem pode ocupar esses cargos.
Representação Etária
O estudo também analisou como a idade era representada nas imagens. DALL-E 2 teve um forte foco em adultos mais jovens, negligenciando indivíduos mais velhos em muitas categorias de trabalho. Em contraste, o Stable Diffusion foi ligeiramente mais equilibrado, mas ainda mostrou uma tendência a favorecer grupos etários mais jovens.
Esse viés etário pode afetar percepções sobre capacidade e adequação para vários papéis, levando a discriminação etária na forma como as pessoas são retratadas na mídia e na sociedade.
Avaliando Traços de Personalidade
A análise se estendeu aos traços de personalidade, mostrando que traços associados à competência eram principalmente ligados a figuras masculinas. Em contraste, traços quentes e acolhedores eram frequentemente atribuídos a mulheres. Essas associações podem afetar negativamente como as pessoas percebem diferentes gêneros em contextos profissionais ou pessoais.
A distribuição racial dos traços também foi notável. Traços como ambição eram frequentemente associados a indivíduos negros, enquanto traços positivos eram mais comumente ligados a indivíduos brancos. Esses padrões refletem estereótipos que podem influenciar como vários grupos são vistos.
Situações do Dia a Dia e Representação Cultural
Além de ocupações e traços, o estudo analisou cenários do dia a dia. As imagens geradas para situações cotidianas, como comida ou eventos, mostraram que países como Nigéria e Etiópia eram frequentemente sub-representados. Por outro lado, países como Estados Unidos e Alemanha eram frequentemente retratados.
Essa falta de representação pode criar uma imagem distorcida de como diferentes culturas são vistas, o que é significativo, dado o caráter global da internet. Se certos países ou culturas estão frequentemente ausentes das imagens geradas, isso pode levar a mal-entendidos sobre esses lugares e suas pessoas.
Expansão de Comandos e Estratégias de Mitigação
Para lidar com alguns desses preconceitos, os pesquisadores testaram um método chamado expansão de comandos. Essa abordagem envolveu usar comandos mais detalhados, como especificar gênero ou raça, na tentativa de diversificar as imagens geradas.
Embora essa estratégia mostrasse algum potencial para melhorar a representação, também criou novos preconceitos. Por exemplo, mesmo quando os comandos eram projetados para garantir uma representação específica, os resultados ainda eram mistos. Isso indica que simplesmente adicionar detalhes aos comandos pode não ser uma solução eficaz para superar preconceitos.
Preocupações sobre a Qualidade da Imagem
A qualidade das imagens produzidas pelos modelos T2I é outra consideração importante. O estudo usou uma métrica chamada Distância de Fréchet Inception (FID) para avaliar quão semelhantes as imagens geradas eram às imagens do mundo real. Os resultados indicaram que imagens que retratavam papéis de gênero tradicionais tendiam a ter pontuações de qualidade melhores, sugerindo que os modelos funcionavam melhor com estereótipos familiares.
As discrepâncias na qualidade revelam um problema mais profundo sobre como os sistemas T2I operam e o potencial de reforçar preconceitos através das imagens que produzem. Se modelos produzem imagens de qualidade inferior quando se desviam das normas estabelecidas, isso levanta questões sobre sua confiabilidade e justiça.
Conclusão
Este estudo traz à luz os preconceitos significativos presentes nos sistemas de geração de imagem a partir de texto. À medida que essas tecnologias continuam a evoluir, é crucial prestar atenção às implicações sociais das imagens que produzem.
Preconceitos relacionados a gênero, raça, idade e representação cultural podem moldar percepções e reforçar estereótipos, impactando como indivíduos e comunidades são vistos na sociedade. Embora algumas estratégias de mitigação, como a expansão de comandos, mostrem promessas, elas também apontam para as complexidades de abordar esses preconceitos.
Seguindo em frente, é fundamental desenvolver estratégias mais abrangentes para avaliar e mitigar preconceitos em modelos T2I. Ao focar na justiça representacional, os desenvolvedores podem criar sistemas mais inclusivos que reflitam a diversidade do mundo real. Esse esforço não apenas beneficiará os usuários, mas também promoverá uma representação mais precisa e equitativa da sociedade na mídia e na arte.
Direções Futuras
A pesquisa e as descobertas discutidas destacam a necessidade de uma investigação contínua sobre os preconceitos nos modelos de geração T2I. Há uma oportunidade para mais estudos explorarem como esses sistemas podem melhor considerar a diversidade, especialmente em relação à identidade de gênero, deficiência e representação cultural.
Além disso, seria benéfico realizar testes no mundo real para observar como esses preconceitos se manifestam em vários contextos. Compreender as experiências e percepções dos usuários pode ajudar a informar o desenvolvimento de modelos mais justos e representativos.
Em conclusão, à medida que a tecnologia T2I se torna mais integrada à vida cotidiana e à mídia, abordar preconceitos será fundamental. Ao enfrentar essas questões de frente, desenvolvedores e pesquisadores podem promover uma representação mais inclusiva, representativa e precisa do mundo nas imagens criadas por essas ferramentas poderosas.
Título: Social Biases through the Text-to-Image Generation Lens
Resumo: Text-to-Image (T2I) generation is enabling new applications that support creators, designers, and general end users of productivity software by generating illustrative content with high photorealism starting from a given descriptive text as a prompt. Such models are however trained on massive amounts of web data, which surfaces the peril of potential harmful biases that may leak in the generation process itself. In this paper, we take a multi-dimensional approach to studying and quantifying common social biases as reflected in the generated images, by focusing on how occupations, personality traits, and everyday situations are depicted across representations of (perceived) gender, age, race, and geographical location. Through an extensive set of both automated and human evaluation experiments we present findings for two popular T2I models: DALLE-v2 and Stable Diffusion. Our results reveal that there exist severe occupational biases of neutral prompts majorly excluding groups of people from results for both models. Such biases can get mitigated by increasing the amount of specification in the prompt itself, although the prompting mitigation will not address discrepancies in image quality or other usages of the model or its representations in other scenarios. Further, we observe personality traits being associated with only a limited set of people at the intersection of race, gender, and age. Finally, an analysis of geographical location representations on everyday situations (e.g., park, food, weddings) shows that for most situations, images generated through default location-neutral prompts are closer and more similar to images generated for locations of United States and Germany.
Autores: Ranjita Naik, Besmira Nushi
Última atualização: 2023-03-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.06034
Fonte PDF: https://arxiv.org/pdf/2304.06034
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont
- https://dl.acm.org/ccs.cfm
- https://doi.org/10.48550/arxiv.2211.03759
- https://doi.org/10.48550/arxiv.1908.04913
- https://www.bls.gov/cps/cpsaat11.htm
- https://github.com/CompVis/stable-diffusion
- https://learn.microsoft.com/en-us/rest/api/computervision/3.1/analyze-image/analyze-image
- https://www.mturk.com/
- https://github.com/dchen236/FairFace
- https://doi.org/10.48550/arxiv.2103.00020
- https://doi.org/10.48550/arxiv.2202.04053,
- https://doi.org/10.48550/arxiv.2211.03759,
- https://doi.org/10.48550/arxiv.2302.03675
- https://doi.org/10.48550/arxiv.2202.04053
- https://openai.com/research/dall-e-2-pre-training-mitigations
- https://doi.org/10.48550/arxiv.2204.14217