Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computadores e sociedade# Redes Sociais e de Informação

Experiências dos Usuários com Geradores de Texto para Imagem

Estudo revela lacunas na representação de usuários marginalizados do Stable Diffusion.

― 7 min ler


Feedback dos usuáriosFeedback dos usuáriossobre geração de imagenscom IAlimitações nas imagens geradas por IA.Os usuários enfrentam preconceitos e
Índice

Nos últimos anos, geradores de texto para imagem (T2Is) ficaram mais populares. Essas ferramentas pegam prompts escritos pelos usuários e criam imagens com base nessas palavras. Um exemplo notável é o Stable Diffusion, que chamou muita atenção pela sua capacidade de criar imagens detalhadas rapidinho. Mas, tem rolado preocupações sobre como essas ferramentas podem refletir e amplificar os preconceitos que existem na sociedade. Muitos pesquisadores focaram nos aspectos técnicos dessas ferramentas, mas pouca atenção foi dada às experiências dos usuários de verdade. Essa lacuna na pesquisa é importante porque os usuários podem se deparar com representações prejudiciais ao usar esses sistemas.

Experiências dos Usuários com T2Is

Para entender como os usuários se sentem em relação às imagens geradas pelo Stable Diffusion, um estudo foi feito com uma galera de diferentes origens. Os pesquisadores coletaram dados de 133 pessoas usando uma plataforma online e também entrevistaram 14 usuários sobre suas experiências. O objetivo era avaliar se as imagens criadas pelo Stable Diffusion correspondiam às expectativas dos usuários, especialmente em relação às suas identidades.

Os resultados mostraram uma desconexão significativa entre o que os usuários esperavam ver e o que o modelo produzia. Muitos participantes expressaram frustração, já que as imagens geradas frequentemente não os representavam de forma precisa. Isso foi especialmente preocupante para indivíduos com identidades marginalizadas, que relataram sentir-se desumanizados ou estereotipados pelos resultados.

Entendendo os Danos Representacionais

Quando falamos sobre preconceitos na geração de imagens, é essencial olhar para o conceito de danos representacionais. Esses danos podem ser divididos em duas categorias principais: danos alocacionais e danos representacionais. Danos alocacionais acontecem quando certos grupos são negados acesso a recursos ou oportunidades. Danos representacionais ocorrem quando as imagens ou descrições desses grupos são imprecisas ou injustas, levando a estereótipos negativos.

Os danos representacionais incluem:

  1. Estereotipação: A tendência de retratar alguns grupos de forma restrita ou negativa, com base em noções pré-concebidas.
  2. Desvalorização: Sugerir que certas identidades são menos valiosas ou importantes que outras.
  3. Desumanização: Tratar grupos específicos como menos que humanos, muitas vezes reduzindo-os a estereótipos negativos.
  4. Apagamento: Falhar em representar certas identidades, levando à invisibilidade.
  5. Qualidade do Serviço: Proporcionar resultados desiguais para diferentes grupos, mostrando favoritismo para alguns enquanto marginaliza outros.

Esses danos afetam desproporcionalmente populações tradicionalmente marginalizadas. O estudo encontrou que os usuários frequentemente enfrentavam esses problemas ao interagir com o Stable Diffusion.

A Abordagem do Estudo

A pesquisa teve uma abordagem em duas partes. Primeiro, dados coletados de 133 participantes usando um método chamado "Classificação em Diamante." Essa abordagem permitiu que os usuários avaliassem 50 imagens geradas pelo Stable Diffusion com base em prompts como "uma pessoa" ou "uma pessoa de um país específico." Os participantes ranquearam as imagens com base em quão próximas estavam das suas expectativas.

Em segundo lugar, foram realizadas entrevistas com 14 usuários que tinham experiência com o Stable Diffusion. Essas discussões forneceram insights valiosos sobre como os usuários se sentiam em relação aos resultados, especialmente em relação às suas identidades pessoais. Os participantes expressaram decepção quando as imagens não refletiam suas aparências ou contextos culturais com precisão.

Principais Descobertas

Lacunas Entre Expectativa e Realidade

Uma das principais descobertas foi uma lacuna marcante entre as expectativas dos usuários e as imagens reais produzidas pelo Stable Diffusion. Muitos usuários tinham ideias específicas sobre o que esperavam ver com base em suas identidades, mas os resultados frequentemente deixavam a desejar. Por exemplo, quando os usuários pediam imagens de "uma pessoa" ou "uma pessoa do seu país," os resultados gerados frequentemente mostravam um conjunto limitado de características.

Essa desconexão foi mais evidente em imagens geradas para vários prompts. Enquanto os usuários esperavam uma mistura de gêneros e etnias, os resultados frequentemente tendiam a uma representação limitada, com muitas imagens mostrando indivíduos de pele clara ou retratando características estereotipadas.

Experiências de Sub-representação

Usuários com identidades marginalizadas relataram sentir-se sub-representados nos resultados. Por exemplo, mulheres e pessoas não-binárias frequentemente notaram a falta de imagens que refletissem suas identidades de forma precisa. Participantes de países como Argentina e Canadá expressaram decepção com a forma como suas nacionalidades foram representadas. Eles apontaram que as imagens não refletiam a diversidade moderna, mas sim se inclinavam a estereótipos ultrapassados.

Além disso, indivíduos de países do sul da Ásia compartilharam suas experiências de serem retratados como empobrecidos ou rurais, o que não se alinhava com seus estilos de vida urbanos ou variados. Esse padrão de homogeneização foi preocupante para muitos usuários, destacando as limitações do Stable Diffusion em capturar a rica diversidade das experiências humanas.

Estereótipos e Desumanização

Vários participantes expressaram preocupação sobre como suas identidades eram apresentadas. Muitos notaram que as imagens frequentemente reforçavam estereótipos, levando a sentimentos de desvalorização. Usuários relataram sentir que suas identidades eram reduzidas a retratos simplistas ou negativos. Por exemplo, imagens de mulheres de países da América Latina frequentemente tendiam à sexualização, levando a sentimentos de raiva e frustração entre os participantes.

Usuários não-binários também sentiram que suas identidades eram mal representadas. Eles notaram que os resultados frequentemente retratavam indivíduos não-binários de uma maneira que insinuava que eram apenas uma variação da feminilidade. Essa representação perpetuava a ideia de que pessoas não-binárias devem se encaixar em estereótipos específicos, o que pode ser prejudicial.

Recomendações para Melhoria

Dadas as descobertas do estudo, é evidente que T2Is como o Stable Diffusion precisam passar por mudanças significativas para melhorar a experiência do usuário. Aqui estão algumas sugestões para abordar os problemas identificados:

  1. Focar em Design Inclusivo: Desenvolvedores devem priorizar a representação diversa nos dados de treinamento para garantir que uma ampla gama de identidades seja refletida nos resultados. Isso significa ir além de uma concepção restrita de ser humano para incluir múltiplos gêneros, etnias e origens.

  2. Envolvimento Contínuo dos Usuários: Incluir usuários no processo de design desde o início pode ajudar a identificar problemas potenciais logo de cara. Desenvolvedores devem buscar feedback de uma variedade ampla de participantes para aprender sobre suas perspectivas e expectativas.

  3. Design Aware dos Danos: Uma abordagem atenta aos danos deve ser adotada, enfatizando a importância de minimizar danos durante a fase de design. Isso envolve reconhecer as implicações sociais das imagens geradas e trabalhar ativamente para reduzir a probabilidade de perpetuar estereótipos prejudiciais.

  4. Revisão e Supervisão Ética: Integrar éticos na equipe de design pode ajudar a garantir que considerações éticas sejam abordadas ao longo do processo de desenvolvimento. Esses profissionais podem fornecer insights sobre como decisões de design podem impactar diferentes comunidades.

  5. Testes Iterativos e Ciclos de Feedback: Após a implementação, monitoramento e testes contínuos podem ajudar a identificar áreas para melhoria. Coletar feedback dos usuários após o uso da ferramenta em ambientes do mundo real pode iluminar mais problemas e oportunidades de refinamento.

Conclusão

O crescimento dos T2Is, especialmente o Stable Diffusion, traz possibilidades fascinantes para criatividade e expressão. No entanto, como destacado por este estudo, existem desafios significativos associados à representação e preconceitos nos resultados gerados por essas ferramentas. As experiências dos usuários revelam uma lacuna preocupante entre expectativas e realidade, particularmente para identidades marginalizadas.

É crucial que desenvolvedores e pesquisadores levem essas preocupações a sério e busquem melhorias que priorizem práticas de design inclusivas e éticas. Ao focar nas necessidades e perspectivas dos usuários, os T2Is podem refletir melhor a diversidade das experiências humanas e evitar perpetuar estereótipos prejudiciais. Avançar com abordagens atentas aos danos no design e envolvimento contíuo dos usuários pode ajudar a garantir que essas tecnologias atendam a todos os indivíduos, em vez de reforçar preconceitos existentes.

Fonte original

Título: "I don't see myself represented here at all": User Experiences of Stable Diffusion Outputs Containing Representational Harms across Gender Identities and Nationalities

Resumo: Though research into text-to-image generators (T2Is) such as Stable Diffusion has demonstrated their amplification of societal biases and potentials to cause harm, such research has primarily relied on computational methods instead of seeking information from real users who experience harm, which is a significant knowledge gap. In this paper, we conduct the largest human subjects study of Stable Diffusion, with a combination of crowdsourced data from 133 crowdworkers and 14 semi-structured interviews across diverse countries and genders. Through a mixed-methods approach of intra-set cosine similarity hierarchies (i.e., comparing multiple Stable Diffusion outputs for the same prompt with each other to examine which result is 'closest' to the prompt) and qualitative thematic analysis, we first demonstrate a large disconnect between user expectations for Stable Diffusion outputs with those generated, evidenced by a set of Stable Diffusion renditions of `a Person' providing images far away from such expectations. We then extend this finding of general dissatisfaction into highlighting representational harms caused by Stable Diffusion upon our subjects, especially those with traditionally marginalized identities, subjecting them to incorrect and often dehumanizing stereotypes about their identities. We provide recommendations for a harm-aware approach to (re)design future versions of Stable Diffusion and other T2Is.

Autores: Sourojit Ghosh, Nina Lutz, Aylin Caliskan

Última atualização: 2024-08-02 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2408.01594

Fonte PDF: https://arxiv.org/pdf/2408.01594

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes