Simple Science

La science de pointe expliquée simplement

# Informatique# Ordinateurs et société# Réseaux sociaux et d'information

Expériences des utilisateurs avec les générateurs de texte en image

Une étude révèle des lacunes dans la représentation des utilisateurs marginalisés de Stable Diffusion.

― 9 min lire


Retour des utilisateursRetour des utilisateurssur la générationd'images par IApar l'IA.et des limites dans les images généréesLes utilisateurs font face à des biais
Table des matières

Ces dernières années, les générateurs de texte en image (T2Is) sont devenus super populaires. Ces outils prennent des phrases écrites des utilisateurs et créent des images basées sur ces mots. Un exemple marquant, c'est Stable Diffusion, qui a attiré beaucoup d'attention grâce à sa capacité à produire des images détaillées rapidement. Cependant, il y a des inquiétudes sur le fait que ces outils peuvent refléter et amplifier les biais présents dans la société. Beaucoup de chercheurs se concentrent sur les aspects techniques de ces outils, mais moins sur les expériences des utilisateurs réels. Ce manque de recherches est important parce que les utilisateurs peuvent rencontrer des représentations nuisibles en utilisant ces systèmes.

Expériences des utilisateurs avec les T2Is

Pour comprendre ce que les utilisateurs pensent des images générées par Stable Diffusion, une étude a été menée avec des personnes de différents horizons. Les chercheurs ont collecté des données auprès de 133 individus via une plateforme en ligne et ont aussi interrogé 14 utilisateurs sur leurs expériences. L'objectif était de voir si les images créées par Stable Diffusion correspondaient aux attentes des utilisateurs, surtout en ce qui concerne leurs identités.

Les résultats ont montré un grand écart entre ce que les utilisateurs s'attendaient à voir et ce que le modèle a produit. Beaucoup de participants ont exprimé leur frustration, car les images générées ne les représentaient souvent pas avec précision. C'était particulièrement préoccupant pour les personnes avec des identités marginalisées, qui ont rapporté se sentir déshumanisées ou stéréotypées par les résultats.

Comprendre les Dommages représentatifs

Quand on parle de biais dans la génération d'images, il est essentiel de regarder le concept de dommages représentatifs. Ces dommages peuvent être divisés en deux grandes catégories : les dommages d'allocation et les dommages représentatifs. Les dommages d'allocation se produisent quand certains groupes sont privés d'accès à des ressources ou à des opportunités. Les dommages représentatifs surviennent quand les images ou descriptions de ces groupes sont inexactes ou injustes, menant à des stéréotypes négatifs.

Les dommages représentatifs incluent :

  1. Stéréotypage : La tendance à décrire certains groupes de manière étroite ou négative, basée sur des idées préconçues.
  2. Dénigrement : Suggérer que certaines identités valent moins ou sont moins importantes que d'autres.
  3. Déshumanisation : Traiter certains groupes comme moins que humains, souvent en les réduisant à des stéréotypes négatifs.
  4. Effacement : Ne pas représenter certaines identités du tout, menant à une invisibilité.
  5. Qualité de service : Offrir des résultats inégaux pour différents groupes, montrant du favoritisme envers certains tout en marginalisant d'autres.

Ces dommages touchent de façon disproportionnée les populations traditionnellement marginalisées. L'étude a révélé que les utilisateurs rencontraient souvent ces problèmes en interagissant avec Stable Diffusion.

Approche de l'étude

La recherche a impliqué une approche en deux parties. D'abord, des données ont été collectées auprès de 133 participants en utilisant une méthode appelée "Classement par diamant". Cette méthode a permis aux utilisateurs d'évaluer 50 images générées par Stable Diffusion basées sur des prompts comme "une personne" ou "une personne d'un pays spécifique". Les participants ont classé les images selon leur alignement avec leurs attentes.

Ensuite, des interviews ont été menées avec 14 utilisateurs ayant de l'expérience avec Stable Diffusion. Ces discussions ont donné des aperçus précieux sur ce que les utilisateurs ressentaient face aux résultats, surtout concernant leurs identités personnelles. Les participants ont exprimé leur déception quand les images ne reflétaient pas avec précision leur apparence ou leurs origines culturelles.

Résultats clés

Écarts entre attentes et réalité

Un des principaux résultats était un écart marqué entre les attentes des utilisateurs et les images réelles produites par Stable Diffusion. Beaucoup d'utilisateurs avaient des idées spécifiques sur ce qu'ils espéraient voir selon leurs identités, mais les résultats étaient souvent décevants. Par exemple, quand les utilisateurs demandaient des images de "une personne" ou "une personne de leur pays", les images générées montraient souvent une gamme limitée de caractéristiques.

Cet écart était le plus évident dans les images générées pour divers prompts. Alors que les utilisateurs s'attendaient à un mélange de genres et d'ethnies, les résultats penchaient souvent vers une représentation limitée, avec beaucoup d'images montrant des individus à la peau claire ou présentant des caractéristiques stéréotypées.

Expériences de sous-représentation

Les utilisateurs avec des identités marginalisées ont rapporté se sentir sous-représentés dans les résultats. Par exemple, les femmes et les personnes non binaires ont souvent remarqué l’absence d’images qui reflètent correctement leurs identités. Les participants venant de pays comme l'Argentine et le Canada ont exprimé leur déception sur la façon dont leurs nationalités étaient représentées. Ils ont souligné que les images ne reflétaient pas la diversité moderne mais penchaient plutôt vers des stéréotypes dépassés.

De plus, des personnes venant de pays d'Asie du Sud ont partagé leurs expériences de se voir dépeintes comme pauvres ou rurales, ce qui ne correspondait pas à leurs modes de vie urbains ou variés. Ce schéma d'homogénéisation était préoccupant pour de nombreux utilisateurs, mettant en lumière les limites de Stable Diffusion pour capturer la richesse de la diversité des expériences humaines.

Stéréotypes et déshumanisation

Plusieurs participants ont exprimé des préoccupations sur la manière dont leurs identités étaient présentées. Beaucoup ont noté que les images renforçaient souvent les stéréotypes, menant à des sentiments de dénigrement. Les utilisateurs ont rapporté avoir l'impression que leurs identités étaient réduites à des représentations simplistes ou négatives. Par exemple, les images de femmes des pays d'Amérique latine tendaient souvent vers la sexualisation, suscitant de la colère et de la frustration parmi les participants.

Les utilisateurs non binaires ont également ressenti que leurs identités étaient mal représentées. Ils ont noté que les résultats dépeignaient souvent les personnes non binaires d'une manière qui impliquait qu'elles étaient simplement une variation de la féminité. Cette représentation perpétuait l'idée que les personnes non binaires devaient coller à des stéréotypes spécifiques, ce qui peut être nuisible.

Recommandations pour l'amélioration

Étant donné les résultats de l'étude, il est clair que les T2Is comme Stable Diffusion doivent subir des changements significatifs pour améliorer l'expérience utilisateur. Voici quelques suggestions pour aborder les problèmes identifiés :

  1. Concentration sur un design inclusif : Les développeurs devraient prioriser une représentation diverse dans les données d'entraînement pour s'assurer qu'une large gamme d'identités soit reflétée dans les résultats. Cela signifie aller au-delà d'une conception étroite de l'humanité pour inclure plusieurs genres, ethnies et parcours.

  2. Implication continue des utilisateurs : Impliquer les utilisateurs dans le processus de conception dès le début peut aider à identifier les problèmes potentiels tôt. Les développeurs devraient chercher des retours d'un large éventail de participants pour connaître leurs perspectives et attentes.

  3. Design conscient des dommages : Une approche consciente des dommages devrait être adoptée, soulignant l'importance de minimiser les dommages durant la phase de conception. Cela implique de reconnaître les implications sociales des images générées et de travailler activement pour réduire la probabilité de perpétuer des stéréotypes nuisibles.

  4. Révision et supervision éthiques : Intégrer des éthiciens dans l'équipe de conception peut aider à s'assurer que les considérations éthiques soient abordées tout au long du processus de développement. Ces professionnels peuvent donner des insights sur la façon dont les décisions de conception peuvent impacter différentes communautés.

  5. Tests itératifs et boucles de retour d'information : Après le déploiement, un suivi et des tests continus peuvent aider à identifier les domaines à améliorer. Rassembler le retour des utilisateurs après l'utilisation de l'outil dans des contextes réels peut mettre en lumière d'autres problèmes et opportunités pour le perfectionnement.

Conclusion

L'essor des T2Is, surtout Stable Diffusion, présente des possibilités fascinantes pour la créativité et l'expression. Cependant, comme l'a souligné cette étude, il existe d'importants défis liés à la représentation et aux biais dans les résultats générés par ces outils. Les expériences des utilisateurs révèlent un écart préoccupant entre attentes et réalité, particulièrement pour les identités marginalisées.

Il est crucial pour les développeurs et les chercheurs de prendre ces préoccupations au sérieux et de chercher des améliorations qui privilégient des pratiques de conception inclusives et éthiques. En se concentrant sur les besoins et les perspectives des utilisateurs, les T2Is peuvent mieux refléter la diversité des expériences humaines et éviter de perpétuer des stéréotypes nuisibles. Pour aller de l'avant, des approches conscientes des dommages en matière de conception et une implication continue des utilisateurs peuvent aider à garantir que ces technologies servent tous les individus, plutôt que de renforcer les biais existants.

Source originale

Titre: "I don't see myself represented here at all": User Experiences of Stable Diffusion Outputs Containing Representational Harms across Gender Identities and Nationalities

Résumé: Though research into text-to-image generators (T2Is) such as Stable Diffusion has demonstrated their amplification of societal biases and potentials to cause harm, such research has primarily relied on computational methods instead of seeking information from real users who experience harm, which is a significant knowledge gap. In this paper, we conduct the largest human subjects study of Stable Diffusion, with a combination of crowdsourced data from 133 crowdworkers and 14 semi-structured interviews across diverse countries and genders. Through a mixed-methods approach of intra-set cosine similarity hierarchies (i.e., comparing multiple Stable Diffusion outputs for the same prompt with each other to examine which result is 'closest' to the prompt) and qualitative thematic analysis, we first demonstrate a large disconnect between user expectations for Stable Diffusion outputs with those generated, evidenced by a set of Stable Diffusion renditions of `a Person' providing images far away from such expectations. We then extend this finding of general dissatisfaction into highlighting representational harms caused by Stable Diffusion upon our subjects, especially those with traditionally marginalized identities, subjecting them to incorrect and often dehumanizing stereotypes about their identities. We provide recommendations for a harm-aware approach to (re)design future versions of Stable Diffusion and other T2Is.

Auteurs: Sourojit Ghosh, Nina Lutz, Aylin Caliskan

Dernière mise à jour: 2024-08-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2408.01594

Source PDF: https://arxiv.org/pdf/2408.01594

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires