Biais dans les modèles de génération d'images à partir de texte
Examiner l'impact des biais dans la génération d'images T2I.
― 8 min lire
Table des matières
- Le Problème des Biais
- Méthodes d'Évaluation
- Résultats sur la Représentation de Genre
- Représentation Raciale
- Représentation d'Âge
- Évaluation des Traits de Personnalité
- Situations Quotidiennes et Représentation Culturelle
- Expansion des Prompts et Stratégies de Mitigation
- Préoccupations sur la Qualité des Images
- Conclusion
- Directions Futures
- Source originale
- Liens de référence
La génération d'images à partir de texte (T2I) est une nouvelle technologie qui crée des images basées sur des descriptions textuelles. Ce système peut aider plein de gens, des artistes aux utilisateurs lambda, en fournissant des images de haute qualité à partir de simples suggestions. Mais ces systèmes s'appuient sur d'énormes quantités de données d'internet, ce qui peut introduire des Biais nuisibles dans les images qu'ils produisent. Cet article examine comment des biais sociaux peuvent apparaître dans les images générées par des modèles T2I populaires.
Le Problème des Biais
Les modèles T2I puisent dans d'énormes sources en ligne pour apprendre à créer des images. Ça peut être risqué parce que les données peuvent contenir des biais liés au genre, à l'âge, à la race et à la localisation géographique. Ces biais peuvent mener à des Représentations injustes dans les images produites par ces modèles.
Une étude a analysé deux modèles T2I bien connus, DALL-E 2 et Stable Diffusion, pour comprendre comment les biais apparaissent dans les images générées. En examinant comment les métiers, les traits de personnalité et les scénarios quotidiens sont représentés à travers différentes catégories sociales, l'étude met en évidence des différences significatives dans ces représentations.
Méthodes d'Évaluation
Pour évaluer les biais dans ces modèles, les chercheurs ont utilisé des outils automatisés et des évaluations humaines. Ils ont regardé spécifiquement comment les gens de différents Genres, Âges, races et origines géographiques étaient dépeints. Les évaluations comprenaient des suggestions basiques, comme "une personne", ainsi que des descriptions plus spécifiques liées aux métiers et traits de personnalité.
Résultats sur la Représentation de Genre
Les résultats ont montré que DALL-E 2 a tendance à créer plus d'images d'hommes jeunes et blancs, tandis que Stable Diffusion favorisait une représentation plus équilibrée mais penchait quand même vers les femmes blanches. Ça crée un manque dans la façon dont d'autres genres et races sont montrés dans le contenu généré. Par exemple, il y avait moins d'images d'individus noirs et asiatiques, soulignant un biais significatif dans la représentation.
Pour les métiers, des biais étaient évidents. Pour des jobs traditionnellement masculins comme CEO, très peu d'images présentaient des femmes, tandis que les métiers dominés par les femmes comme les soins infirmiers étaient presque entièrement représentés par des femmes. Ça montre que les modèles peuvent perpétuer des stéréotypes, impactant la manière dont les gens voient différentes professions.
Représentation Raciale
En examinant la représentation raciale, les deux modèles présentaient un biais clair en faveur des individus blancs, négligeant souvent d'autres groupes raciaux. Dans de nombreuses catégories de métiers, il y avait une absence notable d'individus noirs, et d'autres groupes raciaux comme les Latinos et les personnes du Moyen-Orient étaient rarement représentés.
Cette tendance soulève des préoccupations sur la manière dont ces modèles peuvent renforcer des stéréotypes existants concernant la race et les professions. Si un modèle génère des images qui montrent principalement des individus blancs dans divers domaines, ça peut contribuer à une vision étroite de qui peut faire ces jobs.
Représentation d'Âge
L'étude a aussi examiné comment l'âge était représenté dans les images. DALL-E 2 avait une forte concentration sur les jeunes adultes, négligeant les individus plus âgés dans de nombreuses catégories professionnelles. En revanche, Stable Diffusion était légèrement plus équilibré mais montrait quand même une tendance à privilégier les groupes d'âge plus jeunes.
Ce biais d'âge peut affecter les perceptions de capacité et de convenance pour divers rôles, ce qui peut mener à de l'âgisme dans la façon dont les gens sont dépeints dans les médias et la société.
Évaluation des Traits de Personnalité
L'analyse s'étendait aux traits de personnalité, montrant que les traits associés à la compétence étaient principalement liés aux figures masculines. En revanche, les traits chaleureux et nourrissants étaient souvent attribués aux femmes. De telles associations peuvent affecter négativement la façon dont les gens perçoivent différents genres dans des contextes professionnels ou personnels.
La distribution raciale des traits était aussi notable. Des traits comme l'ambition étaient souvent associés à des individus noirs, tandis que des traits positifs étaient plus souvent liés à des individus blancs. Ces schémas reflètent des stéréotypes qui peuvent influencer la manière dont divers groupes sont perçus.
Situations Quotidiennes et Représentation Culturelle
En plus des métiers et traits, l'étude a examiné des scénarios du quotidien. Les images générées pour des situations quotidiennes, comme la nourriture ou des événements, montraient que des pays comme le Nigéria et l'Éthiopie étaient souvent sous-représentés. En revanche, des pays comme les États-Unis et l'Allemagne étaient fréquemment dépeints.
Ce manque de représentation peut créer une image déformée de la façon dont différentes cultures sont perçues, ce qui est significatif vu la nature globale d'internet. Si certains pays ou cultures sont souvent absents des images générées, ça peut mener à des malentendus supplémentaires concernant ces lieux et leurs habitants.
Expansion des Prompts et Stratégies de Mitigation
Pour adresser certains de ces biais, les chercheurs ont testé une méthode appelée expansion des prompts. Cette approche consistait à utiliser des prompts plus détaillés, comme spécifier le genre ou la race, dans une tentative de diversifier les images générées.
Bien que cette stratégie ait montré un certain potentiel pour améliorer la représentation, elle a aussi créé de nouveaux biais. Par exemple, même lorsque des prompts étaient conçus pour garantir une représentation spécifique, les résultats étaient encore mitigés. Ça indique que simplement ajouter des détails aux prompts peut ne pas être une solution efficace pour surmonter les biais.
Préoccupations sur la Qualité des Images
La qualité des images produites par les modèles T2I est une autre considération importante. L'étude a utilisé un critère appelé Fréchet Inception Distance (FID) pour évaluer à quel point les images générées étaient similaires aux images du monde réel. Les résultats ont indiqué que les images représentant des rôles de genre traditionnels avaient tendance à avoir de meilleures notes de qualité, suggérant que les modèles fonctionnaient mieux avec des stéréotypes familiers.
Les écarts de qualité révèlent un problème plus profond sur le fonctionnement des systèmes T2I et le potentiel de renforcement des biais à travers les images qu'ils produisent. Si les modèles produisent des images de qualité inférieure lorsqu'ils s'éloignent des normes établies, ça soulève des questions sur leur fiabilité et leur équité.
Conclusion
Cette étude met en lumière les biais significatifs présents dans les systèmes de génération d'images à partir de texte. Alors que ces technologies continuent d'évoluer, il est crucial de prêter attention aux implications sociales des images qu'elles produisent.
Les biais liés au genre, à la race, à l'âge et à la représentation culturelle peuvent façonner les perceptions et renforcer des stéréotypes, impactant la manière dont des individus et des communautés sont perçus dans la société. Bien que certaines stratégies de mitigation, comme l'expansion des prompts, montrent des promesses, elles soulignent aussi les complexités liées à l'adressage de ces biais.
À l'avenir, il est vital de développer des stratégies plus complètes pour évaluer et atténuer les biais dans les modèles T2I. En se concentrant sur l'équité représentative, les développeurs peuvent créer des systèmes plus inclusifs qui reflètent la diversité du monde réel. Cet effort bénéficiera non seulement aux utilisateurs mais aussi à une représentation plus précise et équitable de la société dans les médias et l'art.
Directions Futures
La recherche et les résultats discutés soulignent la nécessité d'examiner en continu les biais dans les modèles de génération T2I. Il y a une opportunité pour des études supplémentaires d'explorer comment ces systèmes peuvent mieux tenir compte de la diversité, en particulier concernant l'identité de genre, le handicap et la représentation culturelle.
De plus, il serait bénéfique de réaliser des tests dans le monde réel pour observer comment ces biais se manifestent dans divers contextes. Comprendre les expériences et perceptions des utilisateurs peut aider à informer le développement de modèles plus équitables et représentatifs.
En conclusion, à mesure que la technologie T2I s'intègre de plus en plus dans la vie quotidienne et les médias, aborder les biais sera crucial. En confrontant ces enjeux de front, les développeurs et les chercheurs peuvent favoriser une représentation plus inclusive, juste et précise du monde dans les images créées par ces outils puissants.
Titre: Social Biases through the Text-to-Image Generation Lens
Résumé: Text-to-Image (T2I) generation is enabling new applications that support creators, designers, and general end users of productivity software by generating illustrative content with high photorealism starting from a given descriptive text as a prompt. Such models are however trained on massive amounts of web data, which surfaces the peril of potential harmful biases that may leak in the generation process itself. In this paper, we take a multi-dimensional approach to studying and quantifying common social biases as reflected in the generated images, by focusing on how occupations, personality traits, and everyday situations are depicted across representations of (perceived) gender, age, race, and geographical location. Through an extensive set of both automated and human evaluation experiments we present findings for two popular T2I models: DALLE-v2 and Stable Diffusion. Our results reveal that there exist severe occupational biases of neutral prompts majorly excluding groups of people from results for both models. Such biases can get mitigated by increasing the amount of specification in the prompt itself, although the prompting mitigation will not address discrepancies in image quality or other usages of the model or its representations in other scenarios. Further, we observe personality traits being associated with only a limited set of people at the intersection of race, gender, and age. Finally, an analysis of geographical location representations on everyday situations (e.g., park, food, weddings) shows that for most situations, images generated through default location-neutral prompts are closer and more similar to images generated for locations of United States and Germany.
Auteurs: Ranjita Naik, Besmira Nushi
Dernière mise à jour: 2023-03-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.06034
Source PDF: https://arxiv.org/pdf/2304.06034
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont
- https://dl.acm.org/ccs.cfm
- https://doi.org/10.48550/arxiv.2211.03759
- https://doi.org/10.48550/arxiv.1908.04913
- https://www.bls.gov/cps/cpsaat11.htm
- https://github.com/CompVis/stable-diffusion
- https://learn.microsoft.com/en-us/rest/api/computervision/3.1/analyze-image/analyze-image
- https://www.mturk.com/
- https://github.com/dchen236/FairFace
- https://doi.org/10.48550/arxiv.2103.00020
- https://doi.org/10.48550/arxiv.2202.04053,
- https://doi.org/10.48550/arxiv.2211.03759,
- https://doi.org/10.48550/arxiv.2302.03675
- https://doi.org/10.48550/arxiv.2202.04053
- https://openai.com/research/dall-e-2-pre-training-mitigations
- https://doi.org/10.48550/arxiv.2204.14217