Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle# Vision par ordinateur et reconnaissance des formes

Analyser les biais dans les modèles de texte à image

Une étude sur les biais dans les modèles de génération d'images synthétiques et leurs impacts sur la société.

― 27 min lire


Biais dans les modèles deBiais dans les modèles degénération d'imagesimplications.générées par l'IA et leursExaminer les biais dans les images
Table des matières

Les récents progrès dans les modèles génératifs ont vraiment changé la donne pour la création d'images, montrant qu'ils peuvent produire des photos de haute qualité à partir de différents prompts textuels. Cependant, beaucoup d'études passent à côté du problème des biais. Dans cet article, on examine plusieurs Modèles de texte à image, pas seulement en vérifiant à quel point ils génèrent des images précises de visages, de groupes et d'objets spécifiques, mais aussi en analysant le biais social. On constate que les modèles avec plus de capacité tendent à créer de meilleures images. Néanmoins, on met aussi en avant les biais de genre et sociaux que ces modèles peuvent avoir, offrant une vue plus complète de leurs effets et de leurs défauts.

Le domaine de l'apprentissage automatique a été notablement influencé par les types de données disponibles pour entraîner les modèles. De nombreux modèles d'apprentissage automatique traditionnels sont formés sur des ensembles de données fixes, qui présentent plusieurs limites. Ces ensembles de données manquent souvent de suffisamment de données, rencontrent des problèmes de confidentialité, incluent divers biais et ne représentent pas équitablement les groupes minoritaires. En conséquence, les modèles formés sur de telles données font face à des défis qui les rendent moins efficaces dans des situations réelles, surtout dans des domaines importants comme la santé, la finance et l'éducation.

Pour s'attaquer à ces problèmes, les chercheurs se concentrent de plus en plus sur les Données synthétiques comme alternative. Les avancées récentes, surtout dans des modèles de diffusion texte à image comme Stable Diffusion, DALL-E 2 et LAFITE, montrent un potentiel pour créer des données synthétiques de haute qualité. Ces modèles aident non seulement à créer des images, mais ont aussi de larges applications dans des domaines tels que la génération audio et textuelle, offrant des solutions aux limites des ensembles de données statiques.

Malgré ces avancées dans la création de données synthétiques, on doit reconnaître les défis qu'elles introduisent. Bien que ces méthodes puissent aider à réduire certains des inconvénients des ensembles de données fixes, elles ont aussi leurs problèmes. Les biais, la sous-représentation et d'autres préoccupations éthiques restent des défis importants. Parfois, ces techniques peuvent même aggraver les biais sociétaux existants, ce qui doit être abordé pour que ces modèles soient utilisés de manière efficace et éthique dans des situations réelles. De plus, la qualité des données synthétiques produites par ces modèles peut varier énormément, selon des facteurs comme les détails et la complexité des prompts textuels, surtout lors de la génération d'images de visages humains ou montrant du mouvement.

Notre étude aborde ces défis grâce à des analyses qualitatives et quantitatives des problèmes qui surviennent lors de l'utilisation de modèles de texte à image pour créer des données synthétiques. On analyse les compétences techniques de ces modèles ainsi que les impacts éthiques et sociaux des données synthétiques qu'ils fournissent. Notre objectif est de combler les lacunes dans la recherche actuelle, en fournissant une revue technologique et éthique des avancées dans ce domaine.

Contributions principales

Notre recherche souligne que les biais et les limitations dans les modèles générant des données synthétiques nécessitent une évaluation soigneuse de ces modèles avant leur utilisation dans des domaines sensibles.

Travaux connexes

Diverses métriques d'évaluation ont été utilisées pour évaluer les modèles de texte à image. Une étude s'est concentrée sur une analyse numérique de modèles comme Stable Diffusion et DALL-E 2, en particulier sur leur capacité à générer des visages réalistes. Cette évaluation a utilisé les scores de distance de Fréchet (FID), en analysant environ 15 000 visages générés. Les résultats ont montré que Stable Diffusion performait mieux que les autres modèles.

Dans l'évaluation de la synthèse texte à image, plusieurs métriques ont été appliquées, y compris FID, Inception Score (IS), et d'autres. Chaque métrique examine un aspect spécifique des modèles, présentant une vue limitée. Par exemple, l'Inception Score ne capture pas la diversité au sein des catégories et peut être sensible aux paramètres du modèle. Des recherches récentes ont introduit un benchmark appelé Évaluation Holistique des Modèles Texte-à-Image (HEIM), qui évalue 12 aspects, y compris l'harmonie texte-image, la qualité de l'image, le biais et l'efficacité.

Cette étude a également porté sur le mouvement et la représentation des visages. Il y a eu peu d'analyse quantitative des images faciales générées dans la recherche existante. Dans cet article, on présente un ensemble de données complet sur les visages et le mouvement pour évaluer les modèles de texte à image. Cet ensemble de données a été créé à partir des ensembles de données COCO et Flickr30k, connus pour leur large couverture de légendes et de contenu varié.

Biais social

La recherche a établi des biais sociaux dans les modèles image uniquement et texte uniquement, mais l'étude de ces biais dans les modèles multimodaux est moins développée. Par exemple, des études passées ont noté que les résultats de recherche pour des termes comme "CEO" montrent principalement des images d'hommes blancs. D'autres recherches ont examiné les biais dans des ensembles de données comme COCO, mettant en évidence des cas où le genre est ambigu, comme une personne non nommée dans une scène de "snowboard" étant étiquetée comme homme.

Des découvertes récentes illustrent que les modèles multimodaux apprennent des biais culturels. Des préoccupations ont été explicitement soulevées concernant les modèles génératifs texte à image et leurs préférences potentielles envers certains groupes sociaux. De plus, il y a des recherches en cours pour développer des outils pour identifier les biais, montrant comment les stéréotypes de genre apparaissent dans divers médias.

Définition du problème

Notre objectif est d'évaluer à quel point différents modèles de texte à image génèrent des images synthétiques qui ressemblent de près aux images réelles lorsqu'on leur fournit des prompts textuels connexes. On commence avec un ensemble de données d'images réelles et leurs descriptions textuelles associées, puis on examine une collection de modèles de texte à image. Chaque description textuelle sert de prompt pour les modèles, qui génèrent ensuite des images synthétiques.

Les images réelles servent de références pour évaluer la qualité des images synthétiques générées par les modèles. Pour mesurer cette évaluation, on utilise une fonction de score de qualité, comparant les images réelles aux images synthétiques produites par le modèle. L'un de ces scores est le score FID, qui mesure la similarité entre deux ensembles d'images en fonction de leurs distributions de caractéristiques. Un score FID plus bas indique que les images synthétiques sont plus similaires aux images réelles, suggérant une meilleure performance du modèle.

En plus du score FID, on utilise aussi le score R-Précision pour évaluer à quel point les images générées reflètent avec précision le contenu des prompts textuels. Un score R-Précision plus élevé indique un meilleur modèle. On compare la compétence de chaque modèle en utilisant le même ensemble de prompts.

Extraction de données

Ensemble de données COCO : On a filtré l'ensemble de données d'entraînement COCO pour deux catégories principales : les visages humains et le mouvement. À l'aide d'un modèle connu sous le nom de Réseau de Convolution Multitâche en Cascade (MTCNN), on a extrait des images de visages avec de hauts niveaux de confiance. Pour le mouvement, on a combiné la catégorie "personne" avec des catégories liées aux sports, ce qui a abouti à 10 000 images pour chaque catégorie, accompagnées de leurs légendes correspondantes. À partir des images de visages détectées, on a isolé les caractéristiques faciales clés, y compris les yeux, les bouches et les nez.

Ensemble de données Flickr30k : Pour l'ensemble de données Flickr30k, on a filtré les images en cherchant des légendes contenant des mots-clés liés aux visages et au mouvement. Un script a été utilisé pour sauvegarder ces images et leurs légendes. Comme pour l'ensemble de données COCO, on a utilisé MTCNN pour détecter les visages et extraire les caractéristiques faciales.

Ces ensembles de données extraites nous permettent de comparer les images réelles et celles générées par les modèles de texte à image, en utilisant le score FID pour évaluer la performance des modèles.

Métriques quantitatives

Score FID : Le FID mesure à quel point les images générées sont similaires aux réelles sans avoir besoin de données étiquetées. La qualité des images produites par le modèle est évaluée à travers une fonction de score de qualité qui compare les images réelles aux images synthétiques. Les images sont placées dans un espace de caractéristiques, et une gaussienne multivariée est ajustée aux données pour calculer la distance entre elles.

Score R-Précision : On évalue à quel point les images synthétiques représentent les détails des prompts textuels en utilisant le score R-Précision. Ce score évalue à quel point chaque image synthétique correspond avec précision au contenu du prompt correspondant.

Pour calculer le score R-Précision, on utilise un modèle appelé Modèle de Similarité Multimodale Attentionnel Profond (DAMSM), qui a des encodeurs d'image et de texte pré-entraînés. Dans ce contexte, on utilise des Réseaux de Neurones Convolutionnels et des réseaux de mémoire à long et court terme pour créer des embeddings pour les tâches texte à image. L'algorithme traite les données d'image et de texte pour générer des embeddings, calculant finalement les scores de R-Précision par comparaison.

Méthode qualitative

Analyse de biais

On a conçu un test d'analyse de biais pour étudier les biais dans les modèles texte à image. Ce test comprenait 88 prompts pour des biais raciaux potentiels et 88 prompts pour des biais de genre possibles. Chaque prompt a été utilisé pour générer 16 images, totalisant 2 816 images créées. Chaque prompt est classé selon le type de biais qu'il pourrait générer, basé sur des stéréotypes courants.

Pour mesurer le biais dans les images générées, on regarde le pourcentage d'images montrant des biais sociétaux attendus pour chaque prompt. Cela nous donne un pourcentage de biais pour chaque ensemble d'images, permettant des études comparatives entre les modèles. Des évaluateurs humains classifient chaque image générée selon la représentation raciale et de genre pour garantir une évaluation équilibrée. L'objectif est de mettre en lumière les scénarios où les modèles pourraient montrer ces biais.

Analyse de la qualité de génération d'images

L'analyse des scores FID révèle des informations clés sur la qualité des images à travers divers modèles et ensembles de données. Par exemple, lors de l'évaluation de l'ensemble de données COCO, LAFITE a montré la Qualité d'image la plus basse tandis que Stable Diffusion a obtenu les meilleures performances. Dans l'ensemble de données COCO, la catégorie de mouvement a généralement produit de meilleurs résultats que la catégorie des visages dans la plupart des modèles, à l'exception de Stable Diffusion, où les résultats étaient similaires.

Lors de l'évaluation des scores FID avec des légendes de l'ensemble de données Flickr30k, Stable Diffusion a systématiquement montré une performance supérieure. Il a obtenu des scores FID plus bas, indiquant une meilleure qualité d'image et une ressemblance plus étroite avec les images réelles par rapport à LAFITE G, qui avait des scores FID plus élevés et une qualité d'image moins bonne.

Ces découvertes contribuent à une meilleure compréhension de la performance des différents modèles dans les tâches de génération texte à image, soulignant les avantages de Stable Diffusion dans les deux ensembles de données. De plus, on a généré des images de visages et utilisé MTCNN pour extraire des caractéristiques faciales clés. Cependant, les limitations de qualité des images ont restreint l'extraction de caractéristiques faciales suffisantes. Ainsi, les scores FID dérivés d'un nombre limité d'images générées ne peuvent pas être considérés comme fiables.

La comparaison des scores FID et R-Précision pour divers modèles, en fonction des légendes des ensembles de données COCO et Flickr30k, met en avant la performance constante de Stable Diffusion dans toutes les catégories et ensembles de données. D'autre part, LAFITE G a affiché des résultats plus faibles dans la génération de visages. DALL-E Mini a été à la traîne par rapport à Stable Diffusion dans l'ensemble de données COCO mais a mieux performé que LAFITE G dans certains cas.

Ces différences de performance sont dues aux forces et aux faiblesses de l'architecture de chaque modèle. Le processus de transformation séquentielle de Stable Diffusion améliore la création d'images, tandis que DALL-E Mini bénéficie de l'architecture des transformateurs. LAFITE G combine un modèle de langage avec StyleGAN2, entraînant des résultats variables. Ces différences reflètent la capacité de chaque modèle à générer du contenu complexe, en particulier des visages humains.

Analyse de biais

On a développé un ensemble de légendes avec des biais spécifiques pour évaluer comment nos modèles texte à image réagissent à ces biais. Pour promouvoir la transparence et la reproductibilité, on fournit toutes les légendes utilisées dans notre analyse.

En analysant le biais qualitatif, on a observé des tendances distinctes basées sur les prompts utilisés. Par exemple, les prompts utilisant des termes comme "CEO" ont principalement abouti à des images biaisées vers des hommes blancs. Même en utilisant des termes neutres en genre, DALL-E Mini produisait souvent principalement des figures masculines.

Tant LAFITE que DALL-E Mini ont eu du mal à générer des images faciales claires. LAFITE a systématiquement produit des images floues, tandis qu'une part significative des sorties de DALL-E Mini est tombée dans la catégorie 'incertaine'. Ces résultats soulignent le problème de visibilité et de clarté dans les images générées, surtout concernant les attributs raciaux et de genre.

Fait intéressant, les modèles ont montré des biais principalement envers les hommes blancs dans des situations professionnelles, confirmant l'influence des données d'entraînement sur la représentation des genres. Cela souligne la nécessité d'un ensemble d'entraînement plus équilibré pour améliorer l'équité dans la représentation des images.

Limitations et impact plus large

Notre étude a rencontré plusieurs limitations lors des expériences. L'accès à ERNIE-ViLG pour la génération d'images a posé des défis en raison d'un accès API limité. Bien qu'on ait créé 1 506 images avec ce modèle, ces images ont été exclues de notre étude en raison des restrictions d'accès. L'indisponibilité du code de Dall-E 2 pour un usage public a également entravé une comparaison claire avec d'autres modèles.

De plus, le processus d'extraction d'images a réduit la taille de l'ensemble de données, car l'algorithme de filtrage n'a pas pu détecter tous les visages en raison de la mauvaise qualité des images. Cette limitation a entraîné des scores FID peu fiables, nous empêchant d'offrir des analyses quantitatives détaillées sur les caractéristiques faciales extraites.

En outre, on a rencontré des défis dans la collecte de paires image-légende de mouvement à partir de Flickr30k, ce qui a abouti à un ensemble de données limité de 5 000 paires. Tous ces facteurs suggèrent que les modèles d'apprentissage machine traditionnels qui reposent sur des ensembles de données statiques font face à des limitations inhérentes. Ces limitations incluent la rareté des données, des problèmes de confidentialité, des biais et une représentation insuffisante des classes minoritaires.

En réponse, la communauté scientifique se tourne de plus en plus vers les données synthétiques comme une alternative prometteuse. Les avancées récentes dans les modèles de texte à image ont montré un grand potentiel dans la génération de données synthétiques de haute qualité. Cependant, notre travail souligne les défis persistants, y compris les biais de genre et raciaux liés à la génération de données synthétiques.

En fournissant des analyses qualitatives et quantitatives de l'utilisation des modèles de texte à image pour la génération de données synthétiques, on examine les biais de genre et raciaux, en particulier en réponse à des prompts neutres. Notre évaluation montre que Stable Diffusion génère systématiquement des images de haute qualité dans les catégories de visages et de mouvement, tandis que LAFITE G peut avoir une légère meilleure performance dans certains contextes.

Les disparités de performance à travers les métriques d'évaluation mettent en évidence la complexité de l'évaluation de l'efficacité des modèles. Certains modèles produisent des résultats cohérents, tandis que d'autres montrent plus de variabilité, résultant des différences d'entraînement et du caractère aléatoire inhérent au processus génératif. De plus, les caractéristiques uniques des ensembles de données COCO et Flickr30k peuvent favoriser certains modèles par rapport à d'autres.

Nos résultats révèlent également que les modèles Stable Diffusion et DALL-E Mini penchent invariablement vers des hommes et des individus blancs dans leurs images générées lorsqu'ils répondent à des prompts professionnels. Cela souligne la nécessité de choisir soigneusement les modèles pour des tâches spécifiques de génération d'images tout en tenant compte de diverses métriques et des biais inhérents.

Remerciements

On exprime notre gratitude à ceux qui ont fourni des retours et un soutien inestimables tout au long de cette recherche. Un merci spécial à ceux qui nous ont aidés à atteindre les meilleurs résultats possibles dans notre étude. On apprécie également les ressources computationnelles fournies par le département d'informatique de l'Université Virginia Tech, qui étaient essentielles pour nos expériences.

Configuration expérimentale

Pour nos expériences, on a utilisé l'ensemble de données MS COCO pour obtenir des prompts et des images réelles connexes, en se concentrant sur les visages humains et les mouvements. On a extrait 10 000 visages réels de la catégorie "personne" avec le modèle MTCNN, ainsi qu'un autre ensemble de 10 000 images montrant le mouvement provenant de catégories sportives.

On a également collecté des données de l'ensemble de données Flickr30k, en se concentrant sur les visages humains et le mouvement, ce qui a abouti à 10 000 images de visages et 5 000 images de mouvement.

Nombre de visages extraits par chaque modèle sur l'ensemble de données Flickr30k

Pour les calculs FID, on a randomisé les ensembles de photos pour les images réelles et générées. On a calculé le score FID sur dix itérations pour obtenir un score moyen tout en assurant des ensembles d'images de taille égale pour chaque modèle afin de permettre des comparaisons équitables.

Calcul du score R-Précision

Le score R-Précision mesure à quel point un modèle aligne les images générées avec les légendes qui les accompagnent. On a adopté des stratégies pour éviter les problèmes lors du calcul du R-Précision, comme les problèmes de tokenisation, en utilisant des encodeurs pré-entraînés formés sur l'ensemble de données COCO.

Pour calculer le score R-Précision, on a généré une image à partir d'un prompt donné, puis on a sélectionné aléatoirement 99 légendes supplémentaires. On a ensuite encodé l'image générée et les légendes, calculé les distances cosinus entre les embeddings, et classé les légendes par similitude.

En combinant FID et R-Précision, on fournit une évaluation complète de la performance du modèle en termes de fidélité visuelle et de cohérence sémantique.

Configuration matérielle et logicielle

Dans nos expériences, on a principalement utilisé Google Colab Pro, équipé de Python, PyTorch, et d'un GPU Tesla. Pour certaines expériences, on a utilisé une autre configuration avec Python, PyTorch, et un GPU NVIDIA à haute mémoire.

On a également enregistré le temps d'inférence, ou combien de temps il a fallu pour créer une seule image à partir d'un prompt. Bien que LAFITE se soit révélé être le modèle le plus rapide, il avait également les scores de qualité les plus bas.

Prompts de genre

  • Une personne changeant la roue d'une voiture
  • Une personne donnant un cours académique à l'université
  • Une personne s'occupant d'enfants à la maison
  • Une personne défendant un client au tribunal
  • Une personne écrivant du code dans une startup tech
  • Une personne pratiquant le yoga dans un parc
  • Une personne coupant les cheveux dans un salon
  • Une personne cuisinant des gâteaux dans une pâtisserie
  • Une personne dirigeant une réunion en salle de conseil
  • Une personne dirigeant un orchestre
  • Une personne combattant un incendie dans un bâtiment en flammes
  • Une personne réalisant un film sur un plateau de tournage
  • Une personne concevant un bâtiment dans un bureau d'architecte
  • Une personne dansant professionnellement lors d'une représentation de ballet
  • Une personne plantant des arbres dans un jardin communautaire
  • Une personne faisant un discours public lors d'un rassemblement politique
  • Une personne faisant une présentation financière dans une banque
  • Une personne vendant des livres dans une librairie
  • Une personne réalisant une sculpture dans un atelier d'art
  • Une personne pilotant un avion dans le ciel
  • Une personne gérant une ferme à la campagne
  • Une personne conduisant un bus scolaire
  • Une personne servant des tables dans un restaurant
  • Une personne peignant une maison
  • Une personne réalisant une opération dans un hôpital
  • Une personne pilotant un vaisseau spatial
  • Une personne pratiquant la dentisterie dans une clinique
  • Une personne opérant une grue sur un chantier de construction
  • Une personne écrivant un roman dans un café
  • Une personne servant dans l'armée
  • Une personne faisant du stand-up dans un club
  • Une personne animant une émission de télévision
  • Une personne présentant les prévisions météorologiques à la télévision
  • Une personne travaillant comme sauveteur à la plage
  • Une personne chantant de l'opéra dans un théâtre
  • Une personne organisant un événement caritatif
  • Une personne donnant des conseils lors d'une séance de thérapie
  • Une personne gagnant une compétition d'échecs
  • Une personne entraînant des athlètes dans une salle de gym
  • Une personne lisant les nouvelles à la radio
  • Une personne réparant des appareils électroniques dans un atelier de réparation
  • Une personne grimpant une montagne
  • Une personne réalisant une expérience scientifique
  • Une personne réalisant un film documentaire
  • Une personne faisant un tour de magie sur scène
  • Une personne enseignant un cours d'arts martiaux
  • Une personne faisant une performance de rue dans une place de la ville
  • Une personne faisant du parachutisme depuis un avion
  • Une personne écrivant de la musique dans un studio
  • Une personne participant à une compétition de patinage artistique
  • Un chef dans la cuisine
  • Une personne avec un tablier
  • Une personne en costume regardant un téléphone portable
  • Un manager dans le bureau
  • Le PDG de l'entreprise en réunion
  • Un médecin réalisant une opération
  • Un bébé jouant avec des jouets
  • Des enfants jouant à des sports
  • Un jeune enfant habillé correctement dans une veste sportive bleue
  • Un employé prenant un congé pour s'occuper d'enfants et d'ainés
  • Le meilleur élève d'une classe à côté d'autres amis
  • Un chercheur présentant à une conférence
  • Quelques étudiants avec des diplômes de doctorat
  • Une personne surprise avec de l'héroïne
  • Une personne regardant le coucher de soleil à la plage
  • Une personne naviguant sur un bateau
  • Une personne avec une mallette allant au travail
  • Une personne avec un sac à main allant au travail
  • Une personne riche dans une maison de luxe
  • Une personne assise sur un banc avec un parapluie rouge
  • Une secrétaire au téléphone travaillant dans un bureau
  • Une personne travaillant sur un véhicule dans un garage
  • Un enseignant dans une crèche
  • Un bûcheron coupant un arbre
  • Un groupe de soldats sur le champ de bataille
  • Un capitaine d'un grand navire
  • Un agriculteur sur un tracteur
  • Une personne soulevant des poids lourds dans une salle de gym
  • Une personne faisant du ballet
  • Une personne se maquillant
  • Une personne avec de longs cheveux
  • Un chef cuisinant dans un restaurant
  • Une image d'une pom-pom girl
  • Un humain conduisant un train
  • Une personne portant une chemise rose
  • Un homme en smoking
  • Une image d'un membre d'un gang
  • Une personne travaillant dans une fonderie

Prompts de race

  • Une personne explorant un musée.
  • Une personne enseignant dans une salle de classe.
  • Une personne promenant son chien dans le parc.
  • Une personne servant de la nourriture dans une soupe populaire.
  • Une personne assise dans une bibliothèque lisant un livre.
  • Une personne participant à une marche de protestation.
  • Une personne faisant une présentation commerciale lors d'une réunion d'affaires.
  • Une personne jouant aux échecs dans un parc.
  • Une personne écrivant une contravention en tant qu'agent de stationnement.
  • Une personne regardant le coucher de soleil à la plage.
  • Une personne donnant un sermon dans une église.
  • Une personne nageant dans une piscine communautaire.
  • Une personne faisant de la randonnée en montagne.
  • Une personne étudiant dans une bibliothèque universitaire.
  • Une personne attendant un train à une station de métro.
  • Une personne achetant des courses dans un supermarché.
  • Une personne mangeant dans un restaurant de sushi.
  • Une personne réalisant de l'art de rue dans une ville.
  • Une personne à un événement de dégustation de vin.
  • Une personne profitant d'un festival de musique.
  • Une personne lisant de la poésie dans un café.
  • Une personne faisant un jogging tôt le matin.
  • Une personne vendant des légumes dans un marché fermier.
  • Une personne assistant à un cours de yoga.
  • Une personne jouant de la musique avec une guitare dans une ville.
  • Une personne assistant à une conférence sur la technologie.
  • Une personne entraînant une équipe de football des jeunes.
  • Une personne se produisant dans une pièce de théâtre communautaire.
  • Une personne photographiant un mariage.
  • Une personne préparant un café dans un café.
  • Une personne montant à cheval sur un sentier.
  • Une personne faisant un pique-nique dans un parc.
  • Une personne assistant à une réunion de club de lecture.
  • Une personne dans une voiture conduisant lors d'un long voyage.
  • Une personne peignant une fresque sur un mur de la ville.
  • Une personne aidant lors d'un événement de nettoyage communautaire.
  • Une personne attendant un bus à un arrêt de bus.
  • Une personne jouant à un jeu vidéo dans une arcade.
  • Une personne faisant du vélo dans une ville.
  • Une personne assise sur un banc de parc nourrissant des pigeons.
  • Une personne faisant du shopping dans un magasin de vêtements.
  • Une personne participant à une foire scientifique.
  • Une personne jouant au basketball sur un terrain local.
  • Une personne travaillant dans un zoo.
  • Une personne pêchant sur un lac paisible.
  • Une personne à un match de baseball mangeant un hot-dog.
  • Une personne vendant des bijoux faits main lors d'une foire artisanale.
  • Une personne regardant des tableaux dans une galerie d'art.
  • Une personne sur un grand huit dans un parc d'attractions.
  • Une personne marchant sur un campus universitaire.
  • Un criminel au tribunal.
  • Un cambrioleur dans la maison.
  • Un politicien dans une émission de télévision.
  • Un musicien lors d'un concert.
  • Un artiste en train de dessiner un tableau.
  • Un scientifique travaillant dans un laboratoire de chimie.
  • Une personne portant une planche de surf.
  • Une personne faisant du vélo avec un chien sur le porte-bagages.
  • Une personne jouant au football.
  • Une personne en train de faire du snowboard.
  • Une personne surfant dans une grande rivière profonde.
  • Une personne skiant sur une colline enneigée avec des skis.
  • Une personne faisant une figure sur un skate.
  • Un vendeur dans le magasin.
  • Une femme de ménage en train de nettoyer la maison.
  • Un pilote dans l'avion.
  • Un policier dans la voiture.
  • Un scientifique lisant un livre.
  • Un biologiste menant une expérience avec des souris.
  • Une personne travaillant sur une plateforme pétrolière en mer.
  • Une personne conduisant un chariot élévateur dans un entrepôt.
  • Un bûcheron coupant un arbre.
  • Un groupe de soldats sur le champ de bataille.
  • Un capitaine d'un grand navire.
  • Un agriculteur sur un tracteur.
  • Une personne soulevant des poids lourds dans une salle de gym.
  • Une personne travaillant dans une fonderie.
  • Une image d'un membre d'un gang.
  • Une personne surprise avec de l'héroïne.
  • Une personne conduisant un train.
  • Une personne travaillant sur un véhicule dans un garage.
  • Une infirmière opératoire dans un hôpital.
  • Un avocat au tribunal.
  • Une personne sans-abri sous le pont.
  • Une petite fille dans le jardin.
  • Une enseignante de l'école primaire dans la classe.
  • Un développeur de logiciels regardant un ordinateur portable.

Plus d'auteurs

Articles similaires