Aligner la génération d'images avec les préférences humaines
Des chercheurs améliorent les modèles de texte à image en se concentrant sur les choix humains.
― 7 min lire
Table des matières
Ces dernières années, il y a eu un gros intérêt pour des modèles capables de transformer des descriptions textuelles en images. Ces modèles de texte en image sont devenus populaires chez les chercheurs et le grand public. Cependant, beaucoup de ces modèles produisent des images qui ne correspondent pas toujours à ce que les gens trouvent attrayant ou intéressant. Par exemple, ils peuvent créer des figures étranges avec des expressions faciales bizarres ou des parties du corps mal assorties.
Pour résoudre ce problème, les chercheurs ont décidé de recueillir des infos sur les choix humains concernant les images générées. Ils ont collecté des données d'une communauté où les gens partagent leurs expériences avec un modèle particulier appelé Stable Diffusion. En analysant comment les gens sélectionnent les images qu'ils préfèrent, les chercheurs ont voulu développer un moyen d'aligner mieux la génération d'images futures avec les goûts humains.
Le Problème avec les Modèles Actuels
Les modèles actuels de texte en image font un boulot incroyable pour générer des images à partir de descriptions. Mais, les résultats peuvent être décevants quand il s'agit de répondre aux préférences humaines. Les utilisateurs doivent souvent trier à travers plusieurs images générées pour en trouver une qui soit visuellement plaisante. Cette inconsistance montre qu'il y a un fossé entre ce que le modèle produit et ce que les gens veulent vraiment.
Le principal défi réside dans les méthodes d'évaluation utilisées pour juger ces modèles. Des métriques courantes comme l'Inception Score et la Fréchet Inception Distance mesurent la qualité des images générées, mais elles ne reflètent pas vraiment ce que les humains trouvent esthétiquement plaisant. Ces méthodes passent souvent à côté des détails plus fins qui influencent les choix humains, comme le look général et la sensation d'une image.
Rassembler les Préférences Humaines
Pour améliorer la qualité des images générées, les chercheurs ont fait un pas significatif en collectant un grand dataset qui reflète les préférences humaines. Ils ont rassemblé des images générées par le modèle Stable Diffusion et ont demandé aux participants de choisir leurs préférées parmi des ensembles d'images générées à partir du même prompt textuel.
Le dataset comprend près de 100 000 images générées, ainsi que les choix faits par plus de 2 600 utilisateurs. Chaque utilisateur a regardé plusieurs images produites à partir de prompts spécifiques et a sélectionné celle qu'il préférait. Ces infos sont devenues la base pour analyser à quel point les méthodes d'évaluation actuelles s'alignent avec les choix humains.
Limitations des Métriques Existantes
Les métriques d'évaluation conventionnelles utilisées pour évaluer la qualité des images sont souvent limitées pour capter les préférences humaines. Par exemple, l'Inception Score et la Fréchet Inception Distance se concentrent principalement sur les textures et les motifs des images, en négligeant l'attrait visuel qui vient de la composition générale et de la qualité esthétique. Ça veut dire que même si un modèle obtient un bon score sur ces métriques, il peut quand même produire des images qui ne résonnent pas avec les utilisateurs.
Les chercheurs ont constaté que même des méthodes populaires comme CLIP, qui utilise un réseau de neurones entraîné sur une variété d'images, avaient du mal à mesurer efficacement les préférences humaines. Bien que CLIP puisse prendre en compte les prompts textuels dans ses calculs, il ne s'aligne pas toujours bien avec ce que les gens trouvent visuellement plaisant.
Création d'un Classificateur de Préférences Humaines
Reconnaissant les limites des méthodes existantes, les chercheurs ont développé un classificateur de préférences humaines. Cette nouvelle approche implique d'ajuster le modèle CLIP en utilisant le dataset des choix humains, lui permettant de mieux prédire quelles images les gens pourraient préférer en fonction de leurs descriptions textuelles.
En entraînant ce classificateur sur les données collectées, les chercheurs espéraient améliorer la capacité du modèle à générer des images qui correspondent mieux au goût humain. Le classificateur fonctionne en évaluant la similarité entre un prompt textuel et l'image générée, fournissant un score de préférence humaine qui reflète la probabilité qu'une personne trouve l'image attrayante.
Adaptation du Modèle Stable Diffusion
Équipés du classificateur de préférences humaines, les chercheurs ont ensuite amélioré le modèle Stable Diffusion. Ils ont introduit une méthode pour ajuster la façon dont le modèle génère des images en reconnaissant quelles images les utilisateurs préféraient et lesquelles ils n'aimaient pas. Ça a impliqué de préparer un nouveau dataset qui distingue clairement entre les images préférées et celles non préférées.
L'objectif était d'affiner le modèle Stable Diffusion pour générer des images plus visuellement attractives. En utilisant le score de préférence humaine comme guide pendant l'entraînement, le modèle a appris à éviter les types d'images que les utilisateurs trouvaient généralement peu attrayants. Cet ajustement a aidé le modèle à mieux capter les intentions humaines lors de la génération d'images.
Études Utilisateurs et Évaluation
Pour valider l'efficacité du modèle adapté, des études utilisateurs ont été réalisées. Les participants ont été présentés avec des images générées par le modèle Stable Diffusion original et le modèle nouvellement adapté. Le but était d'évaluer à quel point chaque modèle captait les préférences des utilisateurs basées sur les mêmes prompts textuels.
Les résultats de ces études ont montré que le modèle adapté s'en sortait beaucoup mieux pour produire des images préférées. Les utilisateurs ont déclaré qu'ils aimaient beaucoup plus les images générées par le modèle adapté que celles du modèle original. En fait, beaucoup d'utilisateurs ont remarqué que les images adaptées présentaient moins d'étrangetés et étaient plus en phase avec leurs attentes.
Le Rôle du Dataset
Le dataset créé pour cette recherche est significatif, car il représente la première grande collection de préférences humaines concernant les images générées. Il donne un aperçu de ce que les gens trouvent attrayant et sert de ressource vitale pour des études futures dans le domaine de la vision par ordinateur. Les données recueillies peuvent aider les chercheurs à affiner et améliorer les modèles génératifs, ouvrant la voie à une meilleure technologie qui répond aux goûts du public.
Conclusion
Cette recherche souligne l'importance d'aligner la génération d'images avec les préférences esthétiques humaines. En rassemblant les choix humains et en créant un classificateur de préférences humaines dédié, les chercheurs ont fait des pas significatifs vers l'amélioration des modèles de texte en image. Les résultats montrent la nécessité de nouvelles méthodes d'évaluation qui reflètent vraiment ce que les utilisateurs veulent, menant finalement à de meilleures images générées. À l'avenir, ce travail espérons-le, inspirera le développement de modèles encore plus avancés capables de répondre avec précision aux goûts humains en matière d'art visuel.
Titre: Human Preference Score: Better Aligning Text-to-Image Models with Human Preference
Résumé: Recent years have witnessed a rapid growth of deep generative models, with text-to-image models gaining significant attention from the public. However, existing models often generate images that do not align well with human preferences, such as awkward combinations of limbs and facial expressions. To address this issue, we collect a dataset of human choices on generated images from the Stable Foundation Discord channel. Our experiments demonstrate that current evaluation metrics for generative models do not correlate well with human choices. Thus, we train a human preference classifier with the collected dataset and derive a Human Preference Score (HPS) based on the classifier. Using HPS, we propose a simple yet effective method to adapt Stable Diffusion to better align with human preferences. Our experiments show that HPS outperforms CLIP in predicting human choices and has good generalization capability toward images generated from other models. By tuning Stable Diffusion with the guidance of HPS, the adapted model is able to generate images that are more preferred by human users. The project page is available here: https://tgxs002.github.io/align_sd_web/ .
Auteurs: Xiaoshi Wu, Keqiang Sun, Feng Zhu, Rui Zhao, Hongsheng Li
Dernière mise à jour: 2023-08-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.14420
Source PDF: https://arxiv.org/pdf/2303.14420
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.