Bildgenerierung an menschliche Vorlieben anpassen
Forscher verbessern Text-zu-Bild-Modelle, indem sie sich auf menschliche Entscheidungen konzentrieren.
― 6 min Lesedauer
Inhaltsverzeichnis
In den letzten Jahren gab's einen richtigen Hype um Modelle, die Textbeschreibungen in Bilder umwandeln können. Diese Text-zu-Bild-Modelle sind bei Forschern und der Allgemeinheit mega beliebt geworden. Allerdings produzieren viele dieser Modelle Bilder, die nicht immer das sind, was Leute ansprechend oder interessant finden. Zum Beispiel können sie komisch aussehende Figuren mit seltsamen Gesichtsausdrücken oder unpassenden Körperteilen erstellen.
Um das Problem anzugehen, haben Forscher entschieden, Informationen über menschliche Vorlieben in Bezug auf generierte Bilder zu sammeln. Sie haben Daten aus einer Community gesammelt, wo Menschen ihre Erfahrungen mit einem bestimmten Modell namens Stable Diffusion teilen. Durch die Analyse, wie Leute die Bilder auswählen, die ihnen am besten gefallen, wollten die Forscher einen Weg entwickeln, zukünftige Bildgenerierung besser an menschliche Geschmäcker anzupassen.
Das Problem mit aktuellen Modellen
Aktuelle Text-zu-Bild-Modelle machen einen tollen Job, wenn es darum geht, Bilder basierend auf Eingabebeschreibungen zu generieren. Trotzdem können die Ergebnisse manchmal hinter den menschlichen Vorlieben zurückbleiben. Nutzer müssen oft durch viele generierte Bilder blättern, um eins zu finden, das visuell ansprechend ist. Diese Inkonsistenz zeigt, dass es eine Lücke gibt zwischen dem, was das Modell produziert und dem, was die Leute wirklich wollen.
Die Hauptschwierigkeit liegt in den Bewertungssystemen, die verwendet werden, um diese Modelle zu beurteilen. Gängige Metriken wie Inception Score und Fréchet Inception Distance messen zwar die Qualität der generierten Bilder, fangen aber nicht wirklich ein, was Menschen ästhetisch ansprechend finden. Diese Methoden übersehen oft die kleineren Details, die menschliche Entscheidungen beeinflussen, wie das Gesamtbild und das Gefühl eines Bildes.
Sammeln menschlicher Vorlieben
Um die Qualität der generierten Bilder zu verbessern, haben die Forscher einen grossen Datensatz gesammelt, der menschliche Vorlieben widerspiegelt. Sie haben Bilder, die vom Stable Diffusion Modell generiert wurden, gesammelt und die Teilnehmer gebeten, ihre Favoriten aus Sets von Bildern auszuwählen, die aus dem gleichen Textprompt erstellt wurden.
Der Datensatz besteht aus fast 100.000 generierten Bildern und den Entscheidungen von über 2.600 Nutzern. Jeder Nutzer sah sich mehrere Bilder an, die aus spezifischen Prompts erstellt wurden, und wählte aus, welches Bild ihm am besten gefiel. Diese Informationen wurden als Basis für die Analyse verwendet, wie gut die aktuellen Bewertungsmethoden mit menschlichen Entscheidungen übereinstimmen.
Einschränkungen bestehender Metriken
Die herkömmlichen Bewertungsmetriken, die verwendet werden, um die Bildqualität zu bewerten, können oft die menschlichen Vorlieben nicht richtig erfassen. Zum Beispiel konzentrieren sich Inception Score und Fréchet Inception Distance hauptsächlich auf Bildtexturen und -muster und ignorieren die visuelle Anziehungskraft, die von der Gesamtkomposition und der ästhetischen Qualität kommt. Das bedeutet, dass selbst wenn ein Modell bei diesen Metriken gut abschneidet, es trotzdem Bilder erzeugen kann, die bei den Nutzern nicht ankommen.
Die Forscher fanden heraus, dass selbst beliebte Methoden wie CLIP, das ein neuronales Netzwerk nutzt, das auf einer Vielzahl von Bildern trainiert wurde, Probleme hatte, menschliche Vorlieben effektiv zu messen. Obwohl CLIP Textprompts in seinen Berechnungen berücksichtigen kann, stimmt es nicht immer gut mit dem überein, was Individuen visuell ansprechend finden.
Erstellung eines Klassifikators für menschliche Vorlieben
Um die Einschränkungen der bestehenden Methoden zu erkennen, entwickelten die Forscher einen Klassifikator für menschliche Vorlieben. Dieser neue Ansatz beinhaltet, das CLIP-Modell unter Verwendung des Datensatzes menschlicher Entscheidungen zu verfeinern, damit es besser vorhersagen kann, welche Bilder die Leute basierend auf ihren Textbeschreibungen bevorzugen könnten.
Durch das Training dieses Klassifikators mit den gesammelten Daten wollten die Forscher die Fähigkeit des Modells verbessern, Bilder zu generieren, die näher an menschlichem Geschmack liegen. Der Klassifikator arbeitet, indem er die Ähnlichkeit zwischen einem Textprompt und dem generierten Bild bewertet und einen Vorliebe-Score liefert, der widerspiegelt, wie wahrscheinlich es ist, dass eine Person das Bild ansprechend findet.
Anpassung des Stable Diffusion Modells
Mit dem Klassifikator für menschliche Vorlieben bewaffnet, gingen die Forscher daran, das Stable Diffusion Modell zu verbessern. Sie führten eine Methode ein, um zu justieren, wie das Modell Bilder generiert, indem sie erkannten, welche Bilder die Nutzer mochten und welche nicht. Dazu wurde ein neuer Datensatz erstellt, der klar zwischen bevorzugten und nicht bevorzugten Bildern unterscheidet.
Ziel war es, das Stable Diffusion Modell zu verfeinern, um visuell ansprechendere Bilder zu generieren. Durch die Verwendung des menschlichen Vorliebe-Scores als Anleitung während des Trainings lernte das Modell, die Arten von Bildern zu vermeiden, die Nutzer typischerweise unattraktiv fanden. Diese Anpassung half dem Modell, die menschlichen Absichten besser zu erfassen, wenn Bilder generiert wurden.
Nutzerstudien und Evaluation
Um die Effektivität des angepassten Modells zu validieren, wurden Nutzerstudien durchgeführt. Die Teilnehmer wurden mit Bildern konfrontiert, die sowohl vom ursprünglichen Stable Diffusion Modell als auch vom neu angepassten Modell generiert wurden. Ziel war es, zu bewerten, wie gut jedes Modell die Nutzerpräferenzen basierend auf den gleichen Textprompt erfasste.
Die Ergebnisse dieser Studien zeigten, dass das angepasste Modell deutlich besser abschnitt, wenn es darum ging, bevorzugte Bilder zu produzieren. Nutzer berichteten, dass ihnen die Bilder des angepassten Modells viel besser gefielen als die vom ursprünglichen Modell. Tatsächlich bemerkten viele Nutzer, dass die angepassten Bilder weniger Eigenheiten aufwiesen und mehr mit ihren Erwartungen übereinstimmten.
Die Rolle des Datensatzes
Der für diese Forschung erstellte Datensatz ist bedeutend, da er die erste grossangelegte Sammlung menschlicher Vorlieben zu generierten Bildern darstellt. Er bietet Einblicke in das, was Menschen ansprechend finden, und dient als wichtige Ressource für weitere Studien im Bereich der Computervision. Die gesammelten Daten können Forschern helfen, generative Modelle zu verfeinern und zu verbessern, was den Weg für bessere Technologien ebnet, die den öffentlichen Geschmäckern gerecht werden.
Fazit
Diese Forschung zeigt die Bedeutung auf, die Bildgenerierung mit menschlichen ästhetischen Vorlieben abzustimmen. Durch das Sammeln menschlicher Entscheidungen und die Erstellung eines speziellen Klassifikators für menschliche Vorlieben haben die Forscher bedeutende Schritte unternommen, um Text-zu-Bild-Modelle zu verbessern. Die Ergebnisse zeigen, dass es neue Bewertungsmethoden braucht, die wirklich widerspiegeln, was Nutzer wollen, was letztlich zu besseren generierten Bildern führt. Hoffentlich inspiriert diese Arbeit die Entwicklung noch fortschrittlicherer Modelle, die genau auf menschliche Geschmäcker in der visuellen Kunst eingehen können.
Titel: Human Preference Score: Better Aligning Text-to-Image Models with Human Preference
Zusammenfassung: Recent years have witnessed a rapid growth of deep generative models, with text-to-image models gaining significant attention from the public. However, existing models often generate images that do not align well with human preferences, such as awkward combinations of limbs and facial expressions. To address this issue, we collect a dataset of human choices on generated images from the Stable Foundation Discord channel. Our experiments demonstrate that current evaluation metrics for generative models do not correlate well with human choices. Thus, we train a human preference classifier with the collected dataset and derive a Human Preference Score (HPS) based on the classifier. Using HPS, we propose a simple yet effective method to adapt Stable Diffusion to better align with human preferences. Our experiments show that HPS outperforms CLIP in predicting human choices and has good generalization capability toward images generated from other models. By tuning Stable Diffusion with the guidance of HPS, the adapted model is able to generate images that are more preferred by human users. The project page is available here: https://tgxs002.github.io/align_sd_web/ .
Autoren: Xiaoshi Wu, Keqiang Sun, Feng Zhu, Rui Zhao, Hongsheng Li
Letzte Aktualisierung: 2023-08-22 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2303.14420
Quell-PDF: https://arxiv.org/pdf/2303.14420
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.