Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Maschinelles Lernen

Neue Kennzahl zur Messung der Ähnlichkeit von Bildern

Wir stellen DreamSim vor, ein Mass, das mit der menschlichen visuellen Wahrnehmung abgestimmt ist.

― 6 min Lesedauer


Visuelle Ähnlichkeit neuVisuelle Ähnlichkeit neudefiniertVerständnis von Bildähnlichkeit.Der DreamSim-Metrik verbessert das
Inhaltsverzeichnis

Was macht zwei Bilder ähnlich? Diese Frage liegt im Kern dessen, wie Menschen die visuelle Welt wahrnehmen. Wir haben ein neues Set synthetischer Bildtriplets erstellt, um das weiter zu untersuchen. Jedes Triplet enthält ein Referenzbild und zwei Variationen. Wir haben Leute gefragt, welche Variation ähnlicher zum Referenzbild ist, wobei verschiedene Aspekte der Ähnlichkeit wie Pose, Farbe und Form abgedeckt wurden. Dieses neue Benchmark ermöglicht es uns, eine Kennzahl, DreamSim, zu entwickeln, die besser mit menschlichen Urteilen übereinstimmt als bestehende Methoden.

Aktuelle Methoden zur Messung von Ähnlichkeit konzentrieren sich oft auf pixelgenaue Vergleiche. Sie schauen sich niedrige Merkmale wie Farben und Texturen an, übersehen aber die komplexeren Beziehungen, wie Objekte angeordnet sind oder ihre Formen. Unser Ziel ist es, eine Kennzahl zu schaffen, die Bilder ganzheitlicher bewertet und mittlere Merkmale berücksichtigt, die mit der menschlichen Wahrnehmung übereinstimmen.

Datensatz Erstellung

Der erste Schritt in unserer Forschung war, Ähnlichkeitsurteile von Menschen über Bildpaare zu sammeln. Wir haben einen Datensatz synthetischer Bilder mit Text-zu-Bild-Modellen entwickelt. Diese Modelle erzeugen Bilder basierend auf Textaufforderungen und ermöglichen es uns, Variationen zu erstellen, die verschiedene Aspekte der Ähnlichkeit hervorheben.

Um sicherzustellen, dass die Ähnlichkeitsurteile fast automatisch zwischen verschiedenen Personen waren, haben wir unseren Datensatz so gestaltet, dass Bildtriplets enthalten sind, in denen die Beobachter ähnliche Denkprozesse teilen würden. Wir verwendeten einen iterativen Filterprozess, um diese Urteile zu sammeln, wobei wir uns auf viele visuelle Merkmale konzentrierten, die Menschen verwenden, um Bilder zu vergleichen.

Unser Datensatz, der NIGHTS genannt wird, besteht aus 20.000 synthetischen Bildtriplets. Jedes Triplet enthält ein Referenzbild und zwei Variationen sowie menschliche Bewertungen, welche Variation ähnlicher ist.

Bildähnlichkeitsmetriken

Traditionelle Metriken berechnen Ähnlichkeit basierend auf niedrigen Bildmerkmalen. Dazu gehören Methoden wie PSNR und SSIM, die sich auf pixelweise Unterschiede konzentrieren. Obwohl diese Methoden nützlich sind, erfassen sie nicht die höheren visuellen Aspekte, die Menschen bei der Bildvergleiche beachten.

Fortgeschrittenere Metriken wie LPIPS und DISTS verwenden Deep Learning, um Merkmale aus Bildern zu extrahieren, haben aber immer noch Einschränkungen. Sie übersehen oft, wie Menschen das gesamte Layout, die Objektposen und den semantischen Inhalt wahrnehmen. In unserer Studie haben wir eine neue Metrik, DreamSim, entwickelt, die diese Lücke schliessen soll.

DreamSim wurde auf unserem NIGHTS-Datensatz trainiert, was es ihm ermöglicht, besser mit der Art und Weise übereinzustimmen, wie Menschen Ähnlichkeit bewerten. Wir fanden heraus, dass DreamSim bei verschiedenen Aufgaben wie dem Abrufen ähnlicher Bilder und dem Rekonstruieren von Bildern basierend auf ihren visuellen Eigenschaften gut abschneidet.

Methodologie

Bildsammlung

Um unsere Bilder zu erstellen, haben wir mit Aufforderungen begonnen, die eine einzige Kategorie spezifizierten, wie "ein Vogel" oder "ein Baum". Mithilfe des Stable Diffusion Modells haben wir viele Bilder erzeugt, die in Aspekten wie Pose, Perspektive und Farbe aus derselben Kategorie variierten. So hatten wir eine grosse Anfangsmenge an Bildern mit mittleren Variationen.

Wir haben diese Bilder durch einen strengen Labeling-Prozess gefiltert. Teilnehmer wurden Paare von Bildern gezeigt und gefragt, welches ähnlicher zu einem Referenzbild war. So konnten wir sicherstellen, dass unser Datensatz echte menschliche Wahrnehmungen visueller Ähnlichkeit repräsentiert.

Sammlung menschlicher Urteile

Um menschliche Urteile zu sammeln, haben wir einen Test mit zwei Alternativen (2AFC) verwendet. Den Teilnehmern wurden Bildtriplets gezeigt und sie wurden gebeten, auszuwählen, welche der beiden Variationen näher am Referenzbild war. Wir haben die Aufgabe begrenzt, um sicherzustellen, dass die Teilnehmer auf ihre unmittelbaren Reaktionen angewiesen waren und nicht zu viel nachdachten.

Jedes Triplet durchlief mehrere Bewertungsrunden. Wir behielten Triplets, bei denen die Mehrheit der Teilnehmer zustimmte, welches Bild ähnlicher war. Dieser strenge Filterprozess half uns, qualitativ hochwertige Daten zu erhalten.

Just Noticeable Difference (JND) Test

Zusätzlich zum 2AFC-Test haben wir JND-Tests (just noticeable difference) verwendet. Diese Methode zielt darauf ab, die Schwelle zu identifizieren, bei der Menschen Unterschiede zwischen Bildern wahrnehmen. Den Teilnehmern wurden Bildpaare gezeigt und sie wurden gefragt, ob sie identisch waren. So konnten wir bewerten, wie subtile Veränderungen die Wahrnehmung der Ähnlichkeit beeinflussen.

Leistung verschiedener Metriken

Wir haben bewertet, wie gut verschiedene bestehende Metriken mit menschlichen Urteilen übereinstimmen. Traditionelle Metriken betonen typischerweise niedrige Merkmale, während unsere neue Metrik, DreamSim, darauf abzielt, die komplexeren und nuancierteren Aspekte visueller Ähnlichkeit zu erfassen.

Übereinstimmung mit menschlicher Wahrnehmung

Als wir DreamSim mit anderen Metriken wie LPIPS und DISTS verglichen, zeigte DreamSim eine signifikant bessere Übereinstimmung mit menschlichen Urteilen. Traditionelle Metriken treffen oft nicht ins Schwarze, was zu Meinungsverschiedenheiten darüber führt, was Menschen als ähnlich wahrnehmen und was die Metriken anzeigen.

Wir führten Experimente durch, um zu analysieren, wie gut DreamSim in verschiedenen Szenarien abschnitt. Zum Beispiel schnitt DreamSim in Tests mit Datensätzen unterschiedlicher Bildkategorien durchgehend besser ab, was auf eine erhöhte Sensibilität für Menschliche Wahrnehmung hindeutet.

Merkmals Sensitivität

Wir haben weiter analysiert, auf welche Merkmale DreamSim am empfindlichsten reagiert. Unsere Ergebnisse zeigen, dass es besonders auf Vordergrundobjekte, Farbe und das Gesamtlayout achtet, während es weniger von Veränderungen in der Orientierung betroffen ist. Das spiegelt eine menschlichere Bewertung von Bildern wider.

Anwendungen

Bildabruf

Wir haben unsere Metrik auf Bildabrufaufgaben in verschiedenen Datensätzen angewendet. Bei einem Abfragebild haben wir die Ähnlichkeit zu einem gesamten Datensatz berechnet und die ähnlichsten Bilder abgerufen. DreamSim hat bestehende Methoden durchweg übertroffen und relevantere Nachbarn in Bezug auf visuelle Ähnlichkeit bereitgestellt.

Bildrekonstruktion

Die Metrik wurde auch in Bildrekonstruktionsaufgaben verwendet, wo wir bewerteten, wie gut sie generative Modelle leiten konnte, um Bilder zu erstellen, die mit einem Zielbild übereinstimmen. Die Ergebnisse deuteten darauf hin, dass DreamSim wesentliche visuelle Attribute effektiv erfassen konnte, was zu qualitativ hochwertigeren rekonstruierten Bildern führte.

Einschränkungen und zukünftige Arbeit

Obwohl unsere Studie vielversprechende Ergebnisse bietet, müssen einige Einschränkungen angesprochen werden. Der Datensatz konzentriert sich hauptsächlich auf objektzentrierte Bilder, was möglicherweise nicht das breite Spektrum menschlicher Ähnlichkeitsurteile vollständig repräsentiert. Eine Erweiterung unseres Datensatzes, um vielfältigere Szenen und Kontexte einzubeziehen, könnte die Effektivität der Metrik verbessern.

Eine weitere Herausforderung sind die potenziellen Voreingenommenheiten in den vortrainierten Modellen, die zur Generierung von Bildern verwendet wurden. Da diese Modelle bestehende Vorurteile enthalten können, könnte der Datensatz diese unbeabsichtigt in die Ähnlichkeitsurteile übertragen.

Breitere Auswirkungen

Diese Forschung hat das Potenzial, verschiedene Bereiche zu beeinflussen. Verbesserte Bildähnlichkeitsmetriken könnten Anwendungen in der Computer Vision, Benutzererfahrung in bildbasierten Systemen und Fortschritte in Machine-Learning-Techniken zur Analyse visueller Daten verbessern.

Fazit

In dieser Arbeit haben wir eine neue Metrik, DreamSim, eingeführt, die speziell darauf ausgelegt ist, mit menschlichen Wahrnehmungen von Bildähnlichkeit übereinzustimmen. Durch die Generierung eines robusten Datensatzes synthetischer Bilder und gründliche Bewertungen haben wir gezeigt, dass DreamSim bestehende Metriken übertrifft.

Unsere Forschung betont die Wichtigkeit, menschliche Wahrnehmung zu verstehen, um Metriken für Bildähnlichkeit zu entwickeln. Während sich Technologie und Methoden weiterentwickeln, wird ein tieferes Verständnis visueller Ähnlichkeit entscheidend für Anwendungen in der Computer Vision und darüber hinaus sein.

Originalquelle

Titel: DreamSim: Learning New Dimensions of Human Visual Similarity using Synthetic Data

Zusammenfassung: Current perceptual similarity metrics operate at the level of pixels and patches. These metrics compare images in terms of their low-level colors and textures, but fail to capture mid-level similarities and differences in image layout, object pose, and semantic content. In this paper, we develop a perceptual metric that assesses images holistically. Our first step is to collect a new dataset of human similarity judgments over image pairs that are alike in diverse ways. Critical to this dataset is that judgments are nearly automatic and shared by all observers. To achieve this we use recent text-to-image models to create synthetic pairs that are perturbed along various dimensions. We observe that popular perceptual metrics fall short of explaining our new data, and we introduce a new metric, DreamSim, tuned to better align with human perception. We analyze how our metric is affected by different visual attributes, and find that it focuses heavily on foreground objects and semantic content while also being sensitive to color and layout. Notably, despite being trained on synthetic data, our metric generalizes to real images, giving strong results on retrieval and reconstruction tasks. Furthermore, our metric outperforms both prior learned metrics and recent large vision models on these tasks.

Autoren: Stephanie Fu, Netanel Tamir, Shobhita Sundaram, Lucy Chai, Richard Zhang, Tali Dekel, Phillip Isola

Letzte Aktualisierung: 2023-12-08 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2306.09344

Quell-PDF: https://arxiv.org/pdf/2306.09344

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel