Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Apprendimento automatico

Nuova metrica per misurare la somiglianza delle immagini

Presentiamo DreamSim, una misura allineata con la percezione visiva umana.

― 7 leggere min


Misurare la SimilaritàMisurare la SimilaritàVisiva Ridefinitasomiglianza tra le immagini.Il metric DreamSim rende più chiara la
Indice

Cosa fa sembrare simili due immagini? Questa domanda è al centro di come gli esseri umani percepiscono il mondo visivo. Abbiamo creato un nuovo set di triplette di immagini sintetiche per approfondire questo tema. Ogni tripletta contiene un'immagine di riferimento e due variazioni. Abbiamo chiesto alle persone di giudicare quale variazione fosse più simile all'immagine di riferimento, coprendo vari aspetti di somiglianza come posa, colore e forma. Questo nuovo benchmark ci permette di sviluppare una metrica, DreamSim, progettata per allinearsi meglio al giudizio umano rispetto ai metodi esistenti.

I metodi attuali per misurare la somiglianza spesso si concentrano su confronti pixel per pixel. Guardano a caratteristiche di basso livello come colori e texture, ma trascurano relazioni più complesse, come come sono disposti gli oggetti o le loro forme. Il nostro obiettivo è creare una metrica che valuti le immagini in modo più olistico, considerando caratteristiche di medio livello che si allineano con la Percezione Umana.

Creazione del Dataset

Il primo passo nella nostra ricerca è stato raccogliere giudizi di somiglianza da parte degli esseri umani su coppie di immagini. Abbiamo sviluppato un dataset di immagini sintetiche utilizzando modelli di text-to-image. Questi modelli generano immagini in base a prompt testuali, permettendoci di creare variazioni che evidenziano diversi aspetti di somiglianza.

Per assicurarci che i giudizi di somiglianza fossero quasi automatici tra diverse persone, abbiamo progettato il nostro dataset per includere triple di immagini in cui gli osservatori avrebbero condiviso processi di pensiero simili. Abbiamo utilizzato un processo di filtraggio iterativo per raccogliere questi giudizi, concentrandoci su molte caratteristiche visive che le persone usano per confrontare le immagini.

Il nostro dataset, chiamato NIGHTS, consiste in 20.000 triple di immagini sintetiche. Ogni tripletta include un'immagine di riferimento e due variazioni, insieme a valutazioni umane su quale variazione fosse più simile.

Metriche di Somiglianza delle Immagini

Le metriche tradizionali calcolano la somiglianza basandosi su caratteristiche di basso livello delle immagini. Queste includono metodi come PSNR e SSIM, che si concentrano sulle differenze pixel per pixel. Anche se questi metodi sono utili, non catturano aspetti visivi di livello superiore che gli esseri umani considerano quando confrontano le immagini.

Metriche più avanzate, come LPIPS e DISTS, utilizzano il deep learning per estrarre caratteristiche dalle immagini, ma hanno comunque delle limitazioni. Spesso trascurano come gli esseri umani percepiscono la disposizione generale, le pose degli oggetti e il contenuto semantico. Nella nostra studio, abbiamo sviluppato una nuova metrica, DreamSim, che mira a colmare questa lacuna.

DreamSim è stata addestrata sul nostro dataset NIGHTS, il che le consente di allinearsi meglio a come gli esseri umani valutano la somiglianza. Abbiamo scoperto che DreamSim si comporta bene in vari compiti, come recuperare immagini simili e ricostruire immagini in base alle loro caratteristiche visive.

Metodologia

Raccolta delle Immagini

Per creare le nostre immagini, siamo partiti da prompt che specificavano una singola categoria, come "un uccello" o "un albero". Usando il modello di Stable Diffusion, abbiamo generato molte immagini che variavano in aspetti come posa, prospettiva e colore dalla stessa categoria. Questo ci ha dato un grande set iniziale di immagini con variazioni di medio livello.

Abbiamo filtrato queste immagini attraverso un rigoroso processo di etichettatura. I partecipanti hanno visto coppie di immagini e sono stati invitati a dire quale fosse più simile a un'immagine di riferimento. In questo modo, abbiamo potuto assicurarci che il nostro dataset rappresentasse percezioni autentiche della somiglianza visiva da parte degli esseri umani.

Raccolta dei Giudizi Umani

Per raccogliere i giudizi umani, abbiamo utilizzato un test di scelta forzata a due alternative (2AFC). I partecipanti sono stati mostrati triplette di immagini e sono stati invitati a scegliere quale delle due variazioni fosse più vicina all'immagine di riferimento. Abbiamo limitato il compito per garantire che i partecipanti si basassero sulle loro reazioni immediate, piuttosto che riflettere troppo sulle loro scelte.

Ogni tripletta è stata sottoposta a più round di valutazione. Abbiamo mantenuto le triple in cui la maggior parte dei partecipanti era d'accordo su quale immagine fosse più simile. Questo rigoroso processo di filtraggio ci ha aiutato a mantenere dati di alta qualità.

Test di Differenza Minima Notabile (JND)

In aggiunta al test 2AFC, abbiamo impiegato test di differenza minima notabile (JND). Questo metodo mira a identificare la soglia alla quale le persone notano differenze tra le immagini. I partecipanti hanno visto coppie di immagini e sono stati chiesti se fossero identiche. Questo ci ha permesso di valutare come i cambiamenti sottili influenzassero le percezioni di somiglianza delle persone.

Performance delle Diverse Metriche

Abbiamo valutato quanto bene varie metriche esistenti si allineassero con i giudizi umani. Le metriche tradizionali tendono a enfatizzare caratteristiche di basso livello, mentre la nostra nuova metrica, DreamSim, mira a catturare aspetti più complessi e sfumati della somiglianza visiva.

Allineamento con la Percezione Umana

Quando abbiamo confrontato DreamSim con altre metriche come LPIPS e DISTS, DreamSim ha mostrato un allineamento significativamente migliore con i giudizi umani. Le metriche tradizionali spesso mancano il bersaglio, portando a disaccordi tra ciò che gli esseri umani percepiscono come simile e ciò che indicano le metriche.

Abbiamo condotto esperimenti per analizzare quanto bene DreamSim si comportasse in vari scenari. Ad esempio, quando testato su dataset con categorie di immagini diverse, DreamSim ha costantemente superato altre metriche, suggerendo una maggiore sensibilità alla percezione umana.

Sensibilità alle Caratteristiche

Abbiamo analizzato ulteriormente a quali caratteristiche DreamSim sia più sensibile. I nostri risultati mostrano che presta particolare attenzione agli oggetti in primo piano, al colore e alla disposizione generale, mentre è meno influenzata da cambiamenti di orientamento. Questo riflette una valutazione più simile a quella umana delle immagini.

Applicazioni

Recupero di Immagini

Abbiamo applicato la nostra metrica a compiti di recupero di immagini attraverso diversi dataset. Data un'immagine di ricerca, abbiamo calcolato la sua somiglianza con un intero dataset e recuperato le immagini simili migliori. DreamSim ha costantemente superato i metodi esistenti, fornendo vicini più rilevanti in termini di somiglianza visiva.

Ricostruzione di Immagini

La metrica è stata utilizzata anche in compiti di ricostruzione di immagini, dove abbiamo valutato quanto bene potesse guidare i modelli generativi nella creazione di immagini che si allineano con un'immagine target. I risultati hanno indicato che DreamSim potrebbe catturare efficacemente attributi visivi essenziali, portando a immagini ricostruite di qualità superiore.

Limitazioni e Lavori Futuri

Sebbene il nostro studio offra risultati promettenti, ci sono alcune limitazioni che devono essere affrontate. Il dataset si concentra principalmente su immagini incentrate sugli oggetti, che potrebbero non rappresentare appieno la gamma diversificata di giudizi di somiglianza umana. Espandere il nostro dataset per includere scene e contesti più vari potrebbe migliorare l'efficacia della metrica.

Un'altra sfida è il potenziale bias nei modelli pre-addestrati utilizzati per generare immagini. Poiché questi modelli potrebbero contenere bias esistenti, il dataset potrebbe involontariamente trasferire questi bias nei giudizi di somiglianza.

Impatti più Ampi

Questa ricerca ha il potenziale di influenzare vari campi. Metriche di somiglianza delle immagini migliorate potrebbero potenziare applicazioni nella visione artificiale, migliorare l'esperienza utente nei sistemi basati su immagini e favorire progressi nelle tecniche di apprendimento automatico per la comprensione dei dati visivi.

Conclusione

In questo lavoro, abbiamo introdotto una nuova metrica, DreamSim, progettata specificamente per allinearsi con le percezioni umane della somiglianza delle immagini. Generando un robusto dataset di immagini sintetiche e conducendo valutazioni approfondite, abbiamo dimostrato che DreamSim supera le metriche esistenti.

La nostra ricerca sottolinea l'importanza di comprendere la percezione umana nello sviluppo di metriche per la somiglianza delle immagini. Man mano che la tecnologia e i metodi continuano ad avanzare, una comprensione più profonda della somiglianza visiva sarà cruciale per applicazioni nella visione artificiale e oltre.

Fonte originale

Titolo: DreamSim: Learning New Dimensions of Human Visual Similarity using Synthetic Data

Estratto: Current perceptual similarity metrics operate at the level of pixels and patches. These metrics compare images in terms of their low-level colors and textures, but fail to capture mid-level similarities and differences in image layout, object pose, and semantic content. In this paper, we develop a perceptual metric that assesses images holistically. Our first step is to collect a new dataset of human similarity judgments over image pairs that are alike in diverse ways. Critical to this dataset is that judgments are nearly automatic and shared by all observers. To achieve this we use recent text-to-image models to create synthetic pairs that are perturbed along various dimensions. We observe that popular perceptual metrics fall short of explaining our new data, and we introduce a new metric, DreamSim, tuned to better align with human perception. We analyze how our metric is affected by different visual attributes, and find that it focuses heavily on foreground objects and semantic content while also being sensitive to color and layout. Notably, despite being trained on synthetic data, our metric generalizes to real images, giving strong results on retrieval and reconstruction tasks. Furthermore, our metric outperforms both prior learned metrics and recent large vision models on these tasks.

Autori: Stephanie Fu, Netanel Tamir, Shobhita Sundaram, Lucy Chai, Richard Zhang, Tali Dekel, Phillip Isola

Ultimo aggiornamento: 2023-12-08 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.09344

Fonte PDF: https://arxiv.org/pdf/2306.09344

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili