Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Calcolo e linguaggio# Apprendimento automatico

Avanzare nell'apprendimento dei concetti nei modelli da testo a immagine

Un nuovo benchmark migliora la valutazione di come i modelli imparano i concetti visivi.

― 12 leggere min


Apprendimento deiApprendimento deiconcetti nei modelli diintelligenza artificialedella generazione di immagini da testo.Nuovi metodi migliorano la comprensione
Indice

La capacità delle macchine di comprendere e creare immagini basate su descrizioni scritte è un'area chiave nella scienza computerizzata. Recenti sviluppi nei modelli testo-immagine hanno migliorato il modo in cui le macchine generano immagini, rendendole più realistiche grazie all'uso di grandi set di immagini e delle loro descrizioni. Tuttavia, la maggior parte degli studi si è concentrata solo su quanto siano realistiche le immagini piuttosto che su quanto bene questi modelli capiscano realmente i concetti dietro di esse.

Per valutare meglio come questi modelli testo-immagine apprendono e creano nuove idee visive, abbiamo sviluppato un ampio dataset che contiene 284 concetti visivi distinti e 33.000 spunti correlati. Questo ci consente di giudicare quanto bene questi modelli collegano le immagini che generano con i concetti su cui si basano.

Nella nostra ricerca, abbiamo esaminato diversi tipi di concetti visivi, compresi oggetti, attributi e stili. Abbiamo anche valutato il modo in cui questi concetti possono essere messi insieme, esaminando aspetti come il conteggio, gli attributi, le relazioni e le azioni. I nostri studi umani indicano che il nostro nuovo sistema di valutazione si correla bene con le prospettive umane su quanto bene questi modelli apprendono i concetti.

Gli esseri umani spesso raggruppano ciò che vedono in concetti. Ad esempio, sia i gatti che gli elefanti appartengono alla categoria degli animali, mentre sia le palme che i pini sono tipi di alberi. Quando parliamo di immagini nel linguaggio quotidiano, usiamo spesso questi concetti per descrivere ciò che vediamo. Tuttavia, creare sistemi informatici che possano apprendere e ragionare su queste idee visive a partire dalle immagini e dalle loro descrizioni rimane una sfida.

I modelli testo-immagine funzionano trasformando il linguaggio naturale in immagini corrispondenti. Questo significa che modelli di alta qualità fungono da ponte tra concetti espressi in parole e le loro rappresentazioni visive. Questa capacità ha anche portato a un interesse nell'uso di un metodo noto come "inversione dell'immagine", dove una o più immagini relative a un concetto vengono trasformate in una forma semplice di quel concetto.

Mentre le ricerche precedenti si sono concentrate sull'inversione delle immagini utilizzando metodi come le Reti Neurali Avversarie Generative, le tecniche più recenti hanno combinato l'inversione con metodi testo-immagine. Questi approcci consentono ai modelli di apprendere concetti rapidamente da meno immagini e di ricrearli in diverse combinazioni con altri concetti, attributi e stili.

All'interno di questo nuovo quadro di apprendimento dei concetti attraverso l'inversione dell'immagine, sono emersi due criteri principali di valutazione: l'Allineamento dei concetti, che verifica quanto da vicino le immagini generate corrispondano alle immagini target, e il Ragionamento Compositivo, che valuta se le immagini generate mantengono la loro composizione originale. Le ricerche precedenti hanno testato solo un numero limitato di concetti e composizioni, rendendo difficile applicare i loro risultati in modo ampio.

I metodi di valutazione esistenti hanno faticato a catturare accuratamente le preferenze umane. Questo ha portato a un bisogno di metodi di valutazione automatica. Per affrontare questo, abbiamo introdotto una strategia di valutazione completa chiamata Benchmark che si allinea con le preferenze umane e include un dataset di concetti. Il nostro dataset include 284 concetti diversi e può essere ampliato usando il nostro metodo per creare dataset realistici automaticamente.

Il nostro dataset si concentra su quattro compiti diversi che coinvolgono l'apprendimento dei concetti: apprendimento degli stili, apprendimento degli oggetti, apprendimento degli attributi e comprensione della composizione. Abbiamo anche suddiviso la composizione in quattro categorie: azione, attribuzione, conteggio e relazioni. Con questo dataset, dimostriamo come può essere utilizzato per valutare quanto bene i modelli apprendono i concetti.

Abbiamo creato un nuovo framework di valutazione che esamina le deviazioni dei concetti e mostra un forte accordo con i giudizi umani. Questo framework, combinato con il nostro dataset, offre un nuovo modo di condurre valutazioni su larga scala che corrispondono alle valutazioni umane. Alleniamo classificatori, chiamati oracoli, per ciascuno dei compiti per identificare i rispettivi concetti. Poi utilizziamo questi oracoli per calcolare quanto da vicino le immagini generate corrispondano alle immagini target originali.

Abbiamo condotto esperimenti approfonditi usando quattro diversi modelli per l'apprendimento dei concetti. Abbiamo messo a punto circa 1.100 modelli e generato oltre 200.000 immagini. I nostri risultati mostrano un compromesso: i modelli che eccellono nell'allineare i concetti potrebbero avere difficoltà a preservare la loro composizione e viceversa. Questo indica che i metodi precedenti potrebbero essere eccessivamente specifici o troppo generali.

In termini dei nostri contributi, abbiamo introdotto un benchmark per valutare l'apprendimento dei concetti basato sull'input di testo. La nostra nuova metrica di valutazione, chiamata Deviazione di Fiducia del Concetto, misura quanto bene i modelli mantengono i loro concetti e composizioni. In media, la nostra metrica si correla fortemente con le valutazioni umane, fornendo un nuovo standard per valutare gli apprendisti di concetti basati sul testo.

Fondamentali dell'Apprendimento dei Concetti

Definiamo un concetto come un gruppo di entità con proprietà condivise. Ad esempio, in un insieme di immagini che mostrano animali come cani e gatti, il concetto sarebbe "animale". Allo stesso modo, le immagini di diverse razze di cani mostrano il concetto di "cane". Il nostro dataset include 284 concetti unici suddivisi in tre classi: dominio, oggetti e attributi.

Un Apprendista di Concetti è un modello che può acquisire un concetto e riprodurlo collegandolo ad altri concetti. Un apprendente ideale dovrebbe essere in grado di replicare i concetti in modo accurato e mantenere una comprensione di come questi concetti si relazionano tra loro.

Per valutare un insieme di concetti, assumiamo che ci sia una connessione tra due concetti, che può essere rappresentata attraverso una frase che descrive come si relazionano. Ad esempio, "un uccello con due zampe". Supponiamo anche che le combinazioni di concetti debbano essere realistiche, quindi non valutiamo combinazioni irrealistiche.

Apprendimento dei Concetti nel Contesto Testo-immagine

Le ricerche precedenti hanno esaminato l'apprendimento dei concetti utilizzando modelli testo-immagine come Textual Inversion e DreamBooth. Questi modelli prendono un prompt scritto come input e creano un'immagine che rappresenta quel prompt. Un approccio comune utilizza un Modello di Diffusione Latente (LDM), che ha due parti principali:

  1. Un Codificatore Testuale che crea una rappresentazione del prompt scritto.
  2. Un Generatore che costruisce l'immagine passo dopo passo in base alla condizione testuale.

Poiché questi modelli considerano solo l'input testuale, dobbiamo rappresentare il concetto in termini di token scritti. Questi token possono quindi essere utilizzati per produrre immagini correlate al concetto. L'obiettivo dell'apprendimento dei concetti è riportare un concetto target nella rappresentazione basata su testo.

Una volta stabilita la connessione tra i token e il concetto target, possiamo generare immagini specifiche legate a quel concetto. I metodi precedenti si sono concentrati sul mettere a punto il modello per apprendere la mappatura, il che consente di generare immagini specifiche per concetti.

Per valutare queste immagini generate, dobbiamo controllare se si allineano con i concetti appresi mantenendo anche la loro composizione. Per questo, utilizziamo un dataset per addestrare un Oracle per identificare i concetti e misurare quanto bene corrispondano alle immagini generate.

Il nostro framework di valutazione cattura sia l'allineamento dei concetti che il ragionamento compositivo quantificando le variazioni nelle immagini generate. L'introduzione del dataset consente valutazioni più precise su quanto bene i modelli apprendono i concetti.

Panoramica del Dataset

Il nostro dataset consiste in vari concetti che aiutano a migliorare le valutazioni dell'apprendimento dei concetti. Include dataset ben noti come ImageNet, PACS, CUB e Visual Genome, combinandoli per creare un dataset etichettato che migliora l'accuratezza della valutazione.

Apprendimento degli Stili

Per apprendere diversi stili, utilizziamo il dataset PACS, che ha immagini provenienti da quattro domini: Art Painting, Cartoon, Photo e Sketch. Ogni stile ha immagini associate a sette entità, e l'obiettivo è generare immagini specifiche per lo stile per tutte le entità utilizzando riferimenti da uno stile.

Apprendimento degli Oggetti

Per sviluppare concetti a livello di oggetto, ci basiamo sul dataset ImageNet, che contiene 1.000 concetti a basso livello. Tuttavia, questo dataset ha spesso rumore e concetti irrilevanti, quindi applichiamo un processo di filtraggio automatico per garantire immagini di alta qualità. Questo processo prevede di estrarre frasi testuali rilevanti da Visual Genome per creare un solido riferimento per gli apprendisti di concetti.

Apprendimento degli Attributi

Poiché ImageNet non etichetta le immagini in base agli attributi, utilizziamo il dataset CUB, che fornisce etichette a livello di attributo. Questo ci aiuta a valutare l'accuratezza degli apprendisti di concetti riguardo ai diversi attributi presenti nelle immagini.

Ragionamento Compositivo

Mantenere la conoscenza pregressa e associare nuovi concetti alla conoscenza esistente è fondamentale per valutazioni complete. Utilizziamo Visual Genome per estrarre didascalie in cui il concetto è il soggetto principale. Queste didascalie aiutano a categorizzare le composizioni in azioni, attributi, conteggio e relazioni.

Framework di Valutazione: Deviazione di Fiducia del Concetto

Introduciamo la metrica Deviazione di Fiducia del Concetto (CCD) per misurare l'allineamento delle immagini generate con un concetto di riferimento. Un modello di diffusione condizionato al testo pre-addestrato genera immagini basate su concetti specifici. Le strategie di valutazione esistenti valutano due aree:

  1. Allineamento dei Concetti: Verificare quanto bene le immagini generate corrispondano alle immagini target reali.
  2. Ragionamento Compositivo: Valutare la relazione dell'immagine con il testo che l'ha provocata.

Tuttavia, questi metodi hanno limitazioni. Per affrontare queste lacune, alleniamo un classificatore oracle utilizzando il nostro dataset di addestramento. Esaminando le probabilità di output dell'oracolo in relazione alle immagini generate, possiamo calcolare quanto bene un'immagine generata corrisponda alle immagini target.

La metrica CCD riflette quanto le immagini generate siano vicine alle immagini di verità fondamentale. Valori che si avvicinano a zero indicano una corrispondenza ravvicinata, mentre valori positivi o negativi mostrano deviazione dall'output atteso.

Impostazioni di Valutazione Specifiche per Compito

Per ottimizzare il nostro processo di valutazione, abbiamo addestrato oracoli separati per ciascun compito. Vengono condotte due tipologie di valutazioni:

  1. Allineamento dei concetti, valutato utilizzando classificatori di concetti.
  2. Ragionamento compositivo, valutato utilizzando un modello di Question Answering Visivo.

Allineamento dei Concetti

Le valutazioni di allineamento dei concetti sono state effettuate su tutti i compiti, controllando le immagini generate rispetto a diversi prompt testuali compositi. Abbiamo addestrato vari classificatori, come ResNet18 per la differenziazione degli stili e ConvNeXt per il riconoscimento degli oggetti, garantendo una valutazione ben arrotondata delle immagini generate.

Ragionamento Compositivo

Valutiamo quanto bene le immagini generate si allineino con i loro prompt generando domande boolean. Questo ci consente di misurare la somiglianza immagine-testo in modo più efficace rispetto ai metodi precedenti, poiché considera le relazioni piuttosto che solo il diretto allineamento immagine-testo.

Risultati Sperimentali

Abbiamo studiato quattro strategie di apprendimento dei concetti basate su modelli testo-immagine: Textual Inversion (LDM), Textual Inversion (SD), DreamBooth e Custom Diffusion. Abbiamo generato immagini per tutti i concetti per valutare l'allineamento dei concetti e abbiamo utilizzato vari prompt testuali compositi.

Risultati della Valutazione dell'Allineamento dei Concetti

I risultati mostrano che le immagini originali forniscono punteggi di allineamento bassi, indicando che gli oracoli sono sicuri nelle loro previsioni. Custom Diffusion ha faticato, mentre Textual Inversion (SD) ha ottenuto i migliori risultati nell'apprendimento dei concetti a livello di oggetto.

Sorprendentemente, quando si utilizzano prompt compositi, le prestazioni di tutti i metodi sono diminuite significativamente. Questo suggerisce che le metodologie esistenti faticano a mantenere i concetti sotto complessità aggiuntiva.

Risultati della Valutazione del Ragionamento Compositivo

I risultati si sono invertiti nei compiti di composizione, con Custom Diffusion che ha superato gli altri. Questo evidenzia il compromesso tra l'apprendimento dei concetti e il mantenimento della composizione, poiché nessuna delle metriche tradizionali, come i punteggi CLIP, ha misurato questi aspetti in modo affidabile.

Valutazioni Umane

Abbiamo condotto valutazioni umane per convalidare la nostra nuova metrica. Le persone hanno valutato quanto bene le immagini generate dai nostri modelli si allineassero alle immagini di verità fondamentale e quanto accuratamente rappresentassero le didascalie corrispondenti. I risultati hanno mostrato una forte correlazione tra la nostra metrica e le preferenze umane, indicando la sua efficacia.

Lavoro Correlato

L'apprendimento dei concetti varia nel modo in cui affronta i problemi. Sono stati sviluppati diversi modelli per identificare attributi degli oggetti e associarli al linguaggio. Tuttavia, le valutazioni tradizionali spesso si basavano su piccoli dataset, rendendo difficile generalizzare i risultati.

I recenti progressi nei modelli testo-immagine hanno migliorato significativamente le prestazioni, ma la valutazione delle loro capacità di apprendimento dei concetti è ancora limitata. Sebbene esistano metriche come i punteggi FID e CLIP, non si sono concentrate su valutazioni specifiche per i concetti.

Il nostro lavoro mira a colmare questa lacuna introducendo un benchmark completo per l'apprendimento dei concetti. Questo include una metrica di valutazione dettagliata e un framework che consente migliori valutazioni, spingendo avanti la ricerca in questo campo.

Impatto Sociale

L'introduzione del nostro benchmark e del framework di valutazione per l'apprendimento dei concetti è importante per diversi motivi. Le valutazioni precedenti avevano uno scopo limitato, il che limitava la comprensione delle applicazioni pratiche di questi modelli.

Il nostro benchmark dimostra che, sebbene gli attuali apprendisti di concetti abbiano capacità impressionanti, c'è ancora un gap significativo che deve essere affrontato. Ci aspettiamo che la ricerca futura possa basarsi su questo ampio set di valutazione.

La nostra ricerca contribuisce direttamente all'obiettivo generale di avanzare l'intelligenza artificiale a livello umano. Migliorando i metodi per valutare l'apprendimento dei concetti, puntiamo a sviluppare sistemi più robusti che possano comprendere e generare immagini basate su ragionamenti simili a quelli umani.

Conclusione

In sintesi, abbiamo introdotto un nuovo benchmark per valutare i modelli testo-immagine nell'apprendimento dei concetti. Questo benchmark include un ampio dataset con una varietà di concetti, un framework di valutazione allineato con le preferenze umane e una metrica innovativa per valutare il successo dell'apprendimento.

Anche se addestrare numerosi modelli su molti concetti è dispendioso in risorse, i nostri metodi automatizzati consentono valutazioni scalabili. I nostri risultati aiutano a identificare punti di forza e di debolezza nei modelli attuali, portando a migliori approcci in futuro.

Affrontando queste sfide ed esplorando potenziali applicazioni, puntiamo a migliorare lo sviluppo dei metodi di apprendimento dei concetti. Il nostro lavoro rappresenta un passo significativo avanti nella creazione di sistemi intelligenti capaci di comprendere e generare concetti visivi simili a quelli umani.

Fonte originale

Titolo: ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models

Estratto: The ability to understand visual concepts and replicate and compose these concepts from images is a central goal for computer vision. Recent advances in text-to-image (T2I) models have lead to high definition and realistic image quality generation by learning from large databases of images and their descriptions. However, the evaluation of T2I models has focused on photorealism and limited qualitative measures of visual understanding. To quantify the ability of T2I models in learning and synthesizing novel visual concepts (a.k.a. personalized T2I), we introduce ConceptBed, a large-scale dataset that consists of 284 unique visual concepts, and 33K composite text prompts. Along with the dataset, we propose an evaluation metric, Concept Confidence Deviation (CCD), that uses the confidence of oracle concept classifiers to measure the alignment between concepts generated by T2I generators and concepts contained in target images. We evaluate visual concepts that are either objects, attributes, or styles, and also evaluate four dimensions of compositionality: counting, attributes, relations, and actions. Our human study shows that CCD is highly correlated with human understanding of concepts. Our results point to a trade-off between learning the concepts and preserving the compositionality which existing approaches struggle to overcome. The data, code, and interactive demo is available at: https://conceptbed.github.io/

Autori: Maitreya Patel, Tejas Gokhale, Chitta Baral, Yezhou Yang

Ultimo aggiornamento: 2024-02-22 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.04695

Fonte PDF: https://arxiv.org/pdf/2306.04695

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili