Avanzando la valutazione dei modelli di linguaggio visivo con il benchmark VisMin
Un nuovo benchmark per testare i modelli visivi-linguistici su cambiamenti minimi in immagini e didascalie.
― 7 leggere min
Indice
È importante che i modelli di linguaggio visivo (VLM) comprendano oggetti, le loro qualità e come si relazionano tra loro. Per verificare quanto bene questi modelli capiscano questi dettagli, la maggior parte dei test attuali guarda a come confrontano due didascalie molto simili per la stessa immagine. Questo documento sposta il focus su quanto bene questi modelli possano abbinare immagini a didascalie quando le immagini sono solo leggermente diverse.
Per affrontare questo, introduciamo un nuovo benchmark chiamato Comprensione Visiva del Minimo Cambiamento (VisMin). Questo benchmark sfida i modelli a prevedere il corretto abbinamento immagine-didascalia dato un paio di immagini e un paio di didascalie, dove è stato fatto solo un piccolo cambiamento alla volta. I tipi di cambiamenti potrebbero includere oggetti diversi, qualità degli oggetti (come colore o materiale), conteggi di oggetti, o come gli oggetti sono posizionati l'uno rispetto all'altro. L'obiettivo è testare a fondo quanto bene i modelli possano afferrare questi dettagli fini.
Per creare questo benchmark, abbiamo usato un sistema che coinvolge modelli di linguaggio di grandi dimensioni e modelli di diffusione per generare immagini e didascalie. Dopo di che, abbiamo convalidato i risultati attraverso un processo dettagliato in quattro fasi con revisori umani. I nostri esperimenti hanno mostrato che i VLM attuali faticano a comprendere le Relazioni Spaziali e a contare. Sfruttando il nostro metodo di creazione dei dati, abbiamo generato un ampio dataset per fare un fine-tuning dei modelli CLIP e Idefics2, portando a notevoli miglioramenti nella loro comprensione dei dettagli fini.
Panoramica del Benchmark
Il nostro benchmark consiste in quattro tipi di cambiamenti minimi: oggetto, attributo, conteggio e relazione spaziale. Il compito di valutazione richiede ai modelli di prevedere il corretto abbinamento immagine-didascalia usando le seguenti configurazioni: 1) due immagini con una didascalia, o 2) due didascalie con un'immagine.
Una comprensione fine degli oggetti e delle loro relazioni è fondamentale per i VLM per funzionare bene con nuove scene. I benchmark precedenti hanno evidenziato debolezze nei modelli, concentrandosi principalmente sulla comprensione delle differenze testuali tra le didascalie. Anche se creare esempi difficili e negativi è stato possibile per le didascalie, è più complicato farlo per le immagini.
I benchmark esistenti che usano hard-negatives visivi hanno due principali svantaggi: spesso differiscono su più livelli, il che rende difficile valutare i modelli con precisione, e di solito provengono da scene semplici che non offrono abbastanza complessità.
VisMin mira ad affrontare questi problemi usando immagini dal dataset COCO, composto da scene quotidiane ricche. Il benchmark misura quanto bene i VLM possono discernere cambiamenti minimi, assicurando che mentre un aspetto cambia alla volta, altri rimangano il più possibile costanti.
Creazione del Benchmark
Per costruire il nostro benchmark, abbiamo sviluppato un sistema per generare dati di cambiamento minimo, comprendente tre fasi principali:
Fase 1: Sintesi delle Coppie di Cambiamento Minimo
In questa fase, sintetizziamo coppie di immagini-didascalia a cambiamento minimo concentrandoci su quattro categorie principali: oggetti, Attributi, conteggio e relazioni spaziali. Partiamo da didascalie sorgente e usiamo un modello di linguaggio di grandi dimensioni (LLM) per generare istruzioni di modifica specifiche e le corrispondenti didascalie modificate. Per cambiare oggetti o attributi, utilizziamo didascalie scritte da umani provenienti da dataset esistenti per garantire modifiche realistiche.
Per il conteggio e le relazioni spaziali, le didascalie vengono generate usando un processo diverso, dove l'LLM crea didascalie insieme ai layout proposti degli oggetti.
Seguiamo con un modello di diffusione che modifica le immagini in base alle istruzioni generate. Questo comporta il controllo di come gli oggetti vengono modificati mentre si assicura che la scena rimanga realistica e coerente.
Fase 2: Filtraggio Automatico
Applichiamo un processo di filtraggio per controllare l'accuratezza delle modifiche. Questo comporta un sistema di Risposta a Domande Visive (VQA), che verifica che le immagini modificate riflettano accuratamente le didascalie modificate. Se le risposte alle domande generate non corrispondono, le immagini vengono escluse.
Questo filtraggio scopre che una grande parte delle immagini generate non soddisfa i criteri di qualità, il che evidenzia l'importanza di questo passaggio per garantire che solo esempi di alta qualità siano inclusi nel nostro dataset.
Fase 3: Verifica Umana
Dopo il filtraggio automatico, procediamo alla verifica umana, dove utilizziamo revisori per valutare i dati generati attraverso quattro passaggi:
- Naturalità e Abbinamento Immagine-Testo: I revisori determinano se le immagini sembrano reali e se le didascalie hanno senso e si allineano correttamente.
- Verifica della Modifica Visiva: Questo controlla che le modifiche apportate alle immagini corrispondano ai cambiamenti minimi previsti.
- Verifica delle Istruzioni di Modifica: Questo assicura che le istruzioni date per le modifiche siano minime e specifiche per un aspetto.
- Verifica della Modifica Testuale: Questo valida che le didascalie modificate riflettano accuratamente le modifiche apportate alle immagini.
Questo rigoroso processo aiuta a garantire che il benchmark VisMin sia di alta qualità e utile per valutare le prestazioni dei modelli.
Risultati del Benchmark
Abbiamo testato otto VLM open-source, compresi modelli noti come CLIP e Idefics2, insieme ad alcuni modelli closed-source. I nostri risultati mostrano che mentre questi modelli hanno performato meglio nella comprensione di oggetti e attributi, hanno faticato con il conteggio e le relazioni spaziali.
Più specificamente, mentre i MLLM (Modelli di Linguaggio Multimodali di Grandi Dimensioni) hanno mostrato un vantaggio nella comprensione delle relazioni spaziali, sia i MLLM che i modelli fondamentali hanno performato al di sotto della casualità. Questo sottolinea la necessità di un allenamento migliore sul conteggio e sul ragionamento spaziale nelle future valutazioni dei VLM.
Creazione del Dataset
La combinazione di filtraggio automatico e verifica umana ci ha permesso di creare un dataset robusto. Il nostro dataset di addestramento contiene oltre 64.000 campioni, mentre il benchmark consiste in circa 2.000 campioni. Questo assicura un approccio equilibrato nel testare i modelli su diverse categorie.
Risultati del Fine-Tuning
Facendo fine-tuning ai modelli CLIP e Idefics2 con il nostro dataset di cambiamento minimo, abbiamo osservato notevoli miglioramenti nelle loro prestazioni in compiti di comprensione fine. CLIP, in particolare, ha mostrato guadagni nella comprensione di oggetti, attributi e conteggio.
Abbiamo anche esteso le nostre valutazioni ad altri benchmark esistenti, dove i modelli fine-tunati hanno continuato a eccellere, indicando che i nostri dati sono utili non solo per compiti specifici ma aiutano anche a migliorare le capacità generali di un modello.
Scoperte Chiave
Ulteriori esplorazioni hanno rivelato alcuni importanti spunti:
- Scalabilità: Abbiamo scoperto che modelli più grandi performano meglio dopo essere stati addestrati con il nostro dataset di cambiamento minimo, evidenziando la complessità del compito e la necessità di una maggiore capacità del modello.
- Capacità Originali: L'addestramento con i nostri dati ha anche portato a miglioramenti nei compiti di recupero standard, significando che i modelli hanno avuto un migliore allineamento tra diversi tipi di compiti.
Conclusione
VisMin rappresenta un benchmark prezioso per valutare la comprensione visiva fine nei VLM. Anche se questi modelli generalmente eccellono nel riconoscere oggetti e attributi, affrontano sfide con il conteggio e le relazioni spaziali. Utilizzando il nostro dataset di cambiamento minimo per il fine-tuning, abbiamo significativamente migliorato le prestazioni di modelli come CLIP e Idefics2.
Tuttavia, rimangono sfide con il rumore presente nei dati di cambiamento minimo, che possono derivare da limitazioni nei modelli attuali. I futuri progressi in queste tecnologie potrebbero risolvere tali problemi, migliorando ulteriormente le risorse di addestramento per i VLM.
In conclusione, il benchmark VisMin rappresenta un passo essenziale per migliorare le capacità dei VLM nella comprensione di compiti visivi complessi e ci aspettiamo che futuri sviluppi in quest'area portino a ulteriori avanzamenti.
Titolo: VisMin: Visual Minimal-Change Understanding
Estratto: Fine-grained understanding of objects, attributes, and relationships between objects is crucial for visual-language models (VLMs). Existing benchmarks primarily focus on evaluating VLMs' capability to distinguish between two very similar \textit{captions} given an image. In this paper, we introduce a new, challenging benchmark termed \textbf{Vis}ual \textbf{Min}imal-Change Understanding (VisMin), which requires models to predict the correct image-caption match given two images and two captions. The image pair and caption pair contain minimal changes, i.e., only one aspect changes at a time from among the following: \textit{object}, \textit{attribute}, \textit{count}, and \textit{spatial relation}. These changes test the models' understanding of objects, attributes (such as color, material, shape), counts, and spatial relationships between objects. We built an automatic framework using large language models and diffusion models, followed by a rigorous 4-step verification process by human annotators. Empirical experiments reveal that current VLMs exhibit notable deficiencies in understanding spatial relationships and counting abilities. We also generate a large-scale training dataset to finetune CLIP and Idefics2, showing significant improvements in fine-grained understanding across benchmarks and in CLIP's general image-text alignment. We release all resources, including the benchmark, training data, and finetuned model checkpoints, at \url{https://vismin.net/}.
Autori: Rabiul Awal, Saba Ahmadi, Le Zhang, Aishwarya Agrawal
Ultimo aggiornamento: 2024-07-23 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.16772
Fonte PDF: https://arxiv.org/pdf/2407.16772
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.