I modelli di linguaggio visivo fanno fatica con i compiti visivi di base
Le ricerche mostrano che i VLM hanno una scarsa precisione in compiti visivi semplici rispetto agli esseri umani.
― 5 leggere min
Indice
- Panoramica dei compiti
- Riepilogo dei risultati
- Compito 1: Contare le intersezioni delle linee
- Compito 2: Due cerchi
- Compito 3: La lettera cerchiata
- Compito 4: Contare forme sovrapposte
- Compito 5: Contare quadrati annidati
- Compito 6: Contare righe e colonne in una griglia
- Compito 7: Seguire percorsi monocolore
- Discussione
- Conclusione
- Fonte originale
- Link di riferimento
I modelli di linguaggio di grandi dimensioni che possono anche elaborare immagini stanno diventando sempre più popolari. Questi modelli possono gestire compiti che coinvolgono sia testo che immagini. Tuttavia, la nostra ricerca mostra che questi modelli hanno difficoltà con compiti visivi di base che gli esseri umani possono facilmente svolgere.
Abbiamo esaminato specificamente quattro modelli avanzati di linguaggio visivo (VLM) e testato la loro abilità su sette semplici compiti visivi. Questi compiti includevano identificare se le Forme si sovrappongono, Contare certe forme e identificare lettere cerchiate. Nonostante la loro capacità di funzionare bene in contesti complessi, i VLM hanno mostrato scarse prestazioni in questi compiti di base.
Panoramica dei compiti
Abbiamo creato un insieme di compiti per valutare quanto bene i VLM possono vedere e comprendere informazioni visive. I nostri compiti coinvolgevano forme semplici come cerchi e linee, che sono comuni nei test visivi umani. Volevamo vedere se i VLM potessero riconoscere queste forme quando erano vicine o sovrapposte.
I compiti includevano:
- Contare le intersezioni tra due linee.
- Stabilire se due cerchi si sovrappongono o si toccano.
- Identificare quale lettera è cerchiata in una parola.
- Contare forme sovrapposte, come cerchi o pentagoni.
- Contare quadrati annidati, dove un quadrato è contenuto dentro un altro.
- Contare righe e colonne in una griglia.
- Seguire percorsi monocolore in una mappa della metro.
Riepilogo dei risultati
In tutti i compiti, i VLM hanno raggiunto un'Accuratezza media del 58,57%. Questa prestazione è significativamente inferiore al livello di accuratezza atteso per gli esseri umani, che è vicino al 100%. Il modello con le migliori prestazioni ha raggiunto solo il 74,94% di accuratezza.
Compito 1: Contare le intersezioni delle linee
In questo compito, abbiamo testato se i VLM potessero contare quante volte due linee si incrociano. Abbiamo creato una varietà di immagini con due segmenti di linea e chiesto ai modelli di contare le loro intersezioni. I risultati hanno mostrato che i VLM avevano un'accuratezza media di solo 56,84%, che è lontana dal perfetto.
Compito 2: Due cerchi
Poi, abbiamo esaminato se i modelli potessero dirci se due cerchi si stavano sovrapponendo o toccando. Anche in questo caso, i VLM hanno avuto difficoltà, con la migliore accuratezza di solo 92,78%. Spesso indovinavano male, specialmente quando i cerchi erano molto vicini.
Compito 3: La lettera cerchiata
In questo compito, abbiamo testato se i VLM potessero identificare quale lettera fosse cerchiata in una parola. Anche se i modelli riuscivano a leggere le lettere con precisione quando erano presentate da sole, facevano fatica quando un cerchio copriva una lettera. L'accuratezza media era solo dell'81,39%. I modelli spesso indovinavano lettere che erano vicine a quella cerchiata.
Compito 4: Contare forme sovrapposte
I VLM sono stati anche testati nel contare forme sovrapposte come cerchi e pentagoni. L'accuratezza è diminuita notevolmente, con i modelli che raggiungevano solo il 30,99% nel contare pentagoni sovrapposti. Questo ha mostrato che riconoscere forme quando si sovrappongono è difficile per questi modelli.
Compito 5: Contare quadrati annidati
Quando è stato chiesto di contare quadrati che erano annidati l'uno dentro l'altro, i VLM hanno ottenuto prestazioni leggermente migliori ma avevano comunque un'accuratezza media del 73,29%. Questo compito ha evidenziato quanto fosse difficile per i modelli tenere traccia delle forme quando i loro bordi erano molto vicini, anche se non si sovrapponevano.
Compito 6: Contare righe e colonne in una griglia
Poi, abbiamo testato i VLM nel contare il numero di righe e colonne in una griglia. L'accuratezza media per il conteggio delle righe era del 60,83%, mentre era migliore per il conteggio delle colonne al 70,53%. Tuttavia, entrambe le cifre erano ancora al di sotto di quello che ci aspetteremmo da un umano, che potrebbe contare facilmente righe e colonne.
Compito 7: Seguire percorsi monocolore
L'ultimo compito riguardava il conteggio dei percorsi tra le stazioni su una mappa della metro. Questo compito valuta la capacità di riconoscere e seguire percorsi distinti. I VLM avevano un'accuratezza media di solo 42,06%, faticando significativamente man mano che il numero di percorsi aumentava.
Discussione
I nostri risultati dimostrano un chiaro divario tra come gli esseri umani percepiscono e elaborano compiti visivi semplici e le abilità degli attuali VLM. Questi modelli eccellono in compiti linguistici di alto livello e possono analizzare immagini complesse. Tuttavia, non riescono a identificare e contare accuratamente forme di base.
Questo indica che i VLM potrebbero non "vedere" realmente le immagini nello stesso modo in cui lo fanno gli esseri umani. Le loro prestazioni suggeriscono che spesso si affidano a un processo di estrazione delle caratteristiche visive prima di comprendere il prompt testuale, il che può portare a confusione quando le forme sono molto vicine o sovrapposte.
Per migliorare i VLM, potrebbe essere necessario sviluppare metodi che consentano una "fusione anticipata" delle informazioni visive e testuali, piuttosto che l'attuale metodo di "fusione tardiva". Addestrare i VLM specificamente su compiti visivi di basso livello potrebbe aiutare a migliorare le loro capacità visive complessive.
Conclusione
In sintesi, mentre i VLM mostrano un potenziale notevole nel gestire compiti complessi immagine-testo, la loro prestazione in compiti visivi di base è preoccupante. Hanno difficoltà con semplici compiti di identificazione e conteggio che qualsiasi umano, anche un bambino, potrebbe svolgere facilmente.
Le nostre scoperte sollevano domande significative su come i VLM elaborano le informazioni visive e sottolineano la necessità di ulteriori ricerche in questo campo. Migliorare le loro capacità visive potrebbe essere essenziale per avanzare le prestazioni di questi modelli in applicazioni del mondo reale.
Titolo: Vision language models are blind
Estratto: While large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro, are powering various image-text applications and scoring high on many vision-understanding benchmarks, we find that they are surprisingly still struggling with low-level vision tasks that are easy to humans. Specifically, on BlindTest, our suite of 7 very simple tasks such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting circles in an Olympic-like logo, four state-of-the-art VLMs are only 58.57% accurate on average. Claude 3.5 Sonnet performs the best at 74.94% accuracy, but this is still far from the human expected accuracy of 100%. Across different image resolutions and line widths, VLMs consistently struggle with tasks that require precise spatial information and recognizing geometric primitives that overlap or are close together. Code and data are available at: https://vlmsareblind.github.io
Autori: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
Ultimo aggiornamento: 2024-07-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.06581
Fonte PDF: https://arxiv.org/pdf/2407.06581
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://ctan.org/pkg/axessibility?lang=en
- https://www.springer.com/gp/computer-science/lncs
- https://vlmsareblind.github.io
- https://anonymous.4open.science/r/Benchmark-85F0
- https://github.com/anguyen8/vision-llms-are-blind
- https://platform.openai.com/
- https://aistudio.google.com
- https://claude.ai/
- https://x.com/xwang_lk/status/1797475354745197029
- https://platform.openai.com/docs/guides/vision
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/TouchingCircle/TwoTouchingCircles.ipynb
- https://docs.google.com/spreadsheets/d/1pIJFMrScC3EMjC4Vq1b60Rd5D_yIjoANtx1ii4kOgXQ/edit?gid=0#gid=0
- https://huggingface.co/BAAI/Bunny-v1_1-Llama-3-8B-V
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/CircledWord/GenerateSamples.ipynb
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/LineIntersection/2dline.ipynb
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/NestedSquares/GenerateSamples.ipynb
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/CountingCircles/OlympicCircles.ipynb
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/CountingCircles/OlympicPentagons.ipynb
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/CountingRowsAndColumns/Grids.ipynb
- https://github.com/anguyen8/vision-llms-are-blind/blob/main/src/SubwayMap/SubwayMap.ipynb