Migliorare il confronto delle immagini nei modelli di intelligenza artificiale
Un nuovo approccio migliora come l'AI confronta le immagini usando istruzioni visive.
― 9 leggere min
Indice
- L'importanza del confronto delle immagini
- Il nostro approccio
- Fase uno: Raccolta delle istruzioni
- Fase due: Rifinire le istruzioni
- Addestramento e valutazione
- Misurare il successo
- Lavori correlati
- Raccolta dei dati per le istruzioni visive
- Fase uno: Raccolta dei dati delle istruzioni
- Fase due: Migliorare i dati delle istruzioni
- Metriche di valutazione
- Risultati
- Miglioramento delle capacità di ragionamento
- Prestazioni sui dataset di benchmark
- Conclusione
- Fonte originale
- Link di riferimento
Confrontare due immagini è qualcosa che facciamo naturalmente ogni giorno. È un'abilità semplice che ci aiuta a descrivere le cose, trovare cambiamenti e fare scelte basate su ciò che vediamo. Questa capacità di confrontare informazioni visive è importante, ma sorprendentemente, non è stato fatto molto lavoro per migliorare questa abilità nelle macchine che mirano a imitare la visione umana, specialmente nei modelli avanzati che gestiscono sia parole che immagini.
In questo articolo, ci concentriamo su un nuovo modo di raccogliere e utilizzare Istruzioni Visive per addestrare modelli progettati per comprendere meglio le immagini. Il nostro approccio prevede due passaggi principali per raccogliere e perfezionare queste istruzioni, portando infine a prestazioni migliori nei compiti che richiedono di confrontare immagini.
L'importanza del confronto delle immagini
La capacità di individuare differenze e somiglianze tra le immagini è cruciale in molte situazioni quotidiane. Ci avverte di eventi interessanti, ci mette in guardia su potenziali pericoli e ci aiuta a imparare nuove idee. Riconoscere cosa è uguale nelle immagini ci aiuta a organizzare le informazioni visive così da vedere più facilmente cosa è diverso. Questa combinazione di confronto e categorizzazione ci aiuta a capire il mondo che ci circonda.
Nel campo dell'intelligenza artificiale, i recenti progressi con i modelli linguistici che funzionano bene con input visivi hanno cambiato il panorama. Questi modelli possono ora imitare da vicino come gli esseri umani pensano e comprendono il mondo, portando alla loro rapida adozione in varie applicazioni di machine learning.
Nonostante i progressi, molti sistemi attuali faticano ancora con i confronti delle immagini. La maggior parte si concentra sul riconoscimento base delle immagini invece di sviluppare una comprensione più profonda di come le immagini si relazionano tra loro. Anche se ci sono stati tentativi di migliorare queste capacità, spesso mancano di fornire istruzioni visive complete che un modello possa seguire.
Il nostro approccio
Per affrontare il gap nella formazione delle istruzioni visive, abbiamo sviluppato un sistema in due fasi per raccogliere e perfezionare le istruzioni visive. Questo sistema mira a migliorare le abilità dei modelli di linguaggio e visione per comprendere meglio le relazioni tra le immagini.
Fase uno: Raccolta delle istruzioni
Nella prima fase, raccogliamo istruzioni visive utilizzando le didascalie delle immagini. Utilizziamo un modello linguistico per generare sommari dettagliati basati su coppie di immagini. Questo processo ci consente di creare sommari strutturati che catturano sia le somiglianze che le differenze tra le immagini.
Iniziamo utilizzando un dataset con una vasta collezione di coppie di immagini e didascalie. Da questo dataset, creiamo numerose coppie di immagini che condividono elementi comuni e invitiamo il modello linguistico a riassumere i punti chiave di ogni coppia. Il modello genera intuizioni che includono le comuni (cosa è uguale) e le differenze (cosa non è uguale) tra le immagini.
Questa prima fase funge da "cold start", dove ci affidiamo a didascalie create manualmente per guidare il modello. Unendo questi sommari in un dataset, addestriamo il nostro modello iniziale a capire meglio le relazioni tra le immagini.
Fase due: Rifinire le istruzioni
Nella seconda fase, prendiamo ciò che abbiamo imparato dalla prima fase e lo applichiamo a nuove immagini. Utilizzando il modello addestrato, ora possiamo generare sommari ancora più sofisticati fornendo coppie di immagini aggiuntive. Questo consente al modello di produrre istruzioni dettagliate basate direttamente sul contenuto visivo piuttosto che fare affidamento solo sul testo.
In questa fase, raccogliamo anche coppie di immagini aggiuntive da varie fonti per creare un dataset completo. L'obiettivo è perfezionare la formazione delle istruzioni visive, permettendo ai nostri modelli di adattarsi e migliorare la loro comprensione dei confronti visivi.
Addestramento e valutazione
Durante il nostro lavoro, ci concentriamo sul migliorare le capacità di ragionamento dei nostri modelli. Combinando i dati di entrambe le fasi, costruiamo un curriculum di addestramento ricco che copre un'ampia gamma di confronti di immagini.
Per valutare i nostri modelli, creiamo benchmark che testano la loro capacità di rispondere a Domande aperte riguardanti le somiglianze e le differenze tra le immagini. In questo modo, possiamo valutare quanto bene il modello ha imparato a comprendere e confrontare i dati visivi.
Misurare il successo
Il successo nei compiti di confronto visivo può essere valutato in diversi modi. Misuriamo l'accuratezza dei nostri modelli quando sono incaricati di identificare la relazione corretta tra coppie di immagini. Questo viene fatto utilizzando vari dataset che sfidano la capacità del modello di trovare somiglianze e differenze in modo efficace.
I modelli vengono testati su domande a risposta chiusa dove devono decidere quale immagine corrisponde a una descrizione. Inoltre, valutiamo le loro prestazioni su domande aperte dove devono fornire risposte dettagliate sul contenuto delle coppie di immagini.
Lavori correlati
Il panorama della formazione delle istruzioni visive ha visto sviluppi notevoli nel tempo. Molti modelli mirano a integrare in modo più efficace i dati visivi e testuali. Questi modelli utilizzano varie tecniche per migliorare la loro comprensione delle relazioni tra immagini e input testuali.
Ad esempio, alcuni modelli iniziali si concentravano esclusivamente su scenari di immagini singole. Tuttavia, nuovi approcci hanno iniziato a includere più immagini, riflettendo la complessità dei dati visivi del mondo reale. Questo cambiamento mette in evidenza l'importanza di adattare i modelli per gestire una gamma più ampia di input, migliorando la loro comprensione di scene complesse.
Nonostante i progressi, esiste ancora un gap significativo quando si tratta di addestrare modelli che comprendano efficacemente sia le somiglianze che le differenze. Pochi dataset si concentrano specificamente su quest'area, il che limita i progressi. Il nostro approccio affronta questo gap in modo diretto fornendo un framework robusto per generare e utilizzare istruzioni visive.
Raccolta dei dati per le istruzioni visive
Fase uno: Raccolta dei dati delle istruzioni
Durante la prima fase del nostro processo, ci concentriamo sulla raccolta dei dati necessari per la formazione delle istruzioni visive. Iniziamo con un ampio dataset di coppie di immagini e didascalie, che ci permette di coprire una vasta gamma di contenuti visivi.
Per ogni coppia di immagini, analizziamo le didascalie per determinare le loro somiglianze. Identificando sostantivi sovrapposti e aspetti delle immagini, possiamo formare coppie che condividono somiglianze pur essendo abbastanza distinte da evidenziare le differenze.
Questo processo porta a una raccolta sostanziale di immagini abbinate con sommari che catturano le loro relazioni. Questi sommari servono da base per addestrare i nostri modelli nelle fasi successive.
Fase due: Migliorare i dati delle istruzioni
Nella seconda fase, utilizziamo il nostro modello addestrato per elaborare ulteriori coppie di immagini e generare istruzioni più complesse. Questo ci consente di perfezionare il nostro approccio ai sommari sfruttando le intuizioni provenienti dalla prima fase.
I dati raccolti migliorano la nostra capacità di creare istruzioni visive efficaci. Questo passaggio è cruciale poiché consente al modello di apprendere da un insieme diversificato di scenari visivi invece di fare affidamento solo sulle didascalie iniziali. Questa raffinazione iterativa migliora la comprensione del modello sui confronti delle immagini.
Metriche di valutazione
Per garantire la qualità dei nostri modelli, implementiamo un rigoroso processo di valutazione. I nostri benchmark consistono in domande sia a risposta chiusa che aperta che testano le capacità dei modelli di analizzare e confrontare immagini.
Queste valutazioni si concentrano su varie dimensioni della comprensione visiva, tra cui:
Selezione binaria delle immagini: Il modello deve scegliere l'immagine corretta in base a una descrizione data, testando la sua capacità di relazionare il contenuto testuale con le informazioni visive.
Ragionamento visivo: Il modello viene valutato sulla sua capacità di valutare se una dichiarazione descrive accuratamente la relazione tra due immagini, mettendo in mostra le sue capacità di ragionamento.
Domande aperte: Valutiamo anche quanto bene il modello può generare risposte descrittive sulle somiglianze e le differenze tra le immagini.
Risultati
I nostri risultati evidenziano miglioramenti significativi nelle capacità dei modelli di comprendere e confrontare i dati visivi. Implementando il nostro approccio in due fasi, abbiamo ottenuto notevoli progressi nei compiti legati al confronto delle immagini.
Miglioramento delle capacità di ragionamento
Abbiamo osservato che i nostri modelli finali, che hanno combinato i dati di entrambe le fasi, hanno superato significativamente i sistemi di stato dell'arte precedenti. Il processo di addestramento ha portato a una maggiore accuratezza nei compiti che richiedono l'identificazione di somiglianze e differenze tra immagini.
I modelli hanno dimostrato punti di forza sia nelle domande a risposta chiusa - dove sono richieste risposte specifiche - sia nei formati aperti che richiedono spiegazioni dettagliate. Questa versatilità indica una robusta comprensione delle relazioni visive.
Prestazioni sui dataset di benchmark
Valutando i nostri modelli rispetto ai benchmark stabiliti, abbiamo scoperto che eccellevano nei compiti fondamentali. I modelli hanno performato eccezionalmente bene nei compiti di selezione binaria, identificando correttamente le immagini in base a descrizioni testuali. Questo successo sottolinea la loro capacità di allineare in modo efficace le informazioni testuali e visive.
Inoltre, i modelli hanno mostrato buone prestazioni nei compiti di ragionamento visivo, discernendo accuratamente se una dichiarazione era vera per una data coppia di immagini. Questa capacità indica un livello più elevato di comprensione quando si tratta di capire le relazioni tra le immagini.
Conclusione
In sintesi, il nostro lavoro contribuisce significativamente alla formazione di modelli che possono confrontare e analizzare efficacemente le informazioni visive. Attraverso un approccio strutturato e iterativo, abbiamo sviluppato un sistema in due fasi che migliora notevolmente il modo in cui le macchine comprendono le immagini.
Concentrandoci sulla raccolta e il perfezionamento delle istruzioni visive, abbiamo affrontato un gap nella tecnologia attuale che è stato a lungo trascurato. I risultati dimostrano miglioramenti sostanziali nelle prestazioni del modello, aprendo la strada a applicazioni più avanzate in vari campi.
Le implicazioni delle nostre scoperte si estendono in diverse aree, dal miglioramento della visione artificiale al miglioramento delle esperienze utente nelle applicazioni che si basano su analisi visive. I lavori futuri si concentreranno sull'espansione di queste capacità ed esplorando nuove direzioni per la formazione delle istruzioni visive.
Man mano che continuiamo a sviluppare e perfezionare questi modelli, rimaniamo impegnati ad avanzare nel campo dell'intelligenza artificiale e migliorare il modo in cui le macchine interagiscono con il mondo visivo.
Titolo: Comparison Visual Instruction Tuning
Estratto: Comparing two images in terms of Commonalities and Differences (CaD) is a fundamental human capability that forms the basis of advanced visual reasoning and interpretation. It is essential for the generation of detailed and contextually relevant descriptions, performing comparative analysis, novelty detection, and making informed decisions based on visual data. However, surprisingly, little attention has been given to these fundamental concepts in the best current mimic of human visual intelligence - Large Multimodal Models (LMMs). We develop and contribute a new two-phase approach CaD-VI for collecting synthetic visual instructions, together with an instruction-following dataset CaD-Inst containing 349K image pairs with CaD instructions collected using CaD-VI. Our approach significantly improves the CaD spotting capabilities in LMMs, advancing the SOTA on a diverse set of related tasks by up to 17.5%. It is also complementary to existing difference-only instruction datasets, allowing automatic targeted refinement of those resources increasing their effectiveness for CaD tuning by up to 10%. Additionally, we propose an evaluation benchmark with 7.5K open-ended QAs to assess the CaD understanding abilities of LMMs.
Autori: Wei Lin, Muhammad Jehanzeb Mirza, Sivan Doveh, Rogerio Feris, Raja Giryes, Sepp Hochreiter, Leonid Karlinsky
Ultimo aggiornamento: 2024-06-13 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.09240
Fonte PDF: https://arxiv.org/pdf/2406.09240
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://wlin-at.github.io/cad_vi
- https://huggingface.co/datasets/wlin21at/CaD-Inst
- https://huggingface.co/api/datasets/wlin21at/CaD-Inst/croissant
- https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/mit.md
- https://paperswithcode.com/datasets/license
- https://github.com/wlin-at/CaD-VI
- https://storage.googleapis.com/openimages/web/download_v6.html
- https://cocodataset.org/#download
- https://shannon.cs.illinois.edu/DenotationGraph/
- https://groups.csail.mit.edu/vision/datasets/ADE20K/index.html#Download
- https://homes.cs.washington.edu/~ranjay/visualgenome/api.html
- https://google.github.io/localized-narratives/
- https://huggingface.co/datasets/pufanyi/MIMICIT
- https://huggingface.co/datasets/BAAI/SVIT
- https://openai.com/policies/terms-of-use
- https://github.com/haotian-liu/LLaVA
- https://openai.com/policies/eu-terms-of-use/
- https://ai.meta.com/llama/license/
- https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
- https://mistral.ai/terms/
- https://entuedu-my.sharepoint.com/:u:/g/personal/tan317_e_ntu_edu_sg/ETkpKSsmun1MpBw7FqfUUS8BwTX2gKkTQkDFsfOGCw-9yA?e=KGtpg0
- https://github.com/HYPJUDY/Sparkles
- https://huggingface.co/luodian/OTTER-Image-LLaMA7B-LA-InContext
- https://huggingface.co/BleachNick/MMICL-Instructblip-T5-xxl
- https://huggingface.co/BAAI/Emu2-Chat
- https://huggingface.co/internlm/internlm-xcomposer2-vl-7b
- https://huggingface.co/liuhaotian/llava-v1.5-7b-lora
- https://huggingface.co/liuhaotian/llava-v1.5-13b-lora
- https://huggingface.co/liuhaotian/llava-v1.6-vicuna-7b
- https://huggingface.co/liuhaotian/llava-v1.6-vicuna-13b
- https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
- https://ctan.org/pkg/pifont