Valutare l'AI nei compiti di ragionamento visivo
Uno studio su come l'IA impara le relazioni tra gli oggetti attraverso compiti di ragionamento visivo.
― 8 leggere min
Indice
Il Ragionamento Visivo è un obiettivo importante per l'intelligenza artificiale (IA). Riguarda la capacità di comprendere le immagini e le Relazioni tra gli oggetti in quelle immagini. Negli ultimi dieci anni, i ricercatori hanno cercato di insegnare ai sistemi IA a imparare come diversi oggetti si relazionano tra loro usando tecniche di deep learning. Ma, questi sforzi hanno avuto un successo limitato quando si tratta di applicare ciò che hanno imparato a situazioni nuove e diverse.
Più recentemente, è emerso un nuovo approccio chiamato apprendimento della rappresentazione centrata sugli oggetti. Questo metodo scompone le scene in singoli oggetti e le interazioni tra di loro. Utilizzando Meccanismi di Attenzione, questi modelli mirano a separare gli oggetti dai loro sfondi e l'uno dall'altro. In questo studio, abbiamo testato quanto bene diversi modelli centrati sugli oggetti apprendono le relazioni tra oggetti e come si comportano di fronte a nuove sfide visive.
Contesto
La capacità umana di vedere e interpretare informazioni visive è straordinaria. Possiamo facilmente identificare oggetti e le loro relazioni, anche in contesti sconosciuti. Questa abilità è nota come ragionamento relazionale ed è fondamentale per molti compiti cognitivi, dal riconoscimento degli oggetti alla comprensione delle metafore. Per questo motivo, i ricercatori sono interessati a come l'IA possa imitare questa capacità.
Recenti sviluppi nel deep learning hanno portato alla creazione di vari modelli progettati per gestire compiti di ragionamento visivo. I modelli centrati sugli oggetti, in particolare, si concentrano sull'isolamento di singoli oggetti in una scena e sull'apprendimento di come si relazionano l'uno con l'altro. Si pensa che questi modelli siano più adattabili ai cambiamenti nei dettagli visivi e migliori nel formare regole generali dalle informazioni sensoriali.
Sebbene esistano molti modelli di deep learning, i modelli centrati sugli oggetti spesso incorporano meccanismi di attenzione per enfatizzare oggetti singoli. Questi meccanismi raggruppano gli oggetti in base alle loro caratteristiche visive come colore e forma, promuovendo una comprensione più chiara della scena.
Ricerche precedenti hanno indicato che, quando gli oggetti sono chiaramente separati, i modelli possono generalizzare meglio a nuove situazioni. Ad esempio, alcuni modelli centrati sugli oggetti possono riconoscere gli oggetti anche se presentati in colori o texture diverse. Tuttavia, potrebbero avere difficoltà con cambiamenti più ampi, come un ritaglio significativo delle immagini. Questo studio mira a valutare quanto bene vari modelli centrati sugli oggetti possano riconoscere relazioni tra oggetti attraverso molteplici compiti di ragionamento visivo.
Compiti di Ragionamento Visivo
Ci siamo concentrati su un insieme di compiti ispirati a studi sulla cognizione animale. Questi compiti coinvolgono il confronto tra oggetti per determinare se siano uguali o diversi. Adattando compiti tradizionali usati negli studi sugli animali, il nostro obiettivo era valutare quanto bene l'IA potesse affrontarli:
Match-to-Sample (MTS): In questo compito, un oggetto di base viene presentato, e il modello deve identificare quale dei due oggetti candidati corrisponde ad esso.
Same-Different (SD): Qui, il modello deve determinare se i due oggetti presentati siano uguali o diversi.
Second-Order Same-Different (SOSD): In questo compito più complesso, vengono mostrati due paia di oggetti, e il modello deve decidere se rappresentano una sola relazione o due diverse.
Relational Match-to-Sample (RMTS): Questo compito richiede al modello di identificare quale delle due coppie di oggetti candidati corrisponde alla relazione mostrata in una coppia di base.
Ogni compito è stato progettato per valutare quanto bene i modelli potessero apprendere e generalizzare le relazioni tra oggetti, testando le loro abilità sia in situazioni familiari che nuove.
Metodologia
Per i nostri esperimenti, abbiamo confrontato le prestazioni di un modello standard di deep learning, ResNet-50, con sei modelli centrati sugli oggetti. Ogni modello è stato addestrato su un dataset originale, seguito da un test su un set di dataset fuori distribuzione progettati per presentare oggetti con caratteristiche visive diverse.
Ci siamo concentrati sui seguenti modelli centrati sugli oggetti:
Recurrent Vision Transformer (RViT): Questo modello utilizza un approccio ricorrente per elaborare le immagini, permettendogli di apprendere relazioni su più passaggi.
CLIP-pretrained Vision Transformer (CLIP-ViT): Questo modello è pre-addestrato su un grande dataset e mira a collegare immagini con le loro descrizioni testuali.
Slot Attention Models: Questi modelli separano le informazioni di sfondo e gli oggetti in primo piano creando "slot" per oggetti singoli.
Object-Centric Relational Abstraction (OCRAbs): Questo modello si basa sul framework di Slot Attention per calcolare le relazioni tra oggetti.
Object-Centric Recurrent Attention (OCRA): Questo modello combina meccanismi di attenzione con reti capsula per rappresentare oggetti.
Guided Attention Model for Reasoning (GAMR): Questo modello utilizza una banca dati per memorizzare informazioni sugli oggetti a cui è stata prestata attenzione, guidando l'attenzione verso caratteristiche rilevanti.
Ogni modello è stato addestrato a riconoscere e comprendere le relazioni tra oggetti nelle immagini, e poi le loro prestazioni sono state valutate in base alla loro capacità di generalizzare questa comprensione a nuovi compiti e dataset.
Risultati
Compito Match-to-Sample (MTS)
Nel compito MTS, il modello base ResNet-50 ha ottenuto un'accuratezza molto alta sul dataset originale, ma ha faticato con i dataset fuori distribuzione. D'altra parte, i modelli centrati sugli oggetti hanno avuto prestazioni migliori complessivamente quando testati con nuovi dataset. Ad esempio, OCRA, GAMR e OCRAbs sono stati particolarmente riusciti, mostrando miglioramenti significativi.
Questi modelli sono riusciti a concentrarsi sulle forme individuali presentate, il che li ha aiutati nel riconoscere le relazioni tra oggetti. Tuttavia, anche i migliori modelli centrati sugli oggetti hanno affrontato sfide con alcuni campioni fuori distribuzione, indicando che le rappresentazioni centrali sugli oggetti non erano una soluzione completa per i compiti di ragionamento visivo.
Compito Same-Different (SD)
Pattern simili sono stati osservati nel compito SD. Il modello ResNet-50 ha performato bene sul dataset originale ma ha fatto male con i nuovi campioni. I modelli centrati sugli oggetti, però, hanno generalmente ottenuto risultati migliori rispetto alla base. In particolare, modelli come GAMR e OCRA hanno mostrato forti capacità di Generalizzazione, anche se alcuni dataset fuori distribuzione hanno presentato sfide.
Ancora una volta, la capacità di questi modelli di ingrandire oggetti specifici invece di considerare l'intera tela ha aiutato nella classificazione corretta. Tuttavia, i risultati sono variati significativamente tra i diversi dataset, sottolineando che le impostazioni di compito influenzano pesantemente le loro prestazioni.
Compiti Second-Order Same-Different (SOSD) e Relational Match-to-Sample (RMTS)
Entrambi i compiti SOSD e RMTS si sono rivelati più difficili per i modelli. Il modello standard ResNet-50 è riuscito a ottenere buoni risultati sui dataset originali ma ha nuovamente faticato con la generalizzazione a nuovi dataset. I modelli centrati sugli oggetti hanno affrontato sfide simili, con alcuni incapaci di apprendere le relazioni in modo efficace.
In particolare, GAMR e OCRAbs si sono comportati meglio della base nell'identificare relazioni, ma non hanno raggiunto le prestazioni di compiti più facili come MTS o SD. Questo punto sottolinea i limiti dei modelli centrati sugli oggetti quando si tratta di gestire compiti di ragionamento più complessi.
Regime di Addestramento Ricco
In un esperimento finale, abbiamo testato se una strategia di addestramento più completa potesse aiutare a migliorare la generalizzazione nei compiti di ragionamento visivo. Questo metodo ha coinvolto l'addestramento dei modelli su un mix di dataset con caratteristiche visive diverse. Sebbene tutti i modelli abbiano mostrato buone prestazioni sui dataset familiari, le loro prestazioni sono diminuite significativamente quando applicati a nuovi compiti.
Nel complesso, questo esperimento ha confermato che anche un regime di addestramento più ricco non ha portato a migliori prestazioni fuori distribuzione per i compiti di ragionamento visivo.
Discussione Generale
I risultati dei nostri esperimenti forniscono spunti sulla capacità dell'IA di apprendere relazioni visive in modo efficace. Anche se i modelli centrati sugli oggetti mostrano promesse nell'isolamento degli oggetti e nell'apprendimento delle loro interazioni, faticano ancora a generalizzare questa conoscenza a nuovi e diversi contesti.
In generale, il ragionamento visivo umano si basa sulla comprensione delle relazioni tra oggetti piuttosto che semplicemente sull'identificazione basata su caratteristiche superficiali. Le nostre scoperte suggeriscono che gli attuali modelli centrati sugli oggetti si concentrano molto su queste caratteristiche, il che danneggia le loro capacità di ragionamento.
Sebbene questo studio dimostri progressi significativi, mette anche in evidenza la necessità di ulteriori avanzamenti nell'architettura dei modelli. I sistemi IA devono sviluppare meccanismi migliori per rappresentare le relazioni e comprendere il contesto delle scene che stanno elaborando.
Conclusione
La ricerca di sistemi IA che possano eseguire ragionamento visivo come gli esseri umani continua. Il nostro lavoro rivela che, sebbene i modelli centrati sugli oggetti possano identificare e segregare oggetti, spesso non riescono a generalizzare il loro apprendimento, specialmente quando si trovano di fronte a compiti relazionali complessi.
Per imitare le capacità di ragionamento simili a quelle umane, i futuri modelli IA probabilmente richiederanno approcci aggiornati che consentano una rappresentazione più flessibile sia degli oggetti che delle loro relazioni. Man mano che la ricerca continua in quest'area, sarà fondamentale esplorare diverse strategie che incorporino questa comprensione affrontando nel contempo le attuali limitazioni.
Titolo: Visual Reasoning in Object-Centric Deep Neural Networks: A Comparative Cognition Approach
Estratto: Achieving visual reasoning is a long-term goal of artificial intelligence. In the last decade, several studies have applied deep neural networks (DNNs) to the task of learning visual relations from images, with modest results in terms of generalization of the relations learned. However, in recent years, object-centric representation learning has been put forward as a way to achieve visual reasoning within the deep learning framework. Object-centric models attempt to model input scenes as compositions of objects and relations between them. To this end, these models use several kinds of attention mechanisms to segregate the individual objects in a scene from the background and from other objects. In this work we tested relation learning and generalization in several object-centric models, as well as a ResNet-50 baseline. In contrast to previous research, which has focused heavily in the same-different task in order to asses relational reasoning in DNNs, we use a set of tasks -- with varying degrees of difficulty -- derived from the comparative cognition literature. Our results show that object-centric models are able to segregate the different objects in a scene, even in many out-of-distribution cases. In our simpler tasks, this improves their capacity to learn and generalize visual relations in comparison to the ResNet-50 baseline. However, object-centric models still struggle in our more difficult tasks and conditions. We conclude that abstract visual reasoning remains an open challenge for DNNs, including object-centric models.
Autori: Guillermo Puebla, Jeffrey S. Bowers
Ultimo aggiornamento: 2024-02-19 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2402.12675
Fonte PDF: https://arxiv.org/pdf/2402.12675
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.