Avanzare nel Riconoscimento delle Immagini Grazie agli Insights Umani
Una nuova rete migliora il riconoscimento delle immagini usando i principi del sistema visivo umano.
Gianluca Carloni, Sara Colantonio
― 5 leggere min
Indice
Questo articolo parla di un nuovo approccio al riconoscimento delle immagini ispirato a come gli esseri umani vedono e capiscono il mondo. L'obiettivo è migliorare i sistemi di visione artificiale imparando dal sistema visivo umano. I principali obiettivi sono tre: spiegare come gli esseri umani elaborano le informazioni visive, presentare un nuovo tipo di Rete Neurale per classificare le immagini e mostrare un modulo che aiuta i computer a capire il contesto. Guardando a come funziona il nostro cervello, possiamo migliorare come le macchine riconoscono le immagini.
Il sistema visivo umano
Capire come funziona il sistema visivo umano è fondamentale. Tradizionalmente, si pensava che ci fossero due percorsi principali nel cervello responsabili dell'elaborazione di ciò che vediamo. Il primo percorso, chiamato flusso ventrale, si concentra sul riconoscere gli oggetti in base a caratteristiche come colore e forma. Parte dalla parte posteriore del cervello (la corteccia visiva primaria) fino a quella anteriore (la corteccia prefrontale), dove mettiamo in relazione ciò che vediamo con i nostri ricordi e azioni.
Il secondo percorso, noto come flusso dorsale, riguarda dove si trovano gli oggetti nello spazio e come interagiamo con essi. Questo percorso parte anch'esso dalla corteccia visiva primaria, ma va in una parte diversa del cervello (il lobo parietale). Mentre il flusso ventrale risponde alla domanda "Che cos'è?", il flusso dorsale affronta "Dove si trova?" o "Come lo usiamo?"
Entrambi i percorsi comunicano tra loro, il che significa che non lavorano in isolamento. Ad esempio, mentre il flusso ventrale ci dice che cos'è un oggetto, il flusso dorsale può aiutare a guidare le nostre azioni verso quell'oggetto. Ricerche recenti mostrano che entrambi i percorsi condividono informazioni, il che ci aiuta a capire meglio il mondo che ci circonda.
Contesto nella visione
Il contesto gioca un ruolo importante nel come riconosciamo gli oggetti. L'ambiente che circonda un oggetto può fornire indizi su cosa sia. Ad esempio, se vediamo qualcosa nel cielo, è più probabile che pensiamo sia un aereo piuttosto che un maiale. Considerando il contesto, i nostri cervelli possono ridurre le possibilità e fare giudizi migliori su ciò che vedono.
Anche i sistemi di visione artificiale hanno bisogno di capire il contesto per migliorare la loro capacità di riconoscere oggetti nelle immagini. Molte soluzioni esistenti cercano di incorporare il contesto, ma spesso aggiungono complessità e costi computazionali. Questo articolo propone un nuovo metodo che non aumenta il numero di parametri apprendibili, rendendolo più efficiente.
La rete proposta
La nuova rete, chiamata CoCoReco, è progettata per classificare le immagini imitandone il modo in cui funziona il cervello umano. Ha due rami ispirati ai percorsi ventrale e dorsale. La struttura di CoCoReco consente di elaborare informazioni da diverse parti del cervello contemporaneamente, piuttosto che seguire un unico percorso dall'inizio alla fine.
CoCoReco implementa anche una tecnica chiamata modulazione top-down. Questo significa che una comprensione di alto livello può influenzare l'elaborazione di basso livello. Ad esempio, le informazioni dalla corteccia prefrontale possono aiutare a perfezionare il modo in cui il sistema interpreta i dettagli dalle aree visive precedenti, proprio come i nostri processi di pensiero possono plasmare le nostre percezioni.
Blocchi di attenzione
Al cuore di CoCoReco c'è un modulo chiamato Contextual Attention Block (CAB). Questo blocco migliora la capacità della rete di considerare il contesto mentre classifica le immagini. Calcola punteggi di attenzione che aiutano a concentrarsi su caratteristiche significative nell'immagine. Posizionando più moduli CAB in punti strategici nella rete, CoCoReco può costruire una gerarchia di attenzione che riflette come gli esseri umani danno priorità alle informazioni.
Ad esempio, un CAB potrebbe concentrarsi su un contesto generale dall'input visivo iniziale, mentre un altro può fornire una comprensione più dettagliata in base a obiettivi o compiti. Questo approccio stratificato all'attenzione aiuta la rete a sviluppare una comprensione più sfumata delle immagini, rendendola capace di riconoscere oggetti in modo più accurato.
Configurazione sperimentale
Per testare quanto bene funziona la rete CoCoReco, sono stati condotti esperimenti utilizzando un dataset chiamato ImagenetteV2. Questo dataset contiene immagini di dieci diverse categorie relativamente facili da classificare. Le immagini sono state elaborate a una risoluzione specifica e il dataset è stato diviso in set di addestramento, validazione e test per valutare le prestazioni.
L'obiettivo principale per CoCoReco includeva due tipi di funzioni di perdita durante l'addestramento. Una riguardava l'accuratezza delle classificazioni, mentre l'altra si concentrava sull'allineamento delle caratteristiche di categorie simili. Questo approccio duale ha aiutato la rete a imparare rappresentazioni migliori degli oggetti.
Risultati
Quando si è testato CoCoReco contro altri modelli, ha costantemente ottenuto risultati migliori in termini di accuratezza ed efficacia. I risultati hanno dimostrato che il design unico di CoCoReco, in particolare il suo focus sul contesto e i percorsi duali, ha portato a risultati di riconoscimento delle immagini più affidabili.
Oltre all'accuratezza, è stata valutata anche la qualità delle spiegazioni fornite da CoCoReco. Utilizzando una tecnica chiamata class activation mapping, il modello è stato in grado di evidenziare le parti importanti delle immagini che hanno contribuito alle sue decisioni. Rispetto ad altri metodi, le spiegazioni fornite da CoCoReco erano più chiare e più concentrate sugli oggetti principali classificati, evitando distrazioni da caratteristiche di sfondo non rilevanti.
Ad esempio, quando identificava un cane, CoCoReco enfatizzava la testa del cane piuttosto che elementi non correlati come le persone sullo sfondo. Allo stesso modo, quando classificava un pesce, mirava alla texture del pesce, ignorando altre caratteristiche che potrebbero essere presenti nella scena.
Conclusione
Questo nuovo approccio al riconoscimento delle immagini mostra promesse nell'avanzamento della visione artificiale. Prendendo spunti dal sistema visivo umano e enfatizzando il contesto, la rete CoCoReco è in grado di eccellere nei compiti di classificazione delle immagini fornendo spiegazioni più chiare per le sue decisioni. L'abilità di integrare la comprensione contestuale senza complessità aggiuntiva potrebbe aprire la strada a soluzioni AI più efficienti in varie applicazioni.
In generale, il lavoro illustra i vantaggi di guardare al design del cervello umano per trarre ispirazione, portando a miglioramenti nelle capacità dell'intelligenza artificiale che possono migliorare come le macchine percepiscono il mondo intorno a loro.
Titolo: Connectivity-Inspired Network for Context-Aware Recognition
Estratto: The aim of this paper is threefold. We inform the AI practitioner about the human visual system with an extensive literature review; we propose a novel biologically motivated neural network for image classification; and, finally, we present a new plug-and-play module to model context awareness. We focus on the effect of incorporating circuit motifs found in biological brains to address visual recognition. Our convolutional architecture is inspired by the connectivity of human cortical and subcortical streams, and we implement bottom-up and top-down modulations that mimic the extensive afferent and efferent connections between visual and cognitive areas. Our Contextual Attention Block is simple and effective and can be integrated with any feed-forward neural network. It infers weights that multiply the feature maps according to their causal influence on the scene, modeling the co-occurrence of different objects in the image. We place our module at different bottlenecks to infuse a hierarchical context awareness into the model. We validated our proposals through image classification experiments on benchmark data and found a consistent improvement in performance and the robustness of the produced explanations via class activation. Our code is available at https://github.com/gianlucarloni/CoCoReco.
Autori: Gianluca Carloni, Sara Colantonio
Ultimo aggiornamento: 2024-09-06 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2409.04360
Fonte PDF: https://arxiv.org/pdf/2409.04360
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.