Reti Neurali Profonde e Sfide nel Riconoscimento delle Forme
La ricerca svela perché le DNN faticano a elaborare le forme rispetto agli esseri umani.
― 9 leggere min
Indice
Recenti progressi nel deep learning hanno aperto nuove porte per studiare come funziona il cervello. Le reti neurali profonde (DNN) sono diventate impressionantemente brave in compiti come il riconoscimento delle immagini e la generazione di linguaggio. In alcuni casi, queste reti possono persino fare queste cose meglio degli umani. Per i ricercatori in neuroscienza, avere modelli che possono imitare comportamenti complessi è uno strumento importante per capire i processi cerebrali.
Le reti neurali profonde sono state inizialmente ispirate dalle reti biologiche nel cervello. Come il cervello, queste reti sono composte da unità semplici che si connettono in modi complicati. Questa struttura consente alle DNN di rappresentare idee a vari livelli, dalle funzioni specifiche delle singole unità a concetti più ampi su come l'apprendimento modella l'attività cerebrale. Questo approccio è stato particolarmente efficace per capire come elaboriamo le informazioni visive. Le DNN possono prevedere con precisione come il nostro cervello interpreta le immagini e persino creare immagini false per testare come rispondono neuroni specifici.
Tuttavia, usare queste reti come modelli per il cervello ha i suoi problemi. I critici sottolineano che solo perché una DNN funziona bene in un compito non significa che usa le stesse strategie degli umani. Anche se le reti potrebbero etichettare le immagini in modo simile a come farebbe una persona, i metodi che usano per arrivare a quelle conclusioni possono differire notevolmente. Sebbene le DNN condividano alcune caratteristiche con la corteccia visiva umana, mancano di elementi cruciali che contribuiscono a come vediamo e interpretiamo le immagini. Le prove mostrano che le DNN elaborano le immagini in modo diverso dagli umani; ad esempio, possono essere ingannate da immagini manipolate, sono meno resistenti ai cambiamenti delle immagini e non mostrano i principi organizzativi fondamentali per la percezione umana.
Una grande differenza è che gli umani si basano molto sulla forma di un oggetto per identificarlo, mentre le reti neurali tendono a concentrarsi sulla Texture e su altri aspetti superficiali. Questa differenza evidenzia come le DNN facciano fatica a riconoscere la forma complessiva degli oggetti come fanno gli umani.
I ricercatori hanno proposto una nuova strategia chiamata "neuroconnectionismo", che considera queste differenze non come difetti, ma come opportunità per ulteriori ricerche. Esaminando perché le DNN elaborano le Forme in modo diverso dagli umani, gli scienziati sperano di scoprire i componenti e i meccanismi necessari per una comprensione della forma simile a quella umana.
Indagare l'elaborazione delle forme nelle reti neurali
Evidenze che puntano alle limitazioni delle DNN nell'elaborazione delle forme sono emerse da diversi studi. Anche se queste reti possono utilizzare alcune informazioni sulle forme - per esempio, identificando contorni di base - fanno fatica con le forme globali quando le immagini sono distorte. Quando la forma è altrettanto informativa di un'altra caratteristica, come il colore, le reti tendono spesso a privilegiare l'altra caratteristica. Questo porta a una tendenza per le reti addestrate su immagini reali a favorire la texture, come documentato in vari studi.
Questa preferenza per la texture rispetto alla forma è notevole e ha catturato l'attenzione degli esperti di machine learning. Per contrastare questo bias, sono state proposte diverse strategie, come l'addestramento su immagini stilizzate o il miglioramento dei dati in modi particolari. Tuttavia, semplicemente aumentare la sensibilità alla forma potrebbe non portare a una vera elaborazione della forma, visto che è solo una delle tante metriche.
Nonostante le ampie ricerche sul perché le DNN mostrino un bias verso la forma, non c'è ancora una spiegazione chiara. Sono emerse due principali ipotesi:
Apprendimento abbreviato: Questa idea suggerisce che le DNN semplifichino il compito concentrandosi sulle caratteristiche più facili da apprendere. Se altre caratteristiche non offrono ulteriore potere predittivo, potrebbero essere ignorate.
Deficienze architettoniche: Questa ipotesi postula che le DNN attuali manchino di alcuni componenti che consentono un'elaborazione efficace delle forme. Alcune strutture trovate nei sistemi biologici, come le connessioni di feedback, potrebbero essere necessarie.
Ognuna di queste ipotesi solleva ulteriori domande. Con l'apprendimento abbreviato, la domanda fondamentale cambia da perché le reti favoriscano la texture invece della forma a perché riconoscere le texture sia più semplice per le DNN. Nel frattempo, se ci sono deficienze architettoniche, cosa manca esattamente a queste reti che ostacola l'elaborazione delle forme?
Queste domande presentano sfide poiché forma e texture non sono definite in modo preciso, specialmente nelle immagini naturali. Anche se riconosciamo intuitivamente le forme, ci mancano definizioni formali che ci permettano di testare se una rete può davvero elaborare una forma specifica.
Un approccio per affrontare questa questione è utilizzare immagini artificiali con forme e texture generate in modo controllato. Ad esempio, i ricercatori hanno creato immagini in cui macchie colorate formano forme semplici e hanno esaminato quanto bene gli umani e le DNN possono distinguere categorie basate su diverse caratteristiche come forma, colore o texture. In generale, questo tipo di studio si concentra sull'intendere perché le reti neurali facciano fatica a riconoscere le forme.
In una serie di esperimenti, sono stati progettati set di dati di immagini artificiali in cui caratteristiche semplici come forma, colore o texture indicavano la categoria di un oggetto. L'obiettivo era determinare i modelli di bias in varie reti neurali. Addestrando le reti su diverse combinazioni di caratteristiche, i ricercatori hanno scoperto che la maggior parte delle reti mostrava gli stessi bias verso colore e texture come osservato in precedenti immagini naturali.
Sperimentazione con reti neurali
Esperimento 1: Confermare il bias nelle reti neurali
Nel primo esperimento, sono stati creati quattro set di dati di immagini artificiali in cui ogni immagine presentava un singolo oggetto su uno sfondo grigio. L'obiettivo era valutare se le reti addestrate su questi dataset mostrassero la stessa preferenza per colore o texture rispetto alla forma. Ad esempio, un set di dati presentava rettangoli colorati, dove l'appartenenza alla classe si basava sulla forma (orizzontale o verticale) e sul colore (rosso, blu, verde o magenta).
I ricercatori hanno addestrato diverse architetture di reti neurali su ciascun set di dati e valutato le loro prestazioni su diversi set di test. Hanno esaminato se le reti classificavano correttamente quando era visibile solo una caratteristica e se mostravano un bias verso una caratteristica quando entrambe erano disponibili.
I risultati hanno indicato che quasi tutte le reti standard mostravano una chiara preferenza per colore o texture. Mentre le reti raggiungevano un'alta precisione nell'addestrarsi su set di dati di colore e texture, performavano male quando testate solo con dati sulla forma. La maggior parte delle reti mostrava livelli di prestazione vicini alla casualità, indicando che avevano imparato a fare affidamento su colore o texture invece che sulla forma.
L'eccezione era una specifica Architettura di rete, spcConvNet, che performava meglio di fronte a dati sulla forma rispetto a colore o texture. Questo suggeriva che anche in un dataset controllato, le reti mostravano bias simili a quelli visti nelle immagini naturali.
Esperimento 2: Classificazione delle forme
Il secondo esperimento si concentrava su se queste reti potessero classificare le immagini solo per forma quando non erano presenti altre caratteristiche. I ricercatori hanno addestrato le stesse reti su versioni solo di forma dei dataset. Questo ha permesso di testare direttamente tra le due ipotesi: se le reti potessero colmare le loro capacità di classificazione della forma o se la loro architettura mancasse fondamentalmente della capacità di elaborare forme in modo efficace.
I risultati hanno rivelato che la capacità delle reti di imparare la classificazione basata sulla forma era strettamente legata alla loro architettura. Le reti convoluzionali hanno performato bene nel differenziare le forme, raggiungendo quasi il 100% di accuratezza sui dataset solo di forme. Tuttavia, reti più semplici come i percettroni multilayer e i transformer visivi hanno faticato notevolmente con il riconoscimento delle forme, indicando potenziali deficienze architettoniche in quei design.
Indagare le dinamiche dell'apprendimento
Per capire come si sviluppano questi bias durante il processo di apprendimento, i ricercatori hanno guardato alle Dinamiche di Apprendimento di una rete convoluzionale attraverso la lente del kernel tangente neurale (NTK). L'NTK descrive come le reti apprendono e aggiustano i loro parametri in base ai dati di input.
Durante l'addestramento, la traiettoria dell'apprendimento ha mostrato che le DNN erano più allineate con reti specializzate in colore o texture piuttosto che con quelle progettate per elaborare forme. Questa scoperta ha indicato un bias nel modo in cui gli aggiornamenti dei pesi erano applicati durante l'apprendimento, suggerendo che il processo di discesa del gradiente spingesse le reti a concentrarsi su caratteristiche locali trascurando le caratteristiche di forma più ampie.
Questo ha portato a un'analisi di clustering, in cui i ricercatori hanno cercato di capire come l'NTK si relazionasse con le classi di immagini. Le loro osservazioni hanno rivelato che le reti basate su colore e texture mostravano cluster di immagini che si allineavano bene con le classi, mentre le reti basate su forma non sperimentavano la stessa misura di allineamento.
Esperimento 4: Competizione spaziale
L'ultimo esperimento ha coinvolto l'architettura spcConvNet, che aveva precedentemente mostrato una certa sensibilità alla forma. I ricercatori hanno ripetuto l'analisi NTK per vedere cosa rendeva questa rete diversa. Hanno trovato che il meccanismo di competizione spaziale all'interno di spcConvNet risultava in gradienti più rari rispetto alle altre reti convoluzionali. Questa rarità ha ridotto la probabilità di formare cluster di gradienti di immagini simili, che è stato un fattore significativo nel determinare le dinamiche di apprendimento della rete.
Questo significa che la struttura unica di spcConvNet le ha permesso di impegnarsi nella classificazione basata sulla forma in modo diverso rispetto ai suoi omologhi, supportando ulteriormente l'idea che le dinamiche di apprendimento siano critiche nel modellare come le DNN elaborano caratteristiche specifiche.
Conclusione
I risultati di questi esperimenti fanno luce sul perché le reti neurali profonde tendano a favorire caratteristiche superficiali come colore e texture rispetto alle caratteristiche di forma. Anche se alcune architetture, come i transformer visivi, sembrano essere strutturalmente incapaci di apprendere efficacemente la forma, le reti convoluzionali possono imparare la classificazione basata sulla forma - ma spesso non lo fanno a causa dei bias nelle dinamiche di apprendimento.
Le intuizioni ottenute qui suggeriscono che, anche se gli elementi architettonici giocano un ruolo, gli algoritmi e i metodi di apprendimento sono cruciali per capire come funzionano queste reti. I prossimi passi per la ricerca potrebbero coinvolgere l'esplorazione di miglioramenti negli algoritmi di apprendimento o l'introduzione di componenti ispirati biologicamente nei modelli, il che potrebbe aiutare a colmare il divario tra il machine learning e l'elaborazione visiva umana.
Concentrandosi su queste aree chiave, i ricercatori sperano di capire meglio e migliorare i modelli di deep learning, rendendoli più allineati a come i nostri cervelli interpretano e processano le informazioni.
Titolo: Teaching deep networks to see shape: Lessons from a simplified visual world.
Estratto: Deep neural networks have been remarkably successful as models of the primate visual system. One crucial problem is that they fail to account for the strong shape-dependence of primate vision. Whereas humans base their judgements of category membership to a large extent on shape, deep networks rely much more strongly on other features such as color and texture. While this problem has been widely documented, the underlying reasons remain unclear. We design simple, artificial image datasets in which shape, color, and texture features can be used to predict the image class. By training networks to classify images with single features and feature combinations, we show that some network architectures are unable to learn to use shape features, whereas others are able to use shape in principle but are biased towards the other features. We show that the bias can be explained by the interactions between the weight updates for many images in mini-batch gradient descent. This suggests that different learning algorithms with sparser, more local weight changes are required to make networks more sensitive to shape and improve their capability to describe human vision. Author summaryWhen humans recognize objects, the cue they rely on most is shape. In contrast, deep neural networks mostly use local features like color and texture to classify images. We investigated how this difference arises, using images of simple shapes like rectangles and the letters L and T, combined with color and texture features. By testing different feature combinations, we show that some networks are generally unable to learn about shape, whereas others could learn to recognize shapes in isolation, but ignored shape if another feature was present. We show that this bias for color and texture arises from the way in which networks are trained: by averaging the learning signal over many images, the training algorithm favors simple features that are relatively similar in many images and removes sparser, more varied shape features. These insights can help build networks that are more sensitive to shape and work better as models of human vision.
Autori: Christian Jarvers, H. Neumann
Ultimo aggiornamento: 2024-03-29 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.03.25.586544
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.25.586544.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.