Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Apprendimento automatico

Reti neurali e la legge di chiusura

Indagare su come le reti neurali riconoscono forme con parti mancanti.

Yuyan Zhang, Derya Soydaner, Fatemeh Behrad, Lisa Koßmann, Johan Wagemans

― 6 leggere min


Le reti neurali faticanoLe reti neurali faticanocon la chiusurariconoscere forme incomplete.Le reti neurali devono migliorare nel
Indice

Le reti neurali profonde sono programmi informatici che aiutano le macchine a riconoscere oggetti. Ma vedono davvero gli oggetti come noi? Questo articolo esplorerà come queste reti gestiscono l'idea di "Chiusura", che è il modo in cui il nostro cervello colma le lacune per vedere forme complete, anche se mancano parti.

Il Cervello vs. Reti Neurali

I nostri cervelli e le reti neurali sono costruiti in modo diverso. Mentre i ricercatori cercano ancora di capire come funziona il cervello umano, gli scienziati informatici cercano di capire le reti neurali. L'obiettivo non è far pensare alle reti neurali esattamente come gli umani, ma farle eseguire alcuni dei compiti simili.

È interessante notare che, anche se le reti neurali non sono state progettate specificamente per imitare la percezione umana, a volte possono comportarsi in modi sorprendentemente simili. Possono mostrare alcune caratteristiche di come i nostri cervelli organizzano e interpretano le informazioni visive, seguendo regole conosciute come leggi del Gestalt.

Cosa Sono le Leggi del Gestalt?

Le leggi del Gestalt aiutano a spiegare come percepiamo visivamente le cose. In poche parole, ci dicono come i nostri cervelli raggruppano diversi elementi. Ad esempio:

  • Prossimità: Le cose che sono vicine tendono ad essere viste come un gruppo.
  • Somiglianza: Le cose simili vengono anch'esse raggruppate.
  • Chiusura: I nostri cervelli amano riempire le lacune per vedere forme complete, anche se vediamo solo una parte della forma.

Ci concentreremo sulla legge della chiusura, che è quando i nostri cervelli riempiono le parti mancanti di una forma così possiamo vederla come un tutto.

Cos'è la Legge della Chiusura?

La legge della chiusura è un trucco carino che il nostro cervello fa. Se vediamo parti di una forma, i nostri cervelli "completeranno" la forma. Ad esempio, se vedi un cerchio ma manca la parte superiore, lo riconosci comunque come un cerchio. Questa abilità di colmare le lacune può avvenire in due modi:

  1. Integrazione del contorno: Quando punti o linee si uniscono per formare una forma.
  2. Completamento del contorno: Quando i nostri cervelli creano linee morbide per finire le forme.

Ci sono anche casi in cui il cervello riempie forme dietro qualcos'altro che blocca la nostra vista, o percepisce contorni che non sono realmente lì (come immaginare una forma che non è disegnata).

Ricerche Precedenti sulle Reti Neurali

Studi precedenti hanno esaminato come le reti neurali reagiscono alle leggi del Gestalt, in particolare alla legge della chiusura. In uno studio, i ricercatori hanno addestrato reti neurali popolari come AlexNet e Inception V1 su immagini di numeri e oggetti quotidiani. Hanno visto quanto bene queste reti potessero riconoscere forme anche quando mancavano parti. Hanno scoperto che le reti potevano comunque ottenere buoni risultati fino a quando circa il 30% della forma era mancante. Dopo quel punto, diventava più difficile per loro riconoscere correttamente le forme.

Altri studi hanno esaminato varie reti neurali e hanno trovato risultati misti. Alcune reti sono riuscite a completare meglio le forme rispetto ad altre. Tuttavia, molti test precedenti hanno utilizzato tipi limitati di forme e scenari, quindi è stato difficile trarre conclusioni ferme sulle loro capacità di chiusura.

L'Esperimento

Per indagare ulteriormente su quanto bene le reti neurali gestiscono la chiusura, abbiamo impostato un nuovo esperimento. Abbiamo creato due set di immagini: uno con poligoni completi (forme con lati dritti) e un altro con le stesse forme ma con sezioni rimosse. L'obiettivo era vedere come le reti avrebbero risposto a parti sempre più mancanti di queste forme.

Nel nostro set di addestramento, avevamo 320 poligoni completi con lati che variavano da 3 a 12. Avevamo anche diversi sfondi e posizioni per le forme per vedere se questi aspetti avrebbero influenzato le prestazioni delle reti.

Nel set di test, abbiamo regolato il livello di rimozione, il che significa che abbiamo tagliato sezioni delle forme in modo che alcune parti fossero invisibili. Il set di test includeva gli stessi poligoni, ma alcuni avevano il 10%, 20% o persino il 90% dei loro lati mancanti. Volevamo vedere quanto bene le reti potevano riconoscere le forme man mano che diventavano più incomplete.

Come Abbiamo Misurato la Chiusura

Per verificare se le reti mostravano l'effetto di chiusura, abbiamo osservato quante forme riconoscevano correttamente a diversi livelli di parti mancanti. Se continuavano a classificare le forme correttamente anche quando mancavano più lati, ciò suggerirebbe che stavano colmando le lacune.

Cosa Abbiamo Scoperto

Ecco dove diventa interessante. Quando le reti vedevano forme complete, se la cavavano abbastanza bene-VGG16 e SqueezeNet avevano ragione circa nel 90% dei casi. Altre reti, come AlexNet e ResNet50, hanno ottenuto risultati decentemente buoni. Tuttavia, alcune reti, come EfficientNet e MobileNet, hanno fatto fatica e hanno raggiunto solo tra il 40% e il 50% di precisione con le forme complete. Chiaramente, quelle reti non erano progettate per questo tipo di compito.

Quando abbiamo iniziato a rimuovere parti delle forme, le cose sono cambiate. In generale, la precisione è diminuita man mano che aumentava la quantità di parti mancanti. Tuttavia, ciò che ci ha sorpreso è stata la rapidità con cui le prestazioni sono scese. Anche con solo il 10% dei lati rimossi, le reti avevano difficoltà a riconoscere accuratamente le forme. Faticavano a rimanere sopra il livello base di possibilità di indovinare.

I Dettagli delle Prestazioni

La maggior parte delle reti ha fatto un buon lavoro nell'identificare forme complete finché solo una piccola parte dei lati mancava. Ma una volta arrivati intorno al 30% di rimozione, molte hanno iniziato a rendere male. Questo rapido calo mostra che queste reti potrebbero non essere molto brave a colmare le lacune come fanno gli umani.

Anche se alcune reti hanno performato meglio di altre, tutte hanno mostrato un netto calo di precisione quando anche solo un pezzetto della forma era mancante. Sembra che queste reti facciano molto affidamento sul vedere bordi completi per funzionare correttamente.

Conclusione

Alla fine, le prestazioni hanno mostrato che le reti neurali hanno difficoltà a imitare le capacità di chiusura simili agli esseri umani. Possono avere qualche successo con forme complete, ma una volta che mancano delle parti, faticano parecchio. Dalle nostre scoperte, possiamo concludere che queste reti non mostrano l'effetto di chiusura come fanno gli umani, almeno con i metodi e i dati attuali disponibili.

Quindi, mentre queste reti potrebbero essere fantastiche in molte cose, quando si tratta di colmare le lacune come facciamo noi, hanno ancora molto da imparare. Il cervello umano rimane l'esperto finale della chiusura!

Articoli simili