Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Capire l'occlusione nei CNN e nei ViT

Uno sguardo a come le CNN e i ViT gestiscono l'occlusione e la selettività dei patch.

― 8 leggere min


CNN vs. ViT su OcclusioneCNN vs. ViT su Occlusionescenari occlusi.Esaminare le prestazioni del modello in
Indice

Negli ultimi anni, ci sono stati due tipi principali di modelli che sono diventati popolari per i compiti di visione artificiale: Reti Neurali Convoluzionali (CNN) e Transformer per la Visione (ViT). Entrambi vengono usati per aiutare le macchine a vedere, riconoscere e comprendere le immagini. Le CNN sono in circolazione da più tempo ed erano la scelta standard per molte applicazioni, ma i ViT hanno recentemente catturato l’attenzione perché spesso rendono altrettanto bene, o addirittura meglio, in alcuni compiti importanti.

Nonostante entrambi i modelli abbiano dimostrato la loro utilità, funzionano in modo diverso a causa delle loro strutture uniche. Le CNN elaborano le immagini in modo più locale, concentrandosi su piccole parti di un'immagine alla volta, mentre i ViT guardano l'intera immagine contemporaneamente e possono connettere informazioni da parti distanti. Questa differenza porta a prestazioni variabili in certe situazioni, specialmente quando le immagini sono parzialmente bloccate o occluse.

Cos'è l'Oclusione?

L’occlusione si riferisce a situazioni in cui oggetti in un'immagine sono parzialmente nascosti o bloccati da altri oggetti. Per esempio, se una persona è in piedi dietro a un albero in una fotografia, le foglie e i rami dell'albero possono offuscare parti della figura della persona. Capire come i modelli affrontano l'occlusione è essenziale, poiché ha importanti implicazioni nel mondo reale. Per esempio, nelle auto a guida autonoma, rilevare con precisione pedoni o altri veicoli è cruciale, anche quando sono solo parzialmente visibili.

Sebbene alcune ricerche precedenti abbiano esplorato come le CNN e i ViT gestiscono l'occlusione, c'è ancora molto da imparare, specialmente riguardo alle nuove architetture delle CNN.

L'Importanza della Selettività dei Patch

Analizzando come questi modelli performano, i ricercatori hanno introdotto un concetto noto come "selettività dei patch". Questo termine si riferisce all'abilità di un modello di ignorare parti di un'immagine che non sono rilevanti o che possono confonderlo, concentrandosi invece sulle parti che contano. I ViT hanno dimostrato un talento naturale per questo, permettendo loro di performare bene anche quando ci sono aree occluse nelle immagini.

Al contrario, le CNN tradizionalmente hanno lottato con questa sfida, venendo spesso influenzate da patch irrilevanti e fuori contesto. Tuttavia, c'è un modo per addestrare le CNN a migliorare la loro selettività dei patch, e quel metodo si chiama Patch Mixing.

Cos'è il Patch Mixing?

Il Patch Mixing è una tecnica di addestramento in cui pezzi (o patch) di immagini diverse vengono combinati mentre si addestra un modello. Per esempio, le patch di un'immagine possono essere messe su un'altra immagine, mentre si modificano anche le etichette (le informazioni che usiamo per dire al modello cosa rappresentano le immagini). Questa tecnica espone le CNN a una varietà più ampia di informazioni durante l'addestramento, rendendole più resilienti alle occlusioni.

Utilizzando il Patch Mixing, i ricercatori hanno scoperto che le CNN potrebbero acquisire la capacità di ignorare informazioni fuori contesto proprio come fanno i ViT. In sostanza, questo metodo mira a colmare il divario tra i due tipi di modelli riguardo alla loro robustezza all'occlusione.

Contributi della Ricerca

Questa ricerca presenta diversi contributi chiave per la nostra comprensione di come le CNN e i ViT gestiscono l'occlusione e la selettività dei patch:

  1. Identificazione delle Differenze: Lo studio identifica una chiara differenza di prestazione tra le CNN e i ViT quando si trovano di fronte a informazioni fuori contesto. I ViT gestiscono naturalmente meglio l'aggiunta di informazioni irrilevanti rispetto alle CNN, mostrando la loro selettività dei patch.

  2. Rivisitazione dell'Aumento dei Dati: La ricerca rivisita la tecnica di Patch Mixing come metodo di aumento dei dati per aiutare le CNN a imparare a ignorare questi dettagli irrilevanti. Addestrando le CNN con il Patch Mixing, le loro prestazioni migliorano, permettendo loro di diventare più robuste contro le occlusioni.

  3. Nuovi Dataset per la Valutazione: I ricercatori introducono due nuovi dataset specificamente progettati per testare le prestazioni dei modelli in scenari occlusi: il Superimposed Masked Dataset (SMD) e il Realistic Occlusion Dataset (ROD). Questi dataset aiutano a valutare quanto bene i modelli gestiscono situazioni del mondo reale in cui parti di oggetti potrebbero essere nascoste.

  4. Nuovo Metodo di Spiegazione: Lo studio presenta un nuovo modo di capire come i modelli prendono decisioni chiamato contrastive RISE (c-RISE). Questo metodo aiuta a visualizzare e quantificare la selettività dei patch sia per le CNN che per i ViT.

CNN vs. ViT: Come Elaborano le Informazioni

Le CNN sono strutturate con strati di operazioni convoluzionali. Si concentrano su piccole aree delle immagini, costruendo gradualmente una comprensione dell'intera immagine. I modelli CNN più vecchi erano bravi a riconoscere schemi ma avevano limiti riguardo a come collegavano parti distanti di un'immagine.

I ViT, d'altra parte, funzionano scomponendo le immagini in patch più piccole e usando l'autoattenzione per collegare tutte le parti dell'immagine tra loro. Questo consente loro di apprendere relazioni tra pixel che sono lontani e aiuta a ignorare patch irrilevanti in modo più efficace.

La Sfida della Dipendenza dagli Strati Iniziali

Una differenza significativa tra questi due tipi di modelli risiede nei loro strati iniziali. Le CNN sono limitate dal loro design; le informazioni raccolte negli strati iniziali sono limitate. Al contrario, i ViT possono prestare attenzione a qualsiasi parte dell'immagine fin dall'inizio. Di conseguenza, i ViT possono vedere relazioni più ampie in un'immagine, mentre le CNN sono bloccate a concentrarsi di più sui pixel vicini.

Prove Empiriche di Prestazione

Attraverso test empirici, questa ricerca mira a dimostrare che i ViT sono migliori nel gestire l'occlusione rispetto alle CNN. Sono stati condotti vari esperimenti confrontando le CNN moderne con i ViT in condizioni di occlusione, e i risultati hanno confermato che i ViT possono costantemente ignorare meglio le patch irrilevanti.

Come Funziona il Patch Mixing

Il Patch Mixing comporta prendere patch da più immagini e fonderle. Mentre si mescolano queste patch, anche le etichette collegate alle immagini vengono mescolate per riflettere i cambiamenti fatti. Esporre le CNN a diverse patch consente a questi modelli di fare meno affidamento sulle relazioni spaziali e adattarsi alla presenza di aree occluse.

Implementazione del Patch Mixing

Per implementare il Patch Mixing, si crea una maschera per decidere quali patch dell'immagine verranno sostituite. Le patch vengono scelte casualmente dalle immagini selezionate e il mix viene creato in base a una percentuale stabilita di quante patch sostituire. Questa strategia aiuta a migliorare la robustezza delle CNN.

I Vantaggi del Patch Mixing

L'applicazione del Patch Mixing ha mostrato risultati promettenti. Le CNN addestrate con questo metodo hanno dimostrato abilità migliorate nell'ignorare informazioni fuori contesto. Questo miglioramento consente alle CNN di gestire meglio le situazioni del mondo reale in cui gli oggetti non sono sempre completamente visibili.

Valutare le Prestazioni del Modello

Per valutare quanto bene i modelli gestiscono l'occlusione, sono stati creati due nuovi dataset. Questi dataset offrono scenari impegnativi per comprendere meglio il comportamento dei modelli quando parti delle immagini sono nascoste.

Realistic Occlusion Dataset (ROD)

Il ROD è progettato per testare i modelli su scenari di occlusione realistica utilizzando oggetti reali catturati in condizioni controllate. Le immagini vengono create posizionando oggetti occludenti in varie posizioni rispetto all'oggetto principale per simulare come si verifica naturalmente l'occlusione.

Superimposed Masked Dataset (SMD)

L'SMD fornisce una versione occlusa del dataset di validazione ImageNet-1K, utilizzando occludenti ben definiti che non fanno parte del set di etichette principali. Questa complessità aggiuntiva aiuta a valutare come i modelli rispondono a diversi tipi di occlusione.

Test e Risultati

Nei test, le CNN addestrate con il Patch Mixing hanno generalmente performato meglio rispetto ai loro omologhi originali nei benchmark di occlusione. Anche se i ViT hanno mostrato alcuni miglioramenti di prestazione, non hanno beneficiato tanto quanto le CNN dalla tecnica di Patch Mixing.

Come i Modelli Gestiscono i Cambiamenti nella Struttura dell'Immagine

Lo studio ha anche esaminato quanto bene i modelli mantengano la loro accuratezza quando vengono presentate versioni mescolate o alterate delle immagini. Durante questi test, i modelli addestrati usando il Patch Mixing hanno mostrato una significativa riduzione del loro affidamento sulle strutture spaziali. Questo risultato ha indicato un miglioramento nella loro capacità di adattarsi alle variazioni delle immagini.

Conclusione

Questa ricerca fa luce sulle differenze critiche tra le CNN e i ViT nel gestire l'occlusione e nel ignorare informazioni irrilevanti. Il concetto di selettività dei patch si è rivelato un aspetto essenziale delle prestazioni del modello in queste condizioni. Introdurre il Patch Mixing, un metodo che migliora questa abilità nelle CNN, ha fornito un percorso per migliorare significativamente questi modelli.

Lo sviluppo di nuovi dataset per la valutazione e l'introduzione del c-RISE per una migliore spiegabilità avanzano ulteriormente la nostra comprensione di come operano questi modelli. Man mano che le applicazioni della visione artificiale continuano a crescere in importanza, comprendere queste differenze e miglioramenti è fondamentale per implementare modelli robusti in situazioni reali.

In sintesi, sia le CNN che i ViT hanno punti di forza e debolezze nei compiti di visione artificiale. Tuttavia, con tecniche come il Patch Mixing, possiamo migliorare i modelli tradizionali, rendendoli sempre più versatili nell'affrontare sfide come l'occlusione. Questo progresso promette bene per molti settori, comprese le auto autonome, l'imaging medico e i sistemi di sicurezza, dove il riconoscimento accurato delle immagini è essenziale anche in condizioni non ottimali.

Fonte originale

Titolo: Hardwiring ViT Patch Selectivity into CNNs using Patch Mixing

Estratto: Vision transformers (ViTs) have significantly changed the computer vision landscape and have periodically exhibited superior performance in vision tasks compared to convolutional neural networks (CNNs). Although the jury is still out on which model type is superior, each has unique inductive biases that shape their learning and generalization performance. For example, ViTs have interesting properties with respect to early layer non-local feature dependence, as well as self-attention mechanisms which enhance learning flexibility, enabling them to ignore out-of-context image information more effectively. We hypothesize that this power to ignore out-of-context information (which we name $\textit{patch selectivity}$), while integrating in-context information in a non-local manner in early layers, allows ViTs to more easily handle occlusion. In this study, our aim is to see whether we can have CNNs $\textit{simulate}$ this ability of patch selectivity by effectively hardwiring this inductive bias using Patch Mixing data augmentation, which consists of inserting patches from another image onto a training image and interpolating labels between the two image classes. Specifically, we use Patch Mixing to train state-of-the-art ViTs and CNNs, assessing its impact on their ability to ignore out-of-context patches and handle natural occlusions. We find that ViTs do not improve nor degrade when trained using Patch Mixing, but CNNs acquire new capabilities to ignore out-of-context information and improve on occlusion benchmarks, leaving us to conclude that this training method is a way of simulating in CNNs the abilities that ViTs already possess. We will release our Patch Mixing implementation and proposed datasets for public use. Project page: https://arielnlee.github.io/PatchMixing/

Autori: Ariel N. Lee, Sarah Adel Bargal, Janavi Kasera, Stan Sclaroff, Kate Saenko, Nataniel Ruiz

Ultimo aggiornamento: 2023-06-30 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.17848

Fonte PDF: https://arxiv.org/pdf/2306.17848

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili