Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Migliorare la Modellazione di Immagini Mascherate nella Visione Artificiale

Un nuovo metodo migliora il Masked Image Modeling perfezionando i frammenti di input e i target.

― 5 leggere min


Migliorare le tecniche diMigliorare le tecniche dimodellazione delleimmagininel Masked Image Modeling.Nuovi metodi migliorano le prestazioni
Indice

Il Masked Image Modeling (MIM) è un metodo usato nella visione artificiale per capire meglio le immagini prevedendo le parti mancanti. Negli ultimi anni, questo metodo ha dato buoni risultati grazie a strumenti come i Masked Autoencoders (MAE) e BEiT. Tuttavia, sviluppi successivi hanno reso il processo più complicato, aggiungendo compiti extra o richiedendo modelli speciali che aumentano le risorse necessarie per l’addestramento.

Questo articolo analizza le basi del MIM esaminando da vicino la ricostruzione dei pixel, che implica controllare le sezioni dell'immagine e il risultato atteso. L'analisi rivela due problemi chiave che spesso vengono ignorati.

Problemi di Base nel MIM

Il primo problema riguarda l'obiettivo di ricostruzione. Dalla nascita del MAE, molti metodi MIM hanno utilizzato i pixel grezzi dell’immagine come obiettivo per la ricostruzione. L'obiettivo è stato ricreare tutti i dettagli delle sezioni mascherate, comprese le trame fini. Questo ha portato a uno spreco di sforzi nella modellazione delle relazioni a breve raggio e dei dettagli ad alta frequenza.

Il secondo problema coinvolge le patch dell'immagine di input. MAE utilizza un metodo chiamato Random Resized Crop (RRC) per creare immagini aumentate, ma quando è abbinato a una mascheratura aggressiva (rimuovendo il 75% dell'immagine), spesso lascia visibili solo una piccola percentuale di oggetti importanti. Questa bassa visibilità delle parti chiave rende difficile per il modello apprendere in modo efficace, danneggiando la qualità della rappresentazione.

Metodo Proposto

Per affrontare questi due problemi, viene proposto un nuovo metodo semplice. Comprende due passaggi principali:

  1. Generazione di Obiettivi a Bassa Frequenza: Filtrando i dettagli ad alta frequenza dagli obiettivi di ricostruzione, l'attenzione si sposta verso caratteristiche più significative come forme e schemi generali.

  2. Simple Resized Crop (SRC): Invece di utilizzare RRC, viene adottata la tecnica SRC, che mantiene più informazioni importanti del primo piano visibili nelle patch di input.

Questo metodo può essere facilmente combinato con gli approcci MIM basati su pixel esistenti senza richiedere molte risorse computazionali extra. Ha dimostrato di migliorare tre noti metodi MIM: MAE, ConvMAE e LSMAE, in vari compiti.

Panoramica del Self-Supervised Learning

Il self-supervised learning ha fatto grandi progressi, specialmente nella visione artificiale, estraendo ispirazione dai successi nell'elaborazione del linguaggio. MIM è diventato essenziale in quest'area, facendo avanzare rapidamente il campo. Tecniche principali come MAE e BEiT hanno utilizzato Vision Transformers (ViT) per apprendere caratteristiche visive utili da immagini grezze, ottenendo risultati migliori rispetto ai metodi supervisionati tradizionali.

Il MIM funziona mascherando casualmente parti di un'immagine e insegnando al modello a prevedere queste aree mancanti. Alcuni metodi avanzati hanno cercato di migliorare la qualità della rappresentazione includendo compiti extra o utilizzando modelli pre-addestrati potenti. Sfortunatamente, questi approcci complicano il processo complessivo o introducono costi significativi per l'addestramento.

Patch di Input e Obiettivi di Ricostruzione

L'attenzione di questa ricerca è concentrata sugli aspetti trascurati della ricostruzione dei dati nel MIM: le patch di input e gli obiettivi di ricostruzione. Semplificando l'approccio, il metodo migliora le tecniche MIM esistenti mantenendo i costi computazionali bassi.

Analisi del MAE

L'analisi approfondita del metodo MAE evidenzia problemi critici legati a come vengono ricostruite le immagini. La maggior parte dei metodi sottolinea la necessità di ricostruire dettagli intricati, il che porta a un'eccessiva enfasi sulle informazioni ad alta frequenza. Al contrario, studi indicano che i modelli che si concentrano di più sulle forme si rivelano più robusti e trasferibili nelle applicazioni pratiche.

Inoltre, MAE applica RRC per creare immagini di input per l'addestramento. Tuttavia, la mascheratura aggressiva riduce notevolmente la quantità di informazioni visibili, coprendo solo una piccola parte degli oggetti essenziali.

Cambiamenti Semplici ma Efficaci

Il nuovo metodo consiste in cambiamenti semplici ed efficaci che migliorano le prestazioni dei sistemi MIM:

  1. Componenti a Bassa Frequenza: Spostando la generazione degli obiettivi verso componenti a bassa frequenza, l'apprendimento è orientato verso schemi visivi cruciali piuttosto che trame distraenti.

  2. Implementazione dello SRC: Il metodo SRC è più conservativo e preserva meglio le informazioni del primo piano negli input, consentendo al modello di catturare in modo più efficace le caratteristiche significative.

Il metodo si integra perfettamente con la maggior parte dei framework MIM esistenti. È stato testato contro tecniche standard come MAE, ConvMAE e LSMAE, dimostrando di migliorare le prestazioni in diverse valutazioni senza appesantire l'efficienza dell'addestramento.

Valutazione delle Prestazioni

Il nuovo metodo è stato valutato su diversi compiti, tra cui classificazione delle immagini su ImageNet, rilevamento degli oggetti su COCO e segmentazione semantica su ADE20K. I risultati indicano che il metodo proposto migliora costantemente gli approcci di base su tutti questi compiti.

Robustezza del Modello

Ulteriori test hanno esplorato quanto bene il modello si comporti di fronte a variazioni nei dati. È stato dimostrato che i miglioramenti apportati dal nuovo metodo erano più pronunciati quando si trattava di distribuzioni di dati diverse, rafforzando il suo valore.

Analisi del Bias di Forma

Oltre ai test standard, è stata condotta un'ulteriore analisi su come il modello gestisca forme rispetto a trame. Il nuovo metodo ha portato a un miglior bilanciamento, indicando una riduzione del bias di texture mantenendo la capacità del modello di afferrare forme importanti.

Conclusione

Questo articolo ha presentato una valutazione approfondita dei problemi nei metodi MIM basati su pixel, concentrandosi in particolare sulle patch di input e sugli obiettivi di ricostruzione. Adottando un metodo semplice ed efficace, sono stati ottenuti miglioramenti senza aggiungere ulteriore pressione computazionale. I risultati offrono un percorso promettente per future esplorazioni nel self-supervised learning, mostrando il potenziale di prestazioni migliorate in diverse applicazioni.

In sintesi, la combinazione di obiettivi a bassa frequenza e tecniche di cropping conservative porta a risultati di successo in vari compiti successivi, dimostrando l'efficacia e l'ampia applicabilità del metodo.

Fonte originale

Titolo: PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling

Estratto: Masked Image Modeling (MIM) has achieved promising progress with the advent of Masked Autoencoders (MAE) and BEiT. However, subsequent works have complicated the framework with new auxiliary tasks or extra pre-trained models, inevitably increasing computational overhead. This paper undertakes a fundamental analysis of MIM from the perspective of pixel reconstruction, which examines the input image patches and reconstruction target, and highlights two critical but previously overlooked bottlenecks. Based on this analysis, we propose a remarkably simple and effective method, {\ourmethod}, that entails two strategies: 1) filtering the high-frequency components from the reconstruction target to de-emphasize the network's focus on texture-rich details and 2) adopting a conservative data transform strategy to alleviate the problem of missing foreground in MIM training. {\ourmethod} can be easily integrated into most existing pixel-based MIM approaches (\ie, using raw images as reconstruction target) with negligible additional computation. Without bells and whistles, our method consistently improves three MIM approaches, MAE, ConvMAE, and LSMAE, across various downstream tasks. We believe this effective plug-and-play method will serve as a strong baseline for self-supervised learning and provide insights for future improvements of the MIM framework. Code and models are available at \url{https://github.com/open-mmlab/mmselfsup/tree/dev-1.x/configs/selfsup/pixmim}.

Autori: Yuan Liu, Songyang Zhang, Jiacheng Chen, Kai Chen, Dahua Lin

Ultimo aggiornamento: 2023-03-24 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.02416

Fonte PDF: https://arxiv.org/pdf/2303.02416

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili