Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale

Miglioramenti nelle tecniche di segmentazione semantica a pochi colpi

Un nuovo approccio migliora la segmentazione con pochi dati.

― 5 leggere min


Rivoluzione nellaRivoluzione nellaSegmentazione Few-Shotclassificare con pochi esempi.Il nuovo modello è fantastico nel
Indice

Nel campo della visione computerizzata, soprattutto nella segmentazione semantica, c'è sempre più bisogno di riconoscere e classificare le immagini con pochissimi esempi etichettati. È importante perché ottenere dati etichettati può richiedere tempo e costare molto. La segmentazione semantica few-shot è un metodo che cerca di affrontare questo problema permettendo ai modelli di imparare da solo poche immagini annotate. Tuttavia, gli approcci tradizionali affrontano sfide quando si tratta di riconoscere sia classi familiari che sconosciute allo stesso tempo, specialmente in un contesto generalizzato.

La Sfida della Segmentazione Semantica Few-shot Generalizzata

La Segmentazione Semantica Few-shot Generalizzata (GFSS) rappresenta un passo avanti rispetto ai metodi precedenti, consentendo la segmentazione sia di classi conosciute che sconosciute durante la valutazione. Mentre i metodi precedenti spesso si basavano su componenti extra per stringere il loro focus, continuavano a lottare con la divisione delle rappresentazioni e il bias di embedding. Questo significa che, mentre riuscivano a imparare dalle classi conosciute, la loro capacità di generalizzare a classi sconosciute era limitata.

I problemi fondamentali sono due: la separazione tra le rappresentazioni delle classi conosciute e sconosciute e una tendenza a classificare erroneamente i nuovi obiettivi come sfondo a causa di idee preconcette apprese dalle classi conosciute. Affrontare questi problemi è fondamentale per l'efficacia dei modelli di segmentazione few-shot.

Soluzione Proposta

Per affrontare queste sfide, è stata sviluppata una combinazione di due strategie: l'apprendimento dei kernel prototipici e la percezione del primo piano in open-set.

Apprendimento dei Kernel Prototipici

Questo approccio prevede la creazione di un insieme di kernel apprendibili, che gestiscono i compiti di segmentazione separatamente per ciascuna classe. Aggiornando questi kernel in base alle caratteristiche estratte dalle immagini di input, il modello può mantenere una rappresentazione coerente delle classi conosciute mentre impara anche da pochissimi esempi di classi sconosciute. Ogni kernel è adattato per riflettere meglio le caratteristiche dei campioni che elabora, migliorando la sua capacità di generalizzare.

Percezione del Primo Piano in Open-set

Complementando l'apprendimento dei kernel, la percezione del primo piano in open-set consente al modello di identificare elementi del primo piano all'interno di un'immagine senza essere limitato a classi specifiche. Questo fornisce la capacità di rilevare nuovi oggetti che non facevano parte del set di addestramento, riducendo le possibilità di classificare erroneamente obiettivi nuovi come sfondo.

Struttura di Addestramento

La struttura di addestramento è composta da tre componenti principali:

  1. Apprendimento dei Kernel Prototipici (PKL): Questo componente si concentra sul perfezionamento dei kernel responsabili della segmentazione. Elabora le immagini di input e aggiusta i kernel in base a ciò che apprende, assicurando che rimangano efficaci sia per classi conosciute che sconosciute.

  2. Percezione Contestuale del Primo Piano (FCP): Questo modulo è responsabile dell'apprendimento del contesto all'interno delle immagini che aiuta a identificare gli elementi del primo piano, essenziale per rilevare nuove classi.

  3. Inferenza Basata su Bias Condizionale (CBBI): Questo componente riunisce gli output dai due moduli precedenti per fare previsioni finali di segmentazione. Essenzialmente, integra le informazioni apprese per migliorare il processo decisionale quando si classificano i pixel in un'immagine.

Il Processo di Apprendimento

Durante l'addestramento, il modello impara ad aggiornare i suoi kernel in base alle caratteristiche delle immagini di input. Man mano che elabora più immagini, diventa migliore nella segmentazione delle classi conosciute mentre impara anche a riconoscere le caratteristiche indicative delle classi sconosciute. Questa duplice capacità è fondamentale per una segmentazione efficace in scenari reali, dove nuovi oggetti appaiono frequentemente.

Il modello utilizza anche un lotto di immagini durante l'addestramento per simulare vari scenari. Mescolando campioni di diverse classi, impara a generalizzare meglio in situazioni diverse.

Valutazione dei Risultati

I metodi proposti sono stati valutati utilizzando dataset ben noti. Testando il modello su immagini con classi sia familiari che sconosciute, è stato osservato che l'approccio integrato ha raggiunto risultati superiori rispetto ai metodi precedenti. I miglioramenti non sono stati limitati alla segmentazione delle classi conosciute; il modello ha anche dimostrato una significativa capacità di identificare nuove classi.

Confronto con Metodi Esistenti

Rispetto ad altri metodi all'avanguardia, l'approccio proposto ha costantemente superato questi ultimi su vari parametri. Non solo ha eccelso nell'identificare classi conosciute, ma ha anche mostrato notevoli miglioramenti nel riconoscere classi nuove, che è un aspetto critico dell'apprendimento few-shot generalizzato.

Conclusione

In sintesi, i progressi nella segmentazione semantica few-shot generalizzata promettono un miglioramento delle prestazioni nei compiti di visione computerizzata. Combinando l'apprendimento dei kernel prototipici con la percezione del primo piano in open-set, il modello può separare e generalizzare efficacemente tra classi conosciute e sconosciute. Questo porta a un sistema più robusto capace di gestire le complessità delle applicazioni reali in cui i dati disponibili sono limitati.

In un'epoca in cui i modelli di machine learning devono adattarsi rapidamente ed efficientemente, le tecniche discusse offrono strumenti preziosi per ampliare le capacità dei modelli di segmentazione. La continua ricerca e il perfezionamento in quest'area continueranno a migliorare l'accuratezza e l'applicabilità della segmentazione semantica, rendendola più efficace per una vasta gamma di compiti in vari ambiti.

Fonte originale

Titolo: Prototypical Kernel Learning and Open-set Foreground Perception for Generalized Few-shot Semantic Segmentation

Estratto: Generalized Few-shot Semantic Segmentation (GFSS) extends Few-shot Semantic Segmentation (FSS) to simultaneously segment unseen classes and seen classes during evaluation. Previous works leverage additional branch or prototypical aggregation to eliminate the constrained setting of FSS. However, representation division and embedding prejudice, which heavily results in poor performance of GFSS, have not been synthetical considered. We address the aforementioned problems by jointing the prototypical kernel learning and open-set foreground perception. Specifically, a group of learnable kernels is proposed to perform segmentation with each kernel in charge of a stuff class. Then, we explore to merge the prototypical learning to the update of base-class kernels, which is consistent with the prototype knowledge aggregation of few-shot novel classes. In addition, a foreground contextual perception module cooperating with conditional bias based inference is adopted to perform class-agnostic as well as open-set foreground detection, thus to mitigate the embedding prejudice and prevent novel targets from being misclassified as background. Moreover, we also adjust our method to the Class Incremental Few-shot Semantic Segmentation (CIFSS) which takes the knowledge of novel classes in a incremental stream. Extensive experiments on PASCAL-5i and COCO-20i datasets demonstrate that our method performs better than previous state-of-the-art.

Autori: Kai Huang, Feigege Wang, Ye Xi, Yutao Gao

Ultimo aggiornamento: 2023-08-18 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2308.04952

Fonte PDF: https://arxiv.org/pdf/2308.04952

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili