Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Migliorare la Segmentazione Semantica Debolemente Supervisionata con CoSA

Un nuovo metodo migliora l'accuratezza della segmentazione usando le mappe di attivazione delle classi.

― 5 leggere min


Avanzare nellaAvanzare nellasegmentazione con ilmetodo CoSAtecniche innovative in tempo reale.CoSA migliora la segmentazione usando
Indice

La segmentazione semantica debolmente supervisionata (WSSS) è un metodo usato per identificare e segmentare oggetti nelle immagini senza bisogno di etichette dettagliate a livello di pixel. Invece, usa forme di etichettatura più semplici, come le etichette di classe che indicano solo quali oggetti ci sono in un'immagine. Questo approccio riduce notevolmente il tempo e lo sforzo necessari per annotare le immagini.

Un modo comune per generare etichette per la segmentazione è attraverso le mappe di attivazione di classe (CAMs). Queste mappe mostrano quali parti di un'immagine sono più importanti per riconoscere un oggetto. Tuttavia, le CAMs a volte possono essere incoerenti o imprecise. Questo può portare a problemi nell'addestrare modelli per la segmentazione, dato che le mappe potrebbero non mostrare sempre correttamente le posizioni reali degli oggetti.

In questo articolo, introduciamo un nuovo metodo chiamato Co-training with Swapping Assignments (CoSA). Questo approccio mira a migliorare la qualità delle CAMs e rendere il processo di segmentazione più accurato. CoSA permette l'addestramento simultaneo di modelli di segmentazione e CAMs, riducendo la necessità di ulteriori passi di affinamento che possono complicare il processo di addestramento.

Il Problema con gli Approcci Attuali

Molti metodi esistenti per WSSS si basano su più fasi: generare CAMs, affinarle, e addestrare il modello di segmentazione usando queste mappe. Questo processo può essere lento e magari non funziona bene in tutte le situazioni perché richiede spesso di ottimizzare modelli diversi in fasi diverse.

I modelli a fase singola, che tentano di combinare tutti questi passaggi in uno, sono più veloci ma in genere funzionano peggio perché non riescono a ottimizzare efficacemente le CAMs durante l'addestramento. Di conseguenza, questi modelli richiedono spesso ulteriori passaggi di post-elaborazione per migliorare la qualità delle CAMs.

I problemi delle CAMs includono:

  1. Attivazione Incoerente: Le CAMs possono variare in qualità in base ai cambiamenti nell'immagine di input, portando a rappresentazioni incoerenti dello stesso oggetto.

  2. Attivazione Inaccurata: Le CAMs possono coprire solo certe parti di un oggetto, perdendo informazioni importanti o includendo aree di sfondo irrilevanti.

Questi problemi sono il motivo per cui molti ricercatori si concentrano sull'affinamento delle CAMs dopo che sono state create, ma questo passaggio aggiuntivo può limitare flessibilità e velocità.

L'Approccio CoSA

CoSA fornisce una nuova prospettiva su queste sfide permettendo alle CAMs di essere ottimizzate in tempo reale durante l'addestramento. Invece di dover affinare le CAMs separatamente, CoSA integra direttamente il processo di generazione e utilizzo delle CAMs per la segmentazione in un unico framework coeso.

CoSA è basato su un modello a doppio flusso composto da due reti: la rete di assegnazione (AN) e la rete online (ON). Queste due reti lavorano insieme scambiando pseudo-etichetta. La rete di assegnazione produce pseudo-etichetta CAM (CPL) e pseudo-etichetta di segmentazione (SPL). A loro volta, queste etichette guidano l'addestramento della rete online.

Innovazioni Chiave

  1. CAMs Guidate: CoSA include un meccanismo per guidare le CAMs durante l'addestramento, permettendo loro di evolversi in base alle Previsioni di Segmentazione. Questo porta a CAMs più accurate e coerenti senza richiedere un processo di affinamento separato.

  2. Scambio di Assegnazioni: L'uso di SPL e CPL permette alle due reti di rafforzare l'apprendimento dell'una nei confronti dell'altra. Le CAMs migliorano le previsioni di segmentazione, mentre le previsioni di segmentazione migliorano la qualità delle CAMs.

  3. Ponderazione Adattativa: Questa tecnica regola l'importanza di diversi segmenti nel processo di addestramento in base alla loro affidabilità, che viene stimata utilizzando una misura di incertezza. Questo aggiustamento dinamico migliora le prestazioni complessive della segmentazione.

  4. Soglia Dinamica: Invece di utilizzare una soglia fissa per separare diverse aree in un'immagine, CoSA regola le soglie durante l'addestramento per adattarsi meglio alle previsioni in evoluzione del modello.

  5. Separazione Contrastiva: Questo approccio affronta il problema della coesistenza, dove oggetti simili vengono fusi in modo errato. Concentrandosi su dettagli a basso livello, CoSA riesce a differenziare tra classi sovrapposte in modo più efficace.

Risultati Sperimentali

CoSA è stato testato su set di dati ampiamente utilizzati, tra cui PASCAL VOC e MS-COCO, entrambi noti per la loro complessità e varietà di classi di oggetti. I risultati indicano che CoSA supera i precedenti metodi a fase singola, raggiungendo una maggiore accuratezza nella segmentazione degli oggetti nelle immagini.

Sul set di dati PASCAL VOC, CoSA ha ottenuto un punteggio medio di Intersection over Union (mIoU) del 76,2%, superando di gran lunga il miglior modello esistente a fase singola. Su COCO, ha dimostrato anche un netto miglioramento rispetto ad altri metodi, indicando la sua efficacia su diversi set di dati e compiti.

Impatto dei Componenti

I vari elementi di CoSA sono stati esaminati in dettaglio per capire il loro contributo alle prestazioni. Ogni componente, comprese le CAMs guidate, le assegnazioni scambiate, la ponderazione adattativa, e la soglia dinamica, ha avuto un effetto positivo sui risultati. È interessante notare che la rimozione di qualsiasi singolo componente ha portato a un calo delle prestazioni, sottolineando l'importanza dell'approccio integrato.

Visualizzazioni e Confronti Qualitativi

Le valutazioni visive dei risultati hanno mostrato che CoSA produce segmentazioni più chiare. Rispetto ad altri metodi all'avanguardia, CoSA ha dimostrato una migliore separazione tra oggetti e sfondi. Ha gestito efficacemente le interazioni tra le classi, che è spesso una sfida per molti tecniche esistenti.

Ad esempio, quando segmentava una persona che tiene un oggetto, CoSA è riuscito a segmentare distintamente sia la persona che l'oggetto, mentre i metodi tradizionali tendevano a fonderli in un'unica segmentazione. Questa capacità è stata particolarmente evidente in scene complesse con oggetti sovrapposti o occlusione significativa.

Conclusione

CoSA rappresenta un notevole avanzamento nel campo della segmentazione semantica debolmente supervisionata. Combinando le attività di classificazione e segmentazione delle immagini in un framework unificato, mitiga la necessità di un ampio affinamento delle CAMs. I miglioramenti resi possibili da CAMs guidate, soglie dinamiche e ponderazione adattativa consentono previsioni più affidabili nel compito di segmentazione.

L'efficienza e l'efficacia del metodo suggeriscono che potrebbe essere applicabile a vari compiti nella visione artificiale oltre alla segmentazione semantica. Ulteriore esplorazione di queste idee potrebbe portare a innovazioni più ampie nel campo, migliorando il modo in cui le macchine interpretano e segmentano le informazioni visive nelle immagini.

Fonte originale

Titolo: Weakly Supervised Co-training with Swapping Assignments for Semantic Segmentation

Estratto: Class activation maps (CAMs) are commonly employed in weakly supervised semantic segmentation (WSSS) to produce pseudo-labels. Due to incomplete or excessive class activation, existing studies often resort to offline CAM refinement, introducing additional stages or proposing offline modules. This can cause optimization difficulties for single-stage methods and limit generalizability. In this study, we aim to reduce the observed CAM inconsistency and error to mitigate reliance on refinement processes. We propose an end-to-end WSSS model incorporating guided CAMs, wherein our segmentation model is trained while concurrently optimizing CAMs online. Our method, Co-training with Swapping Assignments (CoSA), leverages a dual-stream framework, where one sub-network learns from the swapped assignments generated by the other. We introduce three techniques: i) soft perplexity-based regularization to penalize uncertain regions; ii) a threshold-searching approach to dynamically revise the confidence threshold; and iii) contrastive separation to address the coexistence problem. CoSA demonstrates exceptional performance, achieving mIoU of 76.2\% and 51.0\% on VOC and COCO validation datasets, respectively, surpassing existing baselines by a substantial margin. Notably, CoSA is the first single-stage approach to outperform all existing multi-stage methods including those with additional supervision. Code is avilable at \url{https://github.com/youshyee/CoSA}.

Autori: Xinyu Yang, Hossein Rahmani, Sue Black, Bryan M. Williams

Ultimo aggiornamento: 2024-07-09 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2402.17891

Fonte PDF: https://arxiv.org/pdf/2402.17891

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili