Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

FADE: Un Nuovo Metodo per la Rilevazione delle Anomalie nella Manifattura

FADE rileva difetti nelle immagini con campioni normali limitati usando modelli visione-linguaggio.

Yuanwei Li, Elizaveta Ivanova, Martins Bruveris

― 6 leggere min


FADE: Rilevamento AnomaloFADE: Rilevamento Anomalodi Nuova Generazionenella produzione con dati minimi.Metodi avanzati per rilevare anomalie
Indice

Rilevare problemi nelle immagini è fondamentale, soprattutto in produzione dove la qualità è importante. Di solito, i modelli vengono addestrati usando tantissime immagini normali di un oggetto. Tuttavia, a volte non ci sono immagini normali disponibili, o ce ne sono solo poche. Questo rappresenta una vera sfida. Recenti progressi nei grandi modelli che combinano visione e linguaggio hanno dimostrato di avere potenziale in molti compiti. Ma questi modelli non sono stati progettati specificamente per individuare problemi nelle immagini. In questo articolo, parliamo di un nuovo metodo chiamato FADE, che utilizza questi modelli per rilevare efficacemente problemi nelle immagini anche quando ci sono poche o nessuna immagine normale presente.

Importanza della Rilevazione di Anomalie nella Produzione

Nella produzione, è essenziale identificare difetti o caratteristiche insolite nei prodotti. Questo processo, noto come rilevazione di anomalie, si concentra su due compiti principali: classificare l'immagine come normale o difettosa e individuare esattamente dove si trova il problema nell'immagine. I metodi tradizionali si basano molto sull'avere una vasta collezione di immagini normali per addestrare modelli specifici per diversi oggetti. Tuttavia, questo approccio può essere poco pratico a causa del tempo e delle risorse necessari per raccogliere molte immagini normali per ogni tipo di oggetto.

Sfide negli Approcci Attuali

L'idea convenzionale di addestrare i modelli funziona bene solo quando ci sono molti campioni normali. Sfortunatamente, nel mondo reale, non avere immagini normali o averne solo un paio è comune. Molti metodi attuali faticano in questi casi e spesso non producono risultati accurati. Anche se i ricercatori si stanno concentrando sempre di più su modi per affrontare questo problema, c'è ancora molto margine di miglioramento.

Modelli Fondamentali e il Loro Potenziale

Recentemente, grandi modelli che combinano elaborazione visiva e linguistica hanno mostrato risultati eccellenti in vari compiti. Questi modelli, noti come modelli fondamentali, sono addestrati su enormi dataset, permettendo loro di apprendere un ampio spettro di concetti. Possono svolgere compiti come identificare oggetti nelle immagini senza necessitare di ulteriore addestramento. Tuttavia, adattare questi modelli specificamente per compiti di rilevazione di anomalie richiede ancora lavoro, poiché non sono progettati per questo scopo.

L'Approccio FADE

FADE sta per Few-shot/zero-shot Anomaly Detection Engine. Utilizza un modello visione-linguaggio chiamato CLIP, adattato per rilevare problemi in contesti industriali. FADE migliora il modo in cui vengono identificate le anomalie attraverso:

  1. Estrazione delle caratteristiche delle immagini a più scale per collegare meglio le immagini con le descrizioni linguistiche.
  2. Generazione automatica di testi relativi a possibili anomalie negli oggetti industriali.
  3. Utilizzo di indizi visivi aggiuntivi dalle immagini per migliorare i risultati di rilevazione, sia quando non ci sono immagini normali che quando ce ne sono solo poche.

Nei test con dataset standard, FADE ha mostrato risultati migliori rispetto ai metodi esistenti per identificare e localizzare anomalie nelle immagini.

Rilevazione Guidata dal Linguaggio e dalla Visione

FADE può utilizzare il linguaggio per guidare la rilevazione creando prompt che descrivono come potrebbe apparire un oggetto normale e un'anomalia. Ad esempio, invece di dire solo "danneggiato", un prompt potrebbe specificare "una superficie graffiata". Questa precisione aiuta il modello a capire cosa deve cercare. Il modello confronta le caratteristiche dell'immagine con questi prompt per vedere quanto si avvicinano.

D'altra parte, la rilevazione guidata dalla visione confronta le porzioni delle immagini sia normali che sospette. Analizzando i modelli visivi, il modello può identificare incongruenze che possono indicare problemi.

Miglioramenti nella Segmentazione delle Anomalie

Uno dei principali obiettivi di FADE è migliorare la segmentazione, che individua le esatte posizioni delle anomalie nelle immagini. L'approccio utilizza una tecnica chiamata Grounding Everything Module (GEM), che allinea meglio le caratteristiche visive con le descrizioni linguistiche rispetto ai metodi tradizionali. Raggruppando efficacemente i pixel simili, il modello migliora la sua capacità di individuare problemi.

Oltre a ciò, FADE impiega anche un'analisi a più scale. Questo significa che guarda le immagini in diverse dimensioni, rendendolo più capace di rilevare anomalie di diverse grandezze. Di conseguenza, sia che l'anomalia sia grande o piccola, FADE è progettato per individuarla.

Utilizzo di ChatGPT per la Generazione di Prompt

Per migliorare ulteriormente la sua capacità di trovare problemi, FADE utilizza ChatGPT, un grande modello linguistico. Invece di creare manualmente i prompt, che possono richiedere tempo, FADE genera automaticamente una vasta gamma di testi. Questo aiuta a catturare specifiche anomalie con precisione, assicurando che il modello sia ben informato su cosa cercare.

L'Impostazione Few-Shot

Negli scenari in cui sono disponibili solo poche immagini normali, FADE può comunque funzionare bene. Costruisce una banca di memoria delle caratteristiche delle immagini a partire dalle immagini normali disponibili. Confrontando queste caratteristiche con quelle dell'immagine di query, il modello può identificare potenziali anomalie. Questo approccio consente a FADE di funzionare efficacemente, anche in condizioni limitate.

Valutazione delle Prestazioni

FADE è stato testato contro altri metodi leader, dimostrando risultati competitivi in vari metriche. In scenari sia zero-shot che few-shot, dove le immagini normali sono scarse, FADE ha mostrato significativi miglioramenti. Questi risultati sono particolarmente notevoli in dataset più impegnativi, sottolineando la robustezza e l'affidabilità di FADE rispetto ai metodi tradizionali.

Sommario dei Contributi

FADE affronta diversi problemi legati alla rilevazione di anomalie. Combina approcci guidati dal linguaggio e dalla visione, migliorando le capacità complessive di rilevazione. I miglioramenti coinvolgono l'uso di embedding meglio allineati, generazione automatica di prompt diversi e analisi a più scale. Questi contributi portano a migliori prestazioni nell'identificazione di anomalie nelle immagini, rendendolo uno strumento prezioso nel controllo qualità della produzione.

Direzioni Future

C'è ancora molto da esplorare nel campo della rilevazione di anomalie. Anche se FADE ha mostrato risultati promettenti, alcune aree richiedono ulteriori indagini. Ad esempio, la generazione automatica dei prompt testuali può essere incoerente. Comprendere come diversi prompt influenzano le prestazioni sarebbe utile. Inoltre, è necessaria ricerca per determinare l'uso ottimale di diversi tipi di embedding in varie condizioni.

Un'altra area da esplorare è l'espansione dei metodi di rilevazione guidati dalla visione, particolarmente nelle immagini in cui le porzioni possono variare significativamente nell'aspetto. Trovare nuovi modi per affrontare queste sfide può portare a migliori risultati di rilevazione.

Conclusione

FADE rappresenta un passo significativo avanti nel campo della rilevazione di anomalie nella produzione. Utilizzando efficacemente la guida linguistica e visiva, migliora la capacità di individuare difetti nelle immagini anche quando ci sono dati limitati. La combinazione di tecniche avanzate e modelli fondamentali offre buone prospettive per migliorare i processi di controllo qualità in vari settori.

Fonte originale

Titolo: FADE: Few-shot/zero-shot Anomaly Detection Engine using Large Vision-Language Model

Estratto: Automatic image anomaly detection is important for quality inspection in the manufacturing industry. The usual unsupervised anomaly detection approach is to train a model for each object class using a dataset of normal samples. However, a more realistic problem is zero-/few-shot anomaly detection where zero or only a few normal samples are available. This makes the training of object-specific models challenging. Recently, large foundation vision-language models have shown strong zero-shot performance in various downstream tasks. While these models have learned complex relationships between vision and language, they are not specifically designed for the tasks of anomaly detection. In this paper, we propose the Few-shot/zero-shot Anomaly Detection Engine (FADE) which leverages the vision-language CLIP model and adjusts it for the purpose of industrial anomaly detection. Specifically, we improve language-guided anomaly segmentation 1) by adapting CLIP to extract multi-scale image patch embeddings that are better aligned with language and 2) by automatically generating an ensemble of text prompts related to industrial anomaly detection. 3) We use additional vision-based guidance from the query and reference images to further improve both zero-shot and few-shot anomaly detection. On the MVTec-AD (and VisA) dataset, FADE outperforms other state-of-the-art methods in anomaly segmentation with pixel-AUROC of 89.6% (91.5%) in zero-shot and 95.4% (97.5%) in 1-normal-shot. Code is available at https://github.com/BMVC-FADE/BMVC-FADE.

Autori: Yuanwei Li, Elizaveta Ivanova, Martins Bruveris

Ultimo aggiornamento: 2024-08-31 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2409.00556

Fonte PDF: https://arxiv.org/pdf/2409.00556

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili