Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

FADE : Une nouvelle méthode pour détecter les anomalies dans la fabrication

FADE détecte des défauts dans les images avec peu d'échantillons normaux en utilisant des modèles de vision-langage.

― 7 min lire


FADE : DétectionFADE : Détectiond'anomalies de nouvellegénérationminimum de données.anomalies de fabrication avec unMéthodes avancées pour détecter les
Table des matières

Détecter des problèmes dans les images est super important, surtout en fabrication où la qualité compte. En général, on entraîne des modèles avec plein d'images normales d'un objet. Mais des fois, y a pas d'images normales disponibles, ou juste quelques unes. Ça pose un vrai défi. Récemment, des avancées dans de grands modèles qui combinent vision et langage ont montré leur potentiel dans plein de tâches. Mais ces modèles n'ont pas été conçus spécifiquement pour repérer les soucis dans les images. Dans cet article, on parle d'une nouvelle méthode appelée FADE, qui utilise ces modèles pour détecter efficacement les problèmes dans les images même quand il y a peu ou pas d'images normales.

Importance de la Détection d'anomalies en Fabrication

En fabrication, il est essentiel d'identifier les défauts ou des caractéristiques inhabituelles dans les produits. Ce processus, connu sous le nom de détection d'anomalies, se concentre sur deux tâches principales : classifier l'image comme normale ou défectueuse et localiser exactement où se trouve le problème dans l'image. Les méthodes traditionnelles dépendent beaucoup d'avoir une grande collection d'images normales pour entraîner des modèles spécifiques pour différents objets. Mais cette approche peut être impraticable à cause du temps et des ressources nécessaires pour rassembler beaucoup d'images normales pour chaque type d'objet.

Défis des Approches Actuelles

L'idée classique d'entraîner des modèles ne fonctionne bien que lorsqu'il y a plein d'échantillons normaux. Malheureusement, dans le monde réel, il est courant de ne pas avoir d'images normales ou juste quelques-unes. Beaucoup de méthodes actuelles galèrent dans ces cas et ne produisent souvent pas de résultats précis. Bien que les chercheurs se concentrent de plus en plus sur des moyens de traiter ce problème, il reste encore pas mal de marge d'amélioration.

Modèles Fondations et Leur Potentiel

Récemment, de grands modèles qui combinent traitement visuel et langage ont montré d'excellents résultats dans diverses tâches. Ces modèles, connus sous le nom de modèles fondations, sont entraînés sur d'énormes ensembles de données, leur permettant d'apprendre une large gamme de concepts. Ils peuvent réaliser des tâches comme identifier des objets dans les images sans avoir besoin d'entraînement supplémentaire. Cependant, adapter ces modèles spécifiquement pour des tâches de détection d'anomalies nécessite encore du travail, car ils ne sont pas conçus pour cela.

L'Approche FADE

FADE signifie Few-shot/zero-shot Anomaly Detection Engine. Ça utilise un modèle vision-langage appelé CLIP, qui est adapté pour détecter des problèmes dans des environnements industriels. FADE améliore la façon dont les anomalies sont identifiées en :

  1. Extrayant les caractéristiques des images à plusieurs échelles pour mieux connecter les images avec des descriptions en langage.
  2. Générant automatiquement des textes liés aux anomalies possibles dans des objets industriels.
  3. Utilisant des indices visuels supplémentaires provenant des images pour améliorer les résultats de détection, que ce soit quand il n'y a pas d'images normales ou juste quelques-unes.

Dans des tests utilisant des ensembles de données standards, FADE a montré de meilleurs résultats que les méthodes existantes pour identifier et localiser des anomalies dans les images.

Détection Guidée par Langage et Vision

FADE peut utiliser le langage pour guider la détection en créant des invites qui décrivent à quoi pourrait ressembler un objet normal et une anomalie. Par exemple, au lieu de dire juste "endommagé", une invite pourrait spécifier "une surface rayée". Cette précision aide le modèle à comprendre ce qu'il doit chercher. Le modèle compare les caractéristiques de l'image avec ces invites pour voir à quel point elles correspondent.

D'un autre côté, la détection guidée par vision compare des morceaux d'images, à la fois normales et suspectes. En analysant les motifs visuels, le modèle peut identifier des incohérences qui pourraient indiquer des problèmes.

Améliorations dans la Segmentation des Anomalies

Un des principaux objectifs de FADE est d'améliorer la segmentation, qui localise les endroits exacts des anomalies dans les images. L'approche utilise une technique appelée Grounding Everything Module (GEM), qui aligne mieux les caractéristiques visuelles avec les descriptions en langage par rapport aux méthodes traditionnelles. En regroupant efficacement des pixels similaires, le modèle améliore sa capacité à repérer des problèmes.

Au-delà de ça, FADE utilise aussi une analyse multi-échelle. Ça veut dire qu'il regarde les images sous différentes tailles, ce qui le rend plus capable de détecter des anomalies de différentes dimensions. Du coup, que l'anomalie soit grande ou petite, FADE est conçu pour l'identifier.

Utilisation de ChatGPT pour la Génération d'Invites

Pour encore mieux trouver des problèmes, FADE utilise ChatGPT, un grand modèle de langage. Au lieu de créer manuellement des invites, ce qui peut prendre du temps, FADE génère automatiquement une grande variété de textes. Ça aide à capturer précisément des anomalies spécifiques, s'assurant que le modèle est bien informé sur ce qu'il doit chercher.

Le Cadre Few-Shot

Dans les scénarios où il n'y a qu'un petit nombre d'images normales disponibles, FADE peut quand même bien fonctionner. Il construit une banque de mémoire des caractéristiques d'images à partir des images normales disponibles. En comparant ces caractéristiques avec celles de l'image requête, le modèle peut identifier des anomalies potentielles. Cette approche permet à FADE de fonctionner efficacement, même dans des conditions limitées.

Évaluation de la Performance

FADE a été testé contre d'autres méthodes de pointe, montrant des résultats compétitifs sur diverses métriques. Dans des scénarios où les images normales sont rares, FADE a montré des améliorations significatives. Ces résultats sont particulièrement notables sur des ensembles de données plus difficiles, soulignant la robustesse et la fiabilité de FADE par rapport aux méthodes traditionnelles.

Résumé des Contributions

FADE s'attaque à plusieurs problèmes liés à la détection d'anomalies. Il combine des approches guidées par le langage et par la vision, améliorant les capacités globales de détection. Les améliorations impliquent l'utilisation d'embeddings mieux alignés, la génération automatique d'invites diverses, et l'emploi d'analyses multi-échelles. Ces contributions conduisent à de meilleures performances dans l'identification des anomalies dans les images, en faisant un outil précieux dans le contrôle de qualité en fabrication.

Directions Futures

Il y a encore beaucoup à explorer dans le domaine de la détection d'anomalies. Bien que FADE ait montré des résultats prometteurs, certaines zones nécessitent une investigation plus poussée. Par exemple, la génération automatique d'invites peut être parfois incohérente. Comprendre comment différentes invites affectent les performances serait utile. De plus, il faut rechercher comment utiliser de manière optimale différents types d'embeddings dans diverses conditions.

Un autre domaine à explorer est l'expansion des méthodes de détection guidées par vision, surtout dans les images où les morceaux peuvent varier considérablement en apparence. Trouver de nouvelles façons de s'attaquer à ces défis peut mener à de meilleurs résultats de détection.

Conclusion

FADE représente une avancée significative dans le domaine de la détection d'anomalies pour la fabrication. En utilisant efficacement le guidage par le langage et la vision, il améliore la capacité à repérer des défauts dans les images même quand les données sont limitées. La combinaison de techniques avancées et de modèles fondations offre de belles perspectives pour améliorer les processus de contrôle qualité dans diverses industries.

Source originale

Titre: FADE: Few-shot/zero-shot Anomaly Detection Engine using Large Vision-Language Model

Résumé: Automatic image anomaly detection is important for quality inspection in the manufacturing industry. The usual unsupervised anomaly detection approach is to train a model for each object class using a dataset of normal samples. However, a more realistic problem is zero-/few-shot anomaly detection where zero or only a few normal samples are available. This makes the training of object-specific models challenging. Recently, large foundation vision-language models have shown strong zero-shot performance in various downstream tasks. While these models have learned complex relationships between vision and language, they are not specifically designed for the tasks of anomaly detection. In this paper, we propose the Few-shot/zero-shot Anomaly Detection Engine (FADE) which leverages the vision-language CLIP model and adjusts it for the purpose of industrial anomaly detection. Specifically, we improve language-guided anomaly segmentation 1) by adapting CLIP to extract multi-scale image patch embeddings that are better aligned with language and 2) by automatically generating an ensemble of text prompts related to industrial anomaly detection. 3) We use additional vision-based guidance from the query and reference images to further improve both zero-shot and few-shot anomaly detection. On the MVTec-AD (and VisA) dataset, FADE outperforms other state-of-the-art methods in anomaly segmentation with pixel-AUROC of 89.6% (91.5%) in zero-shot and 95.4% (97.5%) in 1-normal-shot. Code is available at https://github.com/BMVC-FADE/BMVC-FADE.

Auteurs: Yuanwei Li, Elizaveta Ivanova, Martins Bruveris

Dernière mise à jour: Aug 31, 2024

Langue: English

Source URL: https://arxiv.org/abs/2409.00556

Source PDF: https://arxiv.org/pdf/2409.00556

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires