Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Faire avancer la détection des défauts avec le prompting visuel

Une nouvelle méthode pour améliorer la précision de détection des défauts industriels.

― 8 min lire


Améliorer la précision deAméliorer la précision dela détection des défautsindustriels.dans la prévision des défautsUne nouvelle méthode réduit les erreurs
Table des matières

Dans le monde de la détection des défauts industriels, la plupart des systèmes dépendent de l'apprentissage supervisé. Ça veut dire qu'ils sont entraînés à reconnaître des types spécifiques de défauts en utilisant un ensemble d'images étiquetées. Ces modèles fonctionnent bien quand ils savent à quoi s'attendre, mais ils galèrent quand ils tombent sur des défauts nouveaux ou différents. Ça mène à un besoin constant de mises à jour et de réentraînements, ce qui peut être long et coûteux.

Des développements récents en machine learning ont introduit une méthode appelée "visual prompting". Cette technique permet aux modèles de comprendre et de classer les défauts en se basant sur des indices visuels au lieu d'être strictement liés à des catégories prédéfinies. En utilisant des images comme indices pendant le processus de décision, les modèles peuvent s'adapter aux nouveaux défauts de manière plus flexible.

Le défi de l’excès de confiance

Un gros défi avec le visual prompting, c'est que les modèles deviennent souvent trop confiants dans leurs prédictions. Ça veut dire qu'ils pourraient mal étiqueter des objets inconnus comme des défauts connus avec une grande certitude. Cet excès de confiance peut entraîner des erreurs et des malclassifications, ce qui est vraiment problématique dans les environnements industriels où la précision est cruciale.

Pour résoudre ce problème, il est important d'évaluer à quel point un modèle est vraiment confiant dans ses prédictions. Faire ça nous permet d'identifier les situations où le modèle pourrait faire des erreurs ou où il est moins fiable.

Notre solution proposée

Pour aborder le problème de l'excès de confiance, on propose une méthode qui estime l'incertitude dans le processus de visual prompting. L'idée clé est de vérifier si le modèle peut correctement restaurer les indices originaux à partir de ses prédictions. Essentiellement, si le modèle est sûr et précis dans ses décisions, il devrait être capable de revenir en arrière et de recréer les indices initiaux correctement.

On mesure à quel point le modèle fait ça en utilisant un indice appelé le mIoU (mean Intersection over Union). Cet indice nous aide à comparer les résultats prédits avec les indices originaux pour voir à quel point ils correspondent.

En se concentrant sur ce cycle de vérification et de restauration des indices, on peut évaluer efficacement la fiabilité des prédictions du modèle. Cette estimation de la confiance peut aider à réduire les erreurs et à améliorer la performance du modèle, surtout dans les environnements industriels où de nouveaux défauts surviennent souvent.

Le rôle des méthodes de référence

Pour évaluer notre approche, on a utilisé une méthode de référence connue sous le nom de Dinov, qui est basée sur une structure encodeur-décodeur. Cette méthode aide à traiter les images et à faire des prédictions. La méthode de référence implique d'encoder les indices visuels à partir d'images de référence et d'utiliser ensuite un décodeur partagé pour interpréter ces indices dans le contexte de nouvelles images.

Cependant, une des limites de Dinov est qu'il peut devenir biaisé envers les défauts qu'il a déjà vus. Ça peut nuire à sa capacité à gérer efficacement de nouveaux défauts. En employant notre méthode de cycle de consistance, on peut aider le modèle à être plus fiable, en réduisant les biais et en améliorant son adaptabilité dans des scénarios réels.

Comment notre méthode fonctionne

Notre méthode se compose de deux phases principales : la phase avant et la phase arrière.

Phase avant

Dans la phase avant, on commence avec une image support et son masque d'indice correspondant. On a aussi une image de requête que l'on veut analyser. Le but ici est de déterminer quelles parties de l'image de requête correspondent à l'indice de l'image support. Ce processus aboutit à une carte de masque, qui indique les régions détectées dans l'image de requête.

Phase arrière

Dans la phase arrière, on prend la sortie de la phase avant - spécifiquement, l'image de requête et son masque généré - et on les traite comme la nouvelle image support et le nouveau masque. L'image support originale devient la nouvelle image de requête. Cette étape nous permet de vérifier si on peut restaurer correctement le masque original.

En comparant le masque original avec le masque généré dans la phase arrière, on peut évaluer la fiabilité du modèle. Si le masque restauré correspond de près à l'original, ça indique que le modèle fait des prédictions sans biais.

Techniques de traitement d'images

Pour améliorer la précision de prédiction de notre modèle, on utilise un puissant extracteur de caractéristiques d'image appelé Swin-L. Cette architecture a des poids pré-entraînés provenant de grands ensembles de données, ce qui lui permet d'analyser les images efficacement.

De plus, on applique diverses techniques d'augmentation des données. Ces méthodes sont cruciales dans les contextes d'inspection industrielle car elles aident à gérer les variations d'éclairage tout en gardant les changements de couleur minimes. On ajuste la luminosité, le contraste et la saturation des images et on effectue des flips horizontaux pendant l'entraînement pour renforcer la robustesse du modèle.

Approche à modèle unique

Beaucoup de concurrents dans le domaine comptent sur l'utilisation de plusieurs modèles pour booster la performance. Cependant, en raison de limites de ressources, on a décidé de se concentrer sur le perfectionnement d'un seul modèle de visual prompting. Notre stratégie met l'accent sur l'estimation des scores de confiance pour déterminer à quel point les prédictions sont fiables, plutôt que de construire plusieurs modèles.

Évaluation de la méthode

Pour valider notre approche, on l'a testée sur le dataset d'inspection industrielle VISION24, qui comprend des milliers d'images. Ce dataset inclut diverses catégories de produits, chacune avec des types de défauts connus et inconnus. Notre évaluation a pris en compte deux aspects critiques : le taux de succès des paires positives et le taux de rendement des paires négatives.

Une paire positive est considérée comme un succès si le masque prédit correspond bien à la vérité de terrain. Pour les paires négatives, on considère que c'est un bon rendement si le taux de réponse du modèle est en dessous d'un certain seuil.

Insights de mise en œuvre

Notre ensemble d'entraînement comprend cinq catégories, y compris Cable, Cylinder et PCB, chacune ayant différents défauts. Par exemple, la catégorie Cable contient des défauts comme l'éclair et le déchiré. Bien qu'ils appartiennent à la même catégorie principale, on a traité chaque type de défaut comme une classe indépendante, ce qui donne un total de 12 classes.

L'entraînement a impliqué le redimensionnement des images et l'utilisation des mêmes techniques d'augmentation des données mentionnées précédemment. Le réseau Dinov a été entraîné pendant 20 000 itérations sur 8 GPU avec une taille de lot spécifique, en utilisant l'optimiseur AdamW.

Quand le Score de confiance du modèle était au-dessus d'une certaine valeur, on acceptait le masque prédit ; s'il était plus bas, on le marquait comme peu fiable.

Résultats et constatations

Notre méthode a atteint un taux de rendement louable, indiquant son efficacité sans avoir besoin de conceptions de réseau spécialisées ou de techniques d'ensemble complexes. On a observé une réduction significative des faux positifs grâce à notre approche de cycle de consistance.

De plus, les évaluations qualitatives ont révélé des cas où notre modèle restaurait avec précision le masque support à travers les deux phases. Dans les cas où les prédictions étaient précises, notre modèle a montré de bons scores mIoU, confirmant sa capacité à s'adapter avec succès à de nouveaux types de défauts.

Inversement, dans les cas avec des scores mIoU plus bas, le modèle a correctement identifié ses faiblesses et évité d'accepter des prédictions biaisées. Cette capacité à discerner entre prédictions précises et peu fiables est essentielle dans les environnements industriels, où maintenir une haute précision est primordial.

Conclusion

La méthode que nous proposons représente un grand pas en avant dans la détection des défauts industriels. En intégrant le visual prompting avec l'estimation d'incertitude de cycle de consistance, notre approche réduit efficacement les risques liés à l'excès de confiance. En s'assurant que les modèles peuvent restaurer de manière fiable les indices originaux, on améliore leur adaptabilité à de nouveaux types de défauts tout en minimisant les erreurs.

Alors qu'on continue à affiner nos techniques et à explorer comment améliorer encore la performance, il est clair que cette approche innovante peut bénéficier de manière significative aux industries qui sont régulièrement confrontées à de nouveaux défis imprévus. À mesure que la technologie avance, on peut s'attendre à des solutions encore plus efficaces pour gérer les défauts dans divers domaines industriels.

Source originale

Titre: Cycle-Consistency Uncertainty Estimation for Visual Prompting based One-Shot Defect Segmentation

Résumé: Industrial defect detection traditionally relies on supervised learning models trained on fixed datasets of known defect types. While effective within a closed set, these models struggle with new, unseen defects, necessitating frequent re-labeling and re-training. Recent advances in visual prompting offer a solution by allowing models to adaptively infer novel categories based on provided visual cues. However, a prevalent issue in these methods is the over-confdence problem, where models can mis-classify unknown objects as known objects with high certainty. To addresssing the fundamental concerns about the adaptability, we propose a solution to estimate uncertainty of the visual prompting process by cycle-consistency. We designed to check whether it can accurately restore the original prompt from its predictions. To quantify this, we measure the mean Intersection over Union (mIoU) between the restored prompt mask and the originally provided prompt mask. Without using complex designs or ensemble methods with multiple networks, our approach achieved a yield rate of 0.9175 in the VISION24 one-shot industrial challenge.

Auteurs: Geonuk Kim

Dernière mise à jour: Sep 20, 2024

Langue: English

Source URL: https://arxiv.org/abs/2409.13984

Source PDF: https://arxiv.org/pdf/2409.13984

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires