Avancées dans la défense des classificateurs d'images contre les attaques adversariales
Une nouvelle méthode d'entraînement améliore la résistance des classificateurs d'images aux patchs trompeurs.
― 7 min lire
Table des matières
Les classificateurs d'images, ce sont des programmes informatiques qui peuvent automatiquement étiqueter des images en fonction de leur contenu. On les utilise souvent dans plein d'applications, comme l'organisation de photos en ligne, les voitures autonomes et les systèmes de sécurité. Mais parfois, ils peuvent être piégés par des images soigneusement conçues, appelées "patchs adversariaux". Ces patchs sont de petites modifications apportées à une image qui amènent le classificateur à se tromper.
Pour se protéger contre ces patchs trompeurs, des chercheurs ont créé des méthodes pour améliorer la fiabilité des classificateurs d'images. Une de ces méthodes s'appelle la défense certifiée, qui permet aux classificateurs de faire des prédictions correctes même en présence de patchs adversariaux. Cet article parle d'une nouvelle approche de la défense certifiée, en se concentrant sur la manière de former les classificateurs d'images pour qu'ils soient plus robustes face aux attaques adversariales.
Comprendre les Patchs Adversariaux
Les patchs adversariaux sont de petites zones d'une image modifiées pour embrouiller le classificateur. Par exemple, si le classificateur est formé pour reconnaître les chats, un petit autocollant sur l'image d'un chat pourrait le faire penser que c'est un chien. Le problème, c'est que ces patchs peuvent être ajoutés dans le monde réel, ce qui rend plus facile de tromper le système par rapport à d'autres types de modifications d'images.
Pour contrer ces problèmes, les chercheurs ont développé différentes stratégies. Les principales catégories de défenses incluent les défenses empiriques, basées sur des méthodes d'entraînement classiques, et les Défenses certifiées, qui garantissent des prédictions correctes quel que soit le patch adversarial.
La Méthode de Défense PatchCleanser
Une des méthodes de défense certifiée les plus avancées s'appelle PatchCleanser. Cette méthode utilise une stratégie de masquage en deux étapes. D'abord, elle couvre des parties de l'image avec des masques pour cacher les patchs adversariaux potentiels. Puis, le classificateur regarde les images masquées et fait des prédictions. Si toutes les versions masquées sont d'accord sur une prédiction, le résultat est jugé fiable.
Bien que PatchCleanser ait montré de bons résultats, son succès dépend de la façon dont le classificateur peut gérer les images masquées. Si les masques cachent complètement une partie importante de l'image, il devient plus difficile pour le classificateur de faire une prédiction précise. Donc, améliorer la capacité du classificateur à travailler avec ces masques est crucial.
Améliorer les Méthodes d'Entraînement
Pour renforcer la robustesse des classificateurs, une nouvelle méthode d'entraînement a été proposée. Au lieu de masquer les images au hasard comme dans PatchCleanser, cette méthode se concentre sur l'utilisation des images masquées les plus difficiles pour l'entraînement. L'idée est de trouver quels masques causent le plus d'erreurs de prédiction et de former le classificateur avec ces exemples. Ce processus s'appelle l'approche "Greedy Cutout".
Trouver ces images difficiles peut être compliqué et prendre beaucoup de temps. Donc, une stratégie plus efficace est nécessaire. La méthode Greedy Cutout simplifie le processus en ne cherchant que les pires cas de masques plutôt qu'en évaluant chaque option possible. Cela se fait en deux rounds, ce qui permet au classificateur d'apprendre des cas les plus difficiles sans exigence computationnelle excessive.
Approche Greedy Cutout Expliquée
La méthode Greedy Cutout fonctionne d'abord en appliquant des masques plus grands aux images, puis en resserrant la recherche de masques plus petits qui entraînent des erreurs élevées. Dans le premier round, le classificateur est testé avec de plus grands masques pour identifier les zones qui causent de la confusion. Dans le deuxième round, des masques plus petits sont utilisés en fonction des résultats du premier round, en se concentrant sur ces zones problématiques.
Ce processus en deux étapes réduit le nombre d'évaluations nécessaires, ce qui le rend beaucoup plus faisable à mettre en œuvre pendant l'entraînement. En utilisant ces masques ciblés pour l'entraînement, le classificateur devient plus efficace pour résister aux patchs adversariaux.
Mise en Place Expérimentale
Lors des expériences, cinq ensembles de données d'images différents ont été utilisés. Ces ensembles de données comprennent un mélange d'images haute et basse résolution :
ImageNet : Ce dataset contient plus d'un million d'images dans un large éventail de catégories, ce qui en fait une référence standard pour les tâches de classification d'images.
ImageNette : Un sous-ensemble plus petit d'ImageNet, avec 10 classes et moins d'images, ce qui facilite l'entraînement et l'évaluation des modèles rapidement.
CIFAR-10 : Un dataset bien connu avec des images basse résolution, contenant 60 000 images réparties sur 10 classes.
CIFAR-100 : Semblable à CIFAR-10, ce dataset inclut 100 classes avec moins d'images par classe.
SVHN : Ce dataset se compose d'images de numéros de maison, utilisé principalement pour des tâches de classification de chiffres.
Les classificateurs testés provenaient de trois types d'architectures différents : ResNet, Vision Transformers (ViT) et ConvNeXt. Ces architectures représentent diverses approches de l'apprentissage profond, chacune ayant ses forces dans le traitement des images.
Résultats de l'Expérience
L’efficacité de la méthode Greedy Cutout a été comparée à d'autres stratégies de masquage. Les résultats ont montré que les classificateurs entraînés avec cette nouvelle méthode avaient de meilleures performances que ceux formés avec des techniques de masquage aléatoires. L'amélioration de la précision certifiée indique que le modèle pouvait faire des prédictions correctes même en présence de patchs adversariaux.
Par exemple, en utilisant le modèle ViT-B16-224, la précision certifiée sur le dataset ImageNet a augmenté de manière significative. Cela montre qu'en adaptant le processus d'entraînement, les classificateurs sont devenus plus résistants aux attaques. Les résultats suggèrent que la stratégie Greedy Cutout est une approche prometteuse pour améliorer la fiabilité des classificateurs d'images face aux patchs adversariaux.
Conclusion
Dans la lutte contre les patchs adversariaux, améliorer les stratégies d'entraînement pour les classificateurs d'images est essentiel. L'approche Greedy Cutout représente un progrès significatif dans le renforcement des défenses certifiées. En se concentrant sur les images masquées les plus difficiles pour l'entraînement, les classificateurs peuvent développer une meilleure capacité à résister aux patchs trompeurs.
Cette recherche a montré que l'utilisation de méthodes d'entraînement ciblées améliore grandement la robustesse certifiée. Les résultats sont prometteurs pour de futurs travaux pour rendre les classificateurs d'images plus fiables et efficaces dans des applications réelles. Alors que les attaques adversariales deviennent plus sophistiquées, développer des défenses robustes comme Greedy Cutout sera crucial pour maintenir l'exactitude et la fiabilité des systèmes automatisés.
En résumé, le travail réalisé dans ce domaine met en avant l'importance d'une amélioration continue des stratégies de formation et de défense. Cela ouvre la voie à de nouvelles avancées en intelligence artificielle, assurant que les classificateurs d'images peuvent faire face aux défis posés par les attaques adversariales.
Titre: Revisiting Image Classifier Training for Improved Certified Robust Defense against Adversarial Patches
Résumé: Certifiably robust defenses against adversarial patches for image classifiers ensure correct prediction against any changes to a constrained neighborhood of pixels. PatchCleanser arXiv:2108.09135 [cs.CV], the state-of-the-art certified defense, uses a double-masking strategy for robust classification. The success of this strategy relies heavily on the model's invariance to image pixel masking. In this paper, we take a closer look at model training schemes to improve this invariance. Instead of using Random Cutout arXiv:1708.04552v2 [cs.CV] augmentations like PatchCleanser, we introduce the notion of worst-case masking, i.e., selecting masked images which maximize classification loss. However, finding worst-case masks requires an exhaustive search, which might be prohibitively expensive to do on-the-fly during training. To solve this problem, we propose a two-round greedy masking strategy (Greedy Cutout) which finds an approximate worst-case mask location with much less compute. We show that the models trained with our Greedy Cutout improves certified robust accuracy over Random Cutout in PatchCleanser across a range of datasets and architectures. Certified robust accuracy on ImageNet with a ViT-B16-224 model increases from 58.1\% to 62.3\% against a 3\% square patch applied anywhere on the image.
Auteurs: Aniruddha Saha, Shuhua Yu, Arash Norouzzadeh, Wan-Yi Lin, Chaithanya Kumar Mummadi
Dernière mise à jour: 2023-06-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.12610
Source PDF: https://arxiv.org/pdf/2306.12610
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.