Améliorer la robustesse des DNN avec un flou rétinien
Des recherches montrent que reproduire la vision humaine peut renforcer les réseaux de neurones profonds contre les attaques.
― 8 min lire
Table des matières
Les réseaux de neurones profonds (DNN) sont super populaires en vision par ordinateur. Ils sont vraiment bons pour des trucs comme la reconnaissance d'objets dans les images. Mais ils ont un gros souci : ils peuvent se faire avoir par de petits changements d'images que même les gens remarquent pas. Ces changements, on les appelle des Attaques adversariales. Ça soulève la question de savoir si on peut vraiment faire confiance aux DNN dans des situations réelles.
Pour mieux comprendre ça, des chercheurs ont étudié comment fonctionne la vision humaine. Les humains sont bons pour reconnaître des objets même quand tout est flou ou pas très clair. En fait, notre vision périphérique (la zone en dehors de notre point de focus) manque de détails, mais on arrive quand même à reconnaître des objets en utilisant des caractéristiques de haut niveau.
Dans cet article, on va explorer une méthode qui imite cet aspect de la vision humaine pour rendre les DNN plus résistants à ces attaques. En floutant les images et en réduisant leur saturation de couleur, on espère entraîner des DNN qui gèrent mieux les attaques adversariales et les corruptions d'images courantes.
L'Importance de la Vision Humaine
La vision humaine fonctionne d'une manière qui diffère beaucoup des DNN. Tandis que les DNN voient chaque partie d'une image en détail, les humains se concentrent surtout sur une petite zone en détail, qu'on appelle la fovea. Le reste de notre champ visuel est perçu avec moins de clarté. Cette façon unique de voir nous aide à comprendre des objets même quand ils ne sont pas parfaitement clairs.
Pour entraîner de meilleurs DNN, on a regardé comment la vision périphérique affecte notre capacité à reconnaître des objets. Les humains voient moins bien quand ils détournent leur regard, ce qui peut nous aider à ignorer de petits changements qui pourraient embrouiller un DNN. On pense qu'entraîner les DNN d'une manière qui imite cet aspect de la vision humaine pourrait améliorer leur robustesse.
Méthode Proposée : Flou Rétinien
On a développé une technique appelée Flou Rétinien pour simuler la façon dont les humains perçoivent les images. Cette méthode modifie les images en appliquant un Bruit Gaussien, puis en floutant et en réduisant la couleur d'une manière qui reflète le système visuel humain. Le flou et la désaturation sont appliqués différemment selon la distance d'un pixel par rapport au point de fixation (le centre de focus). Ça permet au modèle d'apprendre à partir d'images qui ressemblent à ce que les humains voient réellement.
Le processus fonctionne comme suit :
- Ajout de Bruit : On commence par ajouter du bruit gaussien à l'image originale pour imiter les réponses imprévisibles des capteurs biologiques dans nos yeux.
- Copies d'Image : On crée des copies en couleur et en niveaux de gris de l'image.
- Estimation de l'Acuité Visuelle : On calcule à quel point chaque zone de l'image peut être vue selon sa distance du point de fixation. Les zones plus éloignées sont vues avec moins de clarté.
- Flou et Combinaison : On applique un flou gaussien selon les niveaux d'acuité estimés et on combine les images floutées pour créer une image finale qui reflète comment les humains la verraient.
Mise en Place de l'Expérience
Données et Entraînement du Modèle
On a testé notre méthode en utilisant des ensembles de données d'images populaires, comme CIFAR-10 et ImageNet, pour voir à quel point les DNN entraînés avec le Flou Rétinien performent par rapport aux méthodes d'entraînement standard. On a entraîné divers modèles, dont ResNet, avec notre méthode et des méthodes traditionnelles.
Les répartitions des ensembles de données pour l'entraînement, la validation et les tests étaient prédéfinies pour assurer un test équitable de la précision du modèle.
Méthode d'Évaluation
On s'est concentré sur le test de la capacité des modèles à reconnaître des objets face à des attaques adversariales et d'autres distorsions d'images courantes. On a mesuré la précision des modèles dans ces conditions pour voir comment le Flou Rétinien améliorait leur robustesse.
Résultats
Résistance Améliorée aux Attaques Adversariales
Nos résultats ont montré que les DNN entraînés avec le Flou Rétinien surclassaient significativement ceux entraînés avec des techniques standards face à des attaques adversariales. Par exemple, nos modèles ont montré une augmentation de précision de 12 à 25 points de pourcentage sur des images perturbées par des changements adversariaux.
En particulier, on a noté que les niveaux de précision restaient élevés même quand l'intensité des attaques augmentait. Ça contraste fortement avec les modèles standard, qui perdaient rapidement en précision dans des conditions similaires.
Performance Contre les Corruptions d'Images Courantes
Non seulement nos modèles géraient mieux les attaques adversariales, mais ils performaient aussi bien contre des corruptions d'images courantes comme le flou, le bruit, et diverses distorsions. Ils ont atteint une précision globale plus élevée par rapport à ceux entraînés sans notre méthode, prouvant que les avantages du Flou Rétinien vont au-delà des scénarios adversariaux.
Étude d'Ablation
Pour comprendre quels aspects du Flou Rétinien contribuaient le plus à l'amélioration de la performance, on a réalisé une étude d'ablation. On a analysé comment divers composants de notre méthode, comme l'ajout de bruit, le flou adaptatif, et la désaturation des couleurs, ont impacté la robustesse globale.
Les résultats ont montré que l'ajout de bruit pendant l'entraînement était le facteur le plus significatif, suivi par le flou adaptatif. Étonnamment, quand on a essayé d'utiliser un flou standard au lieu du flou adaptatif, les modèles ont montré de légères améliorations en robustesse mais avaient une précision inférieure sur des images nettes, ce qui souligne l'importance d'implémenter le flou d'une manière qui reflète le traitement visuel humain.
Exploration des Points de Fixation
En mettant en œuvre le Flou Rétinien, on a aussi exploré comment le choix des points de fixation affectait la précision. Au lieu d'utiliser toujours le centre d'une image pour l'analyse, on a permis au modèle de sélectionner des points selon où les humains sont susceptibles de se concentrer.
Cette approche a conduit à des améliorations notables de la précision pour les images nettes et celles perturbées par adversaire. Les modèles se sont avérés plus efficaces pour classifier les images lorsque des points de fixation optimaux étaient choisis, soutenant encore plus l'idée que modéliser le traitement visuel semblable à celui des humains peut améliorer la performance des DNN.
Test avec Différentes Architectures
On voulait aussi voir si notre méthode fonctionnerait avec différents types de modèles. On a entraîné d'autres architectures, comme MLP-Mixer et ViT, avec le Flou Rétinien pour évaluer leur robustesse face aux attaques adversariales. Les résultats ont confirmé que les bénéfices du Flou Rétinien n'étaient pas limités à un seul type de modèle. En fait, les architectures qui ont utilisé notre méthode ont montré des améliorations significatives même à des niveaux d'attaques plus élevés.
Conclusion
Notre exploration du Flou Rétinien a montré son potentiel pour améliorer la robustesse des DNN face aux attaques adversariales et aux corruptions d'images courantes. En simulant comment les humains perçoivent les images, on peut créer des modèles qui sont mieux à même de gérer des changements inattendus.
Cette recherche pourrait ouvrir la voie à des systèmes de vision par ordinateur plus fiables qui peuvent être dignes de confiance dans des applications réelles. De futures études pourraient se concentrer sur le perfectionnement des techniques de sélection de fixation et l'extension de l'application du Flou Rétinien à des tâches visuelles encore plus complexes.
Directions Futures
Il y a plein de pistes de recherche à explorer. Par exemple, optimiser les algorithmes de sélection de points de fixation pourrait encore améliorer la précision sur des images nettes. Explorer l'application du Flou Rétinien dans d'autres domaines de l'IA en dehors de la reconnaissance d'images pourrait aussi donner des résultats intéressants.
De plus, comprendre les facteurs biologiques qui contribuent à la robustesse de la vision humaine pourrait inspirer encore plus de techniques pour améliorer les DNN. Au final, l'objectif est de développer des modèles qui sont aussi fiables et capables que la perception humaine pour reconnaître et interpréter les informations visuelles.
Titre: Training on Foveated Images Improves Robustness to Adversarial Attacks
Résumé: Deep neural networks (DNNs) have been shown to be vulnerable to adversarial attacks -- subtle, perceptually indistinguishable perturbations of inputs that change the response of the model. In the context of vision, we hypothesize that an important contributor to the robustness of human visual perception is constant exposure to low-fidelity visual stimuli in our peripheral vision. To investigate this hypothesis, we develop \RBlur, an image transform that simulates the loss in fidelity of peripheral vision by blurring the image and reducing its color saturation based on the distance from a given fixation point. We show that compared to DNNs trained on the original images, DNNs trained on images transformed by \RBlur are substantially more robust to adversarial attacks, as well as other, non-adversarial, corruptions, achieving up to 25\% higher accuracy on perturbed data.
Auteurs: Muhammad A. Shah, Bhiksha Raj
Dernière mise à jour: 2023-08-01 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.00854
Source PDF: https://arxiv.org/pdf/2308.00854
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.