Une approche discrète des attaques par porte dérobée
Introduction des techniques d'attaque low-pass pour contourner les défenses des réseaux de neurones.
― 8 min lire
Table des matières
- Méthodes actuelles d'attaque par porte dérobée
- La nouvelle méthode d'attaque
- Mode précision
- Évaluation de l'attaque
- Contexte des attaques par porte dérobée
- Mécanismes de défense
- Configuration de l'expérience
- Résultats de l'évaluation
- Comparaison avec d'autres méthodes
- Conclusion
- Source originale
- Liens de référence
Les réseaux de neurones profonds (DNN) sont des outils super populaires dans plein de domaines comme la reconnaissance faciale et vocale, les jeux, et les voitures autonomes. Ils peuvent apprendre à partir de grandes quantités de données et réaliser des tâches qui nécessitent de l'intelligence. Par contre, ils ont aussi des faiblesses que les attaquants peuvent exploiter. Une de ces vulnérabilités s'appelle une Attaque par porte dérobée.
Une attaque par porte dérobée permet à quelqu'un de cacher un commandement secret, ou "porte dérobée," dans un DNN. Cette porte dérobée peut passer inaperçue jusqu'à ce qu'elle soit déclenchée par une certaine entrée. Quand ça arrive, le DNN va donner des résultats incorrects pour certaines entrées tout en continuant à fonctionner normalement pour d'autres. Ça peut poser de gros problèmes de sécurité, surtout dans des applications où la confiance et la précision sont essentielles.
Méthodes actuelles d'attaque par porte dérobée
La plupart des attaques par porte dérobée actuelles fonctionnent en modifiant légèrement des images. Par exemple, un attaquant peut ajouter des patchs visibles ou déformer l'image avec du bruit. Malheureusement, ces changements peuvent être détectés assez facilement par des systèmes de sécurité conçus pour chercher de telles altérations.
Cet article présente une nouvelle approche d'attaques par porte dérobée qui fonctionne d'une manière plus subtile. Au lieu de s'appuyer sur des changements visibles dans l'image, cette méthode opère dans le domaine fréquentiel de l'image, ce qui la rend plus difficile à remarquer.
La nouvelle méthode d'attaque
On propose une nouvelle méthode d'attaque appelée "attaque passe-bas." Cette technique utilise un filtre passe-bas, qui ne laisse passer que les informations de basse fréquence tout en bloquant les composants de haute fréquence. Quand on l'applique à une image, ce filtre préserve le contenu principal de l'image mais enlève les détails qui sont moins visibles.
En se concentrant sur le domaine fréquentiel, cette méthode peut créer des images empoisonnées qui semblent presque identiques aux originales. Le but est d'échapper à la détection mieux que les méthodes traditionnelles.
Mode précision
En plus de la technique d'attaque passe-bas, on introduit une fonctionnalité appelée "mode précision." Ce mode assure que la porte dérobée ne s'active que dans des conditions spécifiques. Au lieu de pouvoir déclencher la porte dérobée avec une gamme d'entrées similaires, elle ne répondra qu'à une entrée exacte définie par l'attaquant. Ça rend plus difficile la détection de la porte dérobée puisqu'elle ne s'active que lorsque des conditions très spécifiques sont remplies.
Évaluation de l'attaque
On a testé notre attaque passe-bas sur plusieurs ensembles de données populaires, y compris MNIST, CIFAR-10, GTSRB, et CelebA. Les résultats ont montré qu'avec même une petite quantité de données empoisonnées, notre méthode a pu réaliser des attaques par porte dérobée furtives sans compromettre les performances.
L'attaque a réussi à contourner plusieurs mesures de sécurité avancées généralement utilisées contre les attaques par porte dérobée. De plus, les images empoisonnées produites par notre méthode étaient presque indiscernables des images originales et conservaient une haute qualité visuelle.
Contexte des attaques par porte dérobée
Les attaques par porte dérobée sur les réseaux de neurones existent depuis 2017. Les premiers travaux dans ce domaine ont introduit des déclencheurs simples qui pouvaient être ajoutés aux images pour faire en sorte que le modèle les classifie mal. Avec le temps, les chercheurs ont développé des méthodes plus avancées qui permettaient des mécanismes de déclenchement plus subtils.
Par exemple, certaines techniques utilisent des motifs ou des formes spécifiques dans une image pour créer des portes dérobées. D'autres explorent des moyens plus dynamiques et adaptatifs d'implémenter des portes dérobées qui peuvent survivre aux mises à jour et aux transferts de modèles.
Mécanismes de défense
Alors que la menace des attaques par porte dérobée est devenue plus reconnue, les chercheurs ont aussi mis l'accent sur des moyens de s'en défendre. Certaines méthodes visent à détecter et à enlever les portes dérobées potentielles en identifiant des motifs inhabituels dans le comportement du modèle. D'autres approches consistent à modifier les méthodes d'entraînement pour rendre plus difficile l'implantation des portes dérobées en premier lieu.
Une méthode de défense courante est appelée élagage, où des parties potentiellement dangereuses ou inutiles du modèle sont retirées pour éliminer les portes dérobées. Une autre méthode consiste à tester des entrées et à évaluer leurs sorties pour déterminer si des déclencheurs de porte dérobée pourraient être présents.
Malgré ces avancées dans la technologie de défense, notre attaque passe-bas a pu échapper à la détection par plusieurs mécanismes de défense populaires. Cela démontre l'efficacité et la furtivité de la méthode proposée.
Configuration de l'expérience
Dans nos expériences, on a soigneusement sélectionné et préparé des images des ensembles de données mentionnés précédemment. Chaque image a été passée à travers le filtre passe-bas pour créer une version empoisonnée, qui a ensuite été utilisée pour entraîner le DNN.
On a suivi deux métriques importantes tout en évaluant nos attaques :
Précision des échantillons propres (CSA) : Cela mesure à quel point le modèle prédit avec précision des échantillons de test normaux qui ne contiennent pas de déclencheurs.
Taux de succès de l'attaque (ASR) : Cela mesure à quel point le modèle prédit avec succès la cible de l'attaquant en utilisant des entrées empoisonnées.
En comparant ces métriques, on pouvait évaluer l'efficacité et la furtivité de notre attaque passe-bas.
Résultats de l'évaluation
Nos résultats montrent qu'avec l'attaque passe-bas, le taux de succès de l'attaque est resté élevé pendant que la précision des échantillons propres est restée relativement constante. Cela indique que les images empoisonnées n'ont pas significativement entravé les performances globales du modèle.
De plus, l'attaque passe-bas a réussi à maintenir une haute qualité d'image par rapport à d'autres méthodes. Ça veut dire que les images empoisonnées avaient l'air très similaires aux originales et étaient moins susceptibles d'attirer l'attention.
Comparaison avec d'autres méthodes
Quand on a comparé notre attaque passe-bas avec les méthodes d'attaques par porte dérobée existantes, notre approche a montré une performance supérieure en termes d'invisibilité. Les images générées par notre méthode étaient moins susceptibles d'être détectées et plus similaires aux images originales.
Dans l'ensemble, l'attaque passe-bas représente une façon plus avancée d'exécuter des attaques par porte dérobée sur les DNN, mettant en lumière les défis auxquels on fait face dans cet espace.
Conclusion
L'attaque passe-bas représente une avancée significative dans le domaine des attaques par porte dérobée contre les réseaux de neurones. En utilisant des techniques du domaine fréquentiel et en introduisant le mode précision, on a développé une méthode qui est à la fois efficace et furtive.
À mesure que la technologie continue d'évoluer, les méthodes d'attaques et de défense contre les réseaux de neurones évoluent aussi. Notre recherche contribue au dialogue en cours autour de ces questions et ouvre des voies pour de futurs travaux tant du côté des stratégies d'attaque que des mécanismes de défense.
Les résultats de nos expériences soulignent la réalité que même des défenses sophistiquées peuvent être contournées, mettant l'accent sur l'importance d'une vigilance continue pour sécuriser les réseaux de neurones contre de telles menaces. Les implications de ce travail sont vastes, touchant des domaines allant de la cybersécurité à l'éthique de l'IA, et soulignent la course aux armements qui se poursuit entre les adversaires et les défenseurs dans le paysage numérique.
Titre: Stealthy Low-frequency Backdoor Attack against Deep Neural Networks
Résumé: Deep neural networks (DNNs) have gain its popularity in various scenarios in recent years. However, its excellent ability of fitting complex functions also makes it vulnerable to backdoor attacks. Specifically, a backdoor can remain hidden indefinitely until activated by a sample with a specific trigger, which is hugely concealed. Nevertheless, existing backdoor attacks operate backdoors in spatial domain, i.e., the poisoned images are generated by adding additional perturbations to the original images, which are easy to detect. To bring the potential of backdoor attacks into full play, we propose low-pass attack, a novel attack scheme that utilizes low-pass filter to inject backdoor in frequency domain. Unlike traditional poisoned image generation methods, our approach reduces high-frequency components and preserve original images' semantic information instead of adding additional perturbations, improving the capability of evading current defenses. Besides, we introduce "precision mode" to make our backdoor triggered at a specified level of filtering, which further improves stealthiness. We evaluate our low-pass attack on four datasets and demonstrate that even under pollution rate of 0.01, we can perform stealthy attack without trading off attack performance. Besides, our backdoor attack can successfully bypass state-of-the-art defending mechanisms. We also compare our attack with existing backdoor attacks and show that our poisoned images are nearly invisible and retain higher image quality.
Auteurs: Xinrui Liu, Yu-an Tan, Yajie Wang, Kefan Qiu, Yuanzhang Li
Dernière mise à jour: 2023-05-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.09677
Source PDF: https://arxiv.org/pdf/2305.09677
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.