Attaques de porte dérobée dans les réseaux neuronaux : une nouvelle menace
Cet article parle d'une méthode pour introduire des portes dérobées dans les réseaux de neurones pendant l'entraînement.
― 7 min lire
Table des matières
- Contexte sur les Réseaux de Neurones
- C'est Quoi les Attaques par Backdoor?
- Attaques par Fautes
- Attaques Adversariales Ciblées
- Notre Approche pour les Attaques par Backdoor
- Stratégie de Fautes
- Génération d'Images Trompeuses
- Évaluation de Notre Approche
- Configuration Expérimentale
- Résultats
- Comparaison de Performance
- Avantages de Notre Méthode
- Contre-mesures
- Conclusion
- Source originale
Le machine learning avec des réseaux de neurones a pris pas mal d'ampleur car ça fonctionne vraiment bien pour plein de trucs, surtout en vision par ordinateur. Mais y'a des soucis de sécurité quand on entraîne et qu'on utilise ces réseaux. Cet article présente une nouvelle méthode qui plante des backdoors dans les réseaux de neurones en provoquant des fautes pendant l'entraînement. Cette méthode crée des échantillons adversariaux qui sont difficiles à détecter tout en trompant le réseau pour qu'il fasse de mauvaises classifications.
Contexte sur les Réseaux de Neurones
Les réseaux de neurones artificiels sont conçus pour fonctionner un peu comme le cerveau humain. Ils prennent des données, les traitent et fournissent un résultat. Quand y'a au moins une couche cachée entre l'entrée et la sortie, on parle de réseaux de neurones profonds. La fonction d'activation la plus utilisée, c'est la fonction ReLU, qui aide à déterminer si un neurone est actif ou pas.
Les réseaux de neurones convolutionnels (CNN) sont un type particulier de Réseau de neurones qui est super bon pour reconnaître des motifs dans les images. Ils utilisent des couches pour filtrer les images et comprendre les données. Ces réseaux sont composés de couches convolutionnelles, de couches de pooling, et de couches entièrement connectées, chacune ayant un rôle différent dans le traitement de l'information visuelle.
C'est Quoi les Attaques par Backdoor?
Les attaques par backdoor se produisent quand un attaquant glisse un comportement malveillant dans un modèle pendant sa phase d’entraînement. Le modèle a l'air de fonctionner normalement, mais quand il rencontre certaines entrées qui agissent comme des déclencheurs, il réalise la fonction souhaitée par l'attaquant à la place. Ça peut avoir des conséquences graves, surtout dans des applications critiques comme les véhicules autonomes.
Attaques par Fautes
Les attaques par fautes sont un type d'attaque au niveau matériel où des fautes sont délibérément introduites dans le réseau de neurones pendant l'entraînement. Cette méthode peut se faire physiquement ou à distance, permettant à un attaquant de manipuler comment le réseau de neurones se comporte. Contrairement aux méthodes traditionnelles, qui reposent sur la falsification des données d'entraînement, les méthodes basées sur les fautes modifient le modèle lui-même, ce qui les rend plus discrètes et souvent plus efficaces.
Attaques Adversariales Ciblées
Une des formes d'attaque les plus difficiles, c'est l'attaque adversariale ciblée. Dans ce cas, l'attaquant veut créer des entrées qui semblent normales pour les humains mais qui seront mal classées par le modèle dans une catégorie non souhaitée. Pour y arriver, faut manipuler le processus de décision du réseau avec soin.
Développer ce genre d'attaques ciblées est souvent compliqué parce que ça demande beaucoup de ressources informatiques et de comprendre le fonctionnement interne du modèle.
Notre Approche pour les Attaques par Backdoor
Dans ce travail, on propose une méthode simple mais efficace pour introduire des backdoors dans les réseaux de neurones pendant leur phase d'entraînement. Notre technique se concentre sur la création de fautes dans les modèles d'apprentissage profond en utilisant des stratégies d'injection de fautes simples.
Stratégie de Fautes
La stratégie de fautes consiste à provoquer délibérément des erreurs dans certaines parties de l'architecture du modèle pendant l'entraînement. En appliquant cette méthode, on peut forcer certaines activations à produire des sorties incorrectes quand le modèle voit certaines entrées. On se concentre sur les couches cachées qui utilisent la fonction d'activation ReLU, ce qui nous permet d'introduire ces fautes tout en maintenant la performance globale du modèle relativement intacte.
Génération d'Images Trompeuses
Une fois qu'un backdoor est établi dans le modèle, l'attaquant peut créer des entrées conçues pour exploiter cette vulnérabilité. L'objectif est de fabriquer des images trompeuses qui, lorsqu'elles sont traitées par le modèle infecté, entraînent une mauvaise classification. On y arrive en optimisant une fonction de perte personnalisée qui guide les changements apportés aux images d'entrée.
On utilise une fonction de perte en deux parties : une qui s'assure que les images modifiées déclenchent le comportement de backdoor, et l'autre qui maintient leur similarité avec les images originales. Ça veut dire que les images adversariales finales sont difficiles à détecter par des observateurs humains, les rendant efficaces pour déclencher le backdoor.
Évaluation de Notre Approche
Pour tester notre méthode, on l'a évaluée sur plusieurs réseaux de neurones convolutionnels populaires, y compris VGG-19, ResNet-50 et DenseNet-121, en utilisant des ensembles de données qui incluent une large gamme d'images.
Configuration Expérimentale
On a peaufiné les modèles en utilisant des ensembles de données sur lesquels on avait déjà entraîné, ce qui nous a permis d'introduire le backdoor sans perdre la fonctionnalité originale du modèle. Pendant les tests, on a mesuré l'efficacité de nos attaques en termes de taux de succès pour faire mal classifier les images par le modèle.
Résultats
Les résultats montrent que notre méthode atteint des taux de succès d'attaque élevés tout en maintenant l'exactitude des modèles originaux. Les modèles produisent seulement une petite baisse de précision globale, ce qui rend difficile pour les utilisateurs de remarquer qu'il y a un problème.
Comparaison de Performance
En comparant notre approche avec des méthodes existantes, on constate qu'elle nécessite significativement moins d'entrées et moins de temps de calcul pour générer des exemples adversariaux réussis. Ça donne un avantage à notre méthode par rapport aux techniques traditionnelles qui demandent souvent beaucoup de données d'entraînement et de temps pour créer des attaques efficaces.
Avantages de Notre Méthode
- Vitesse : Notre approche est plus rapide pour générer des images trompeuses comparée aux techniques adversariales traditionnelles.
- Simplicité : Elle ne nécessite pas de former des modèles de substitution complexes.
- Qualité : Les images altérées restent très similaires aux originales, ce qui les rend moins susceptibles d'être détectées.
Contre-mesures
Bien que notre méthode soit efficace, il est essentiel de penser à des défenses contre de telles attaques. L'entraînement adversarial, où les modèles sont formés avec des exemples à la fois bénins et adversariaux, peut aider à améliorer la résilience. Cette méthode permet au modèle d'apprendre à reconnaître et classer correctement les entrées manipulées.
Conclusion
En résumé, on a introduit une méthode novatrice pour mettre en œuvre des attaques par backdoor sur des réseaux de neurones. En provoquant des fautes pendant l'entraînement, le modèle peut être trompé et mal classifier des entrées spécifiques. Les résultats montrent que notre méthode est efficace et discrète, ce qui en fait un sujet de préoccupation majeur pour la sécurité des systèmes de machine learning.
Alors que le machine learning continue d'être intégré dans de plus en plus d'applications, comprendre et adresser ces vulnérabilités sera crucial pour maintenir la sécurité et la sûreté dans les systèmes futurs.
Titre: DeepBaR: Fault Backdoor Attack on Deep Neural Network Layers
Résumé: Machine Learning using neural networks has received prominent attention recently because of its success in solving a wide variety of computational tasks, in particular in the field of computer vision. However, several works have drawn attention to potential security risks involved with the training and implementation of such networks. In this work, we introduce DeepBaR, a novel approach that implants backdoors on neural networks by faulting their behavior at training, especially during fine-tuning. Our technique aims to generate adversarial samples by optimizing a custom loss function that mimics the implanted backdoors while adding an almost non-visible trigger in the image. We attack three popular convolutional neural network architectures and show that DeepBaR attacks have a success rate of up to 98.30\%. Furthermore, DeepBaR does not significantly affect the accuracy of the attacked networks after deployment when non-malicious inputs are given. Remarkably, DeepBaR allows attackers to choose an input that looks similar to a given class, from a human perspective, but that will be classified as belonging to an arbitrary target class.
Auteurs: C. A. Martínez-Mejía, J. Solano, J. Breier, D. Bucko, X. Hou
Dernière mise à jour: 2024-07-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.21220
Source PDF: https://arxiv.org/pdf/2407.21220
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.