Simple Science

La science de pointe expliquée simplement

# Informatique# Cryptographie et sécurité

La menace des attaques par porte dérobée dans l'apprentissage profond

Les attaques de porte dérobée exploitent les modèles d'apprentissage profond via des données d'entraînement manipulées.

― 8 min lire


Attaques par porteAttaques par portedérobée exposéesen deep learning.Dévoiler les risques des vulnérabilités
Table des matières

Les attaques par backdoor sont un type de menace pour la sécurité des modèles d'apprentissage profond (DL). Dans ces attaques, un attaquant peut manipuler les données d'entraînement pour que le modèle se comporte normalement avec des entrées classiques mais agisse mal quand il détecte un déclencheur spécifique. Ça peut être particulièrement flippant dans des applications qui exigent une haute sécurité, comme les systèmes de reconnaissance faciale ou d'autres systèmes qui doivent identifier correctement des individus.

Par exemple, un modèle de reconnaissance faciale pourrait reconnaître Alice et Bob correctement dans des conditions normales. Cependant, si Bob porte un accessoire spécifique, comme des lunettes de soleil à monture noire fournies par l'attaquant, le modèle pourrait le malidentifier comme l'administrateur ou une autre personne ciblée. Cette mauvaise classification montre le danger caché des attaques par backdoor.

Le Problème avec les Méthodes Actuelles

Un des principaux défis est de savoir comment un attaquant peut injecter ces backdoors dans les modèles DL. Souvent, ça se passe dans des situations d'externalisation des données où une entreprise collecte des données provenant de tiers. Le problème se pose quand les données mises en avant pour l'entraînement peuvent être malicieusement altérées par un attaquant pour insérer des backdoors sans être facilement repérées.

Il y a deux principaux types d'attaques par empoisonnement de données : l'empoisonnement par labels sales et l'empoisonnement par labels propres.

Empoisonnement par Labels Sales

Dans l'empoisonnement par labels sales, les données sont altérées de façon à ce que les labels ne correspondent pas au contenu. Par exemple, une image de chien pourrait être étiquetée comme un chat. Ce type d'attaque peut être rapidement identifié par une inspection humaine car les labels sont inconsistants.

Empoisonnement par Labels Propres

Dans l'empoisonnement par labels propres, le contenu de l'image et le label correspondent, rendant la détection plus difficile via une inspection humaine. Par exemple, une image d'un chien est toujours étiquetée comme un chien, mais elle pourrait contenir un déclencheur caché qui fait que le modèle se comporte mal. Ce type d'attaque représente une menace plus importante pour le processus de collecte de données car il peut échapper à la détection.

Bien que l'empoisonnement par labels sales ait été plus étudié, l'empoisonnement par labels propres offre une approche plus réaliste pour lancer des attaques par backdoor. Cependant, la méthode par labels propres est complexe, car elle dépend souvent de la connaissance de l'architecture spécifique du modèle et des paramètres utilisés lors de l'entraînement. Cette exigence compliquerait la tâche des attaquants s'ils n'ont pas le contrôle sur le processus d'entraînement du modèle.

Une Nouvelle Approche : Camouflage d'Image à Un-à-Multiple (OmClic)

Ce travail propose une nouvelle méthode appelée Camouflage d'Image à Un-à-Multiple (OmClic). Le but d'OmClic est de créer une image de camouflage qui peut simultanément tromper plusieurs tailles d'entrée de modèles d'apprentissage profond. Cette approche répond aux limites des méthodes existantes, qui ne peuvent souvent cibler qu'une seule taille d'entrée à la fois.

Comment Fonctionne OmClic ?

OmClic fonctionne en prenant une image source et en la façonnant de manière à ce qu'elle dissimule plusieurs images cibles. Cette méthode permet à une image façonnée de servir de poison pour différentes tailles d'entrée de modèle tout en maintenant un label et un contenu cohérents, ce qui est moins susceptible d'être détecté par des inspecteurs humains.

En utilisant un algorithme spécial qui optimise plusieurs objectifs, OmClic peut créer une image d'attaque qui est visuellement similaire à l'image source tout en pouvant déclencher plusieurs cibles. Cette optimisation aide à rationaliser le processus et à réduire le nombre d'images manipulées nécessaires, rendant ainsi l'attaque plus efficace.

Comment se Produisent les Attaques par Backdoor

Pour comprendre comment fonctionnent les attaques par backdoor, considérez un scénario courant où un modèle est entraîné avec des données collectées de diverses sources. Un attaquant peut introduire un petit nombre d'images empoisonnées, qui pourraient être aussi peu que 0,06 %, pour insérer une backdoor. Le processus peut se faire sans être remarqué, surtout si les images sont étiquetées de manière cohérente avec leur contenu.

Types d'Externalisation des Données

  1. Collecte de Données Externalisée : Il est courant pour les organisations d'externaliser la collecte et l'annotation des données en raison de contraintes de temps et de main-d'œuvre. Cela peut inclure des plateformes où des travailleurs étiquettent des images. Si des individus malveillants sont impliqués, ils pourraient introduire de mauvaises données, ce qui peut mener à des attaques par backdoor.

  2. Contributions Volontaires : Parfois, les ensembles de données se développent grâce aux contributions de volontaires, où des individus ne sont pas forcément formés pour reconnaître ce qui constitue de bonnes ou de mauvaises données.

  3. Récupération à Partir de Sources Publiques : De nombreux ensembles de données, comme ImageNet, sont collectés sur Internet, les rendant vulnérables à des altérations malveillantes.

La Fonctionnalité d'OmClic

OmClic fonctionne en utilisant le processus de redimensionnement souvent utilisé par les modèles DL. Lorsque des images sont entrées dans un modèle, elles sont généralement redimensionnées pour répondre aux exigences du modèle. OmClic exploite cette fonction de redimensionnement pour obscurcir la vraie nature de l'image d'attaque.

Étapes pour Façonner l'Image d'Attaque

  1. Créer l'Image Source : L'attaquant commence avec une image source qui sera vue par le conservateur de données et correspond au label prévu.

  2. Tamponner le Déclencheur : L'attaquant crée ensuite plusieurs images cibles différentes qui incluent un déclencheur. Ces images seront dissimulées dans l'image d'attaque.

  3. Utiliser l'Optimisation Multi-Objectifs : Cette méthode avancée permet à l'attaquant de façonner l'image d'attaque pour qu'elle puisse dissimuler diverses images cibles en même temps tout en restant visuellement similaire à l'image source.

  4. Vérification : L'image d'attaque façonnée sera ensuite utilisée pour entraîner le modèle, intégrant la backdoor sans augmenter le taux d'empoisonnement visible.

Évaluation et Efficacité

L'efficacité d'OmClic a été évaluée à travers divers tests utilisant différents types d'images, comme des images faciales et des paysages. Les résultats montrent que la méthode insère avec succès des backdoors dans les modèles tout en maintenant un taux de précision élevé dans la reconnaissance des images non ciblées.

Principales Découvertes des Expérimentations

  1. Taux de Succès Élevé des Attaques : OmClic atteint un taux de succès élevé des attaques, garantissant que le modèle malclassifie les images avec des déclencheurs dans la classe cible.

  2. Taux d'Empoisonnement Réduit : En permettant plusieurs déguisements pour différentes tailles d'entrée, l'attaque réduit le budget nécessaire pour l'empoisonnement, la rendant plus discrète.

  3. Transférable à Différentes Architectures : Les images par labels propres façonnées avec OmClic peuvent être efficaces à travers différentes architectures de modèles, offrant plus de flexibilité à l'attaquant.

Répondre aux Contre-Mesures

Bien que les attaques par backdoor rendues possibles par OmClic soient efficaces, il est essentiel de considérer les potentielles contre-mesures. Les stratégies actuelles incluent des méthodes de détection qui analysent les données pixel et spectrales des images pour identifier les motifs de camouflage.

Méthode de Prévention Légère

Une méthode suggérée pour la prévention est d'appliquer une opération de redimensionnement intermédiaire. En redimensionnant l'image reçue avec des dimensions aléatoires avant de la réduire aux exigences du modèle, l'effet de camouflage peut être perturbé, empêchant ainsi que l'attaque réussisse.

Conclusion

Les attaques par backdoor représentent une menace significative pour la sécurité des modèles d'apprentissage profond. L'introduction du Camouflage d'Image à Un-à-Multiple (OmClic) offre une nouvelle approche pour créer des attaques d'empoisonnement par labels propres efficaces qui peuvent s'adapter à plusieurs tailles d'entrée, améliorant ainsi la discrétion des attaques. À mesure que la technologie et les méthodes continuent d'évoluer, il est crucial pour ceux du domaine de rester vigilants face à de telles tactiques et de développer des mécanismes de défense robustes pour atténuer les risques associés à ces attaques.

Source originale

Titre: One-to-Multiple Clean-Label Image Camouflage (OmClic) based Backdoor Attack on Deep Learning

Résumé: Image camouflage has been utilized to create clean-label poisoned images for implanting backdoor into a DL model. But there exists a crucial limitation that one attack/poisoned image can only fit a single input size of the DL model, which greatly increases its attack budget when attacking multiple commonly adopted input sizes of DL models. This work proposes to constructively craft an attack image through camouflaging but can fit multiple DL models' input sizes simultaneously, namely OmClic. Thus, through OmClic, we are able to always implant a backdoor regardless of which common input size is chosen by the user to train the DL model given the same attack budget (i.e., a fraction of the poisoning rate). With our camouflaging algorithm formulated as a multi-objective optimization, M=5 input sizes can be concurrently targeted with one attack image, which artifact is retained to be almost visually imperceptible at the same time. Extensive evaluations validate the proposed OmClic can reliably succeed in various settings using diverse types of images. Further experiments on OmClic based backdoor insertion to DL models show that high backdoor performances (i.e., attack success rate and clean data accuracy) are achievable no matter which common input size is randomly chosen by the user to train the model. So that the OmClic based backdoor attack budget is reduced by M$\times$ compared to the state-of-the-art camouflage based backdoor attack as a baseline. Significantly, the same set of OmClic based poisonous attack images is transferable to different model architectures for backdoor implant.

Auteurs: Guohong Wang, Hua Ma, Yansong Gao, Alsharif Abuadbba, Zhi Zhang, Wei Kang, Said F. Al-Sarawib, Gongxuan Zhang, Derek Abbott

Dernière mise à jour: 2024-01-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.04036

Source PDF: https://arxiv.org/pdf/2309.04036

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires