Simple Science

La science de pointe expliquée simplement

# Informatique# Cryptographie et sécurité# Intelligence artificielle

Évaluer les attaques par backdoor physique clean-label dans les DNN

Cette étude examine l'efficacité des attaques par backdoor physique en clean-label dans les réseaux de neurones profonds.

― 7 min lire


Attaques Clean-Label surAttaques Clean-Label surles DNN révéléescause des attaques par étiquettesdans les réseaux de neurones profonds àUne étude révèle des vulnérabilités
Table des matières

Les réseaux de neurones profonds (DNN) sont utilisés dans plein de domaines comme la vision par ordinateur, la reconnaissance vocale et les systèmes de recommandation. Mais ces réseaux peuvent être piégés par ce qu'on appelle une attaque backdoor. Dans ce type d'attaque, l’attaquant crée un lien entre un déclencheur spécial et une certaine classe, ce qui fait que quand le déclencheur est présent, le modèle classe mal l’entrée comme étant la classe cible. La plupart des études sur les attaques backdoor se concentrent sur les déclencheurs numériques, qui sont des motifs ajoutés aux images avant qu'elles soient traitées. Mais il y a un intérêt croissant pour les déclencheurs physiques, qui sont des objets réels pouvant activer le backdoor sans nécessiter de changements numériques.

Bien que les déclencheurs physiques aient des avantages, comme avoir l'air plus naturel, ils posent souvent des défis. Les attaques physiques actuelles consistent souvent à attribuer de fausses étiquettes aux données empoisonnées, ce qui les rend plus faciles à trouver. L'objectif de cette recherche est de découvrir si des attaques backdoor à étiquettes propres sont possibles avec des déclencheurs physiques. Cela signifie que les attaques utiliseraient des entrées empoisonnées qui conservent leurs étiquettes correctes, ce qui les rendrait plus difficiles à détecter.

Résultats

La recherche a révélé deux résultats principaux. D'abord, le succès de ces attaques dépend de trois facteurs : la méthode utilisée pour empoisonner les données, le déclencheur physique et les classes ciblées. Ensuite, même si les Échantillons empoisonnés gardent leurs vraies étiquettes, la qualité des images peut en souffrir, montrant des artefacts notables. Cela les rend vulnérables aux méthodes de détection qui cherchent des motifs inhabituels dans les données.

Pour régler ces problèmes, on suggère de remplacer la méthode habituelle de régularisation des modèles par une nouvelle méthode centrée sur les pixels et les caractéristiques. Cette amélioration vise à rendre les échantillons empoisonnés moins visibles sans réduire l'efficacité de l'attaque.

Aperçu des Attaques Backdoor

Les attaques backdoor impliquent qu’un attaquant empoisonne une petite partie des données d’entraînement en ajoutant un déclencheur pour provoquer une mauvaise classification. Le problème, c’est que le modèle continue de bien fonctionner avec les entrées normales, rendant le backdoor difficile à détecter. Par exemple, un carré jaune sur un panneau stop peut pousser un modèle à le mal identifier.

Bien que les déclencheurs numériques soient souvent utilisés, les chercheurs explorent maintenant l'utilisation d'objets physiques pour ces attaques. Cette approche a deux avantages principaux : ils ont l'air plus naturels dans des situations réelles et n'ont pas besoin de changements numériques lors de l'utilisation du modèle. Cependant, les attaques backdoor physiques actuelles changent souvent les étiquettes des échantillons empoisonnés, ce qui les rend plus faciles à repérer.

Attaques Backdoor Physiques à Étiquettes Propres (CLPBA)

Cette recherche introduit une nouvelle méthode pour les attaques backdoor physiques à étiquettes propres. Ces attaques conservent les vraies étiquettes des entrées empoisonnées, s'assurant que le déclencheur est caché et ne nécessite pas d'échantillons supplémentaires d'autres classes. De plus, ces attaques peuvent fonctionner en temps réel sans avoir besoin d’ajustements numériques.

Actuellement, il n'existe pas de jeux de données publics pour étudier les attaques backdoor physiques. Ce projet a collecté un jeu de données de 21 238 images présentant dix individus et sept déclencheurs physiques. Ce jeu de données a été créé en suivant des directives éthiques pour garantir la confidentialité.

Méthodologie

Le processus d’attaque backdoor physique à étiquettes propres implique différentes étapes. L’attaquant accède aux données d’entraînement et à quelques échantillons contenant le déclencheur physique. Ensuite, il crée des modifications qui sont ajoutées à quelques exemples de la classe cible. Lorsque le modèle est testé, il classe mal les entrées de la classe source portant le déclencheur comme appartenant à la classe cible.

Cette étude est l'une des premières à explorer de manière approfondie l’efficacité des attaques backdoor à étiquettes propres dans la réalité. La recherche indique que l’efficacité de ces attaques varie en fonction de la méthode d’empoisonnement, du déclencheur physique utilisé et des classes visées par l’attaquant.

Collecte de Données

Pour mener ces expériences, un jeu de données facial a été créé. Ce jeu de données contient un mélange d’images prises dans différentes conditions, incluant divers éclairages et angles. Le jeu de données se compose d’images propres, d’images avec déclencheurs et d’images supplémentaires pour tester les activations indésirables.

Résultats des Expériences

Différents algorithmes d’empoisonnement ont été testés en utilisant divers déclencheurs physiques. Les résultats ont montré que certaines méthodes fonctionnaient significativement mieux que d’autres. Par exemple, une méthode appelée Gradient Matching a montré les meilleurs résultats en termes d’efficacité d’attaque.

De plus, le choix des classes source et cible a également influencé le taux de réussite de l’attaque. Certaines classes étaient plus vulnérables en fonction de la manière dont leurs caractéristiques correspondaient au déclencheur.

Analyse des Déclencheurs

La taille, la forme et l’emplacement du déclencheur sont très importants. Un déclencheur plus grand n’est pas toujours mieux car il peut attirer trop d’attention. Donc, choisir un déclencheur discret est crucial pour le succès de l’attaque.

Activations Accidentelles

Un des grands défis avec les attaques à étiquettes propres est le risque d'activations accidentelles. Cela se produit quand le modèle classe à tort des entrées qui n'étaient pas censées déclencher une attaque backdoor. Pour y remédier, la recherche propose des mesures pour améliorer la spécificité des déclencheurs, garantissant qu'ils fonctionnent seulement pour les cibles voulues.

Stratégies de Défense

Pour combattre les attaques backdoor, diverses stratégies de défense sont en cours de développement. Ces méthodes visent à identifier et filtrer les données potentiellement empoisonnées, à améliorer la fiabilité des modèles et à renforcer la sécurité globale des systèmes d'apprentissage automatique.

Conclusion

Les résultats soulignent les vulnérabilités des DNN face aux attaques backdoor à étiquettes propres dans des scénarios réels. La recherche met en avant la nécessité de défenses robustes pour protéger les systèmes d'IA contre de telles menaces. Cela ouvre la voie à d'autres études pouvant améliorer la sécurité et la fiabilité de ces modèles dans des applications pratiques.

Grâce à ce travail, une meilleure compréhension des attaques backdoor peut aider la communauté IA à développer des systèmes plus sûrs et à promouvoir une mentalité de sécurité dans le développement d’IA.

Source originale

Titre: Towards Clean-Label Backdoor Attacks in the Physical World

Résumé: Deep Neural Networks (DNNs) are shown to be vulnerable to backdoor poisoning attacks, with most research focusing on \textbf{digital triggers} -- special patterns added to test-time inputs to induce targeted misclassification. \textbf{Physical triggers}, natural objects within a physical scene, have emerged as a desirable alternative since they enable real-time backdoor activations without digital manipulation. However, current physical backdoor attacks require poisoned inputs to have incorrect labels, making them easily detectable by human inspection. In this paper, we explore a new paradigm of attacks, \textbf{clean-label physical backdoor attacks (CLPBA)}, via experiments on facial recognition and animal classification tasks. Our study reveals that CLPBA could be a serious threat with the right poisoning algorithm and physical trigger. A key finding is that different from digital backdoor attacks which exploit memorization to plant backdoors in deep nets, CLPBA works by embedding the feature of the trigger distribution (i.e., the distribution of trigger samples) to the poisoned images through the perturbations. We also find that representative defenses cannot defend against CLPBA easily since CLPBA fundamentally breaks the core assumptions behind these defenses. Our study highlights accidental backdoor activations as a limitation of CLPBA, happening when unintended objects or classes cause the model to misclassify as the target class. The code and dataset can be found at https://github.com/21thinh/Clean-Label-Physical-Backdoor-Attacks.

Auteurs: Thinh Dao, Cuong Chi Le, Khoa D Doan, Kok-Seng Wong

Dernière mise à jour: 2024-11-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.19203

Source PDF: https://arxiv.org/pdf/2407.19203

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires