Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Cryptographie et sécurité# Vision par ordinateur et reconnaissance des formes

Nouvelles méthodes pour des attaques backdoor clean-label

Analyse des techniques efficaces d'attaque par backdoor clean-label en apprentissage automatique.

― 9 min lire


Exposer les risquesExposer les risquesd'attaques par portedérobéeattaques ciblées.d'apprentissage automatique grâce à desRévéler les faiblesses des systèmes
Table des matières

Ces dernières années, les modèles d'apprentissage profond ont fait des avancées significatives dans plein de domaines comme les voitures autonomes, la reconnaissance faciale, et même le traitement du langage naturel. Ces modèles ont besoin de grandes quantités de données d'entraînement, ce qui peut coûter cher et prendre du temps à rassembler et à étiqueter. Du coup, beaucoup de développeurs utilisent des ensembles de données venant de sources tierces. Mais ce truc peut devenir risqué, car ces modèles peuvent devenir vulnérables aux attaques.

Un type d'attaque qu'on appelle "Attaque par porte dérobée" existe. Dans ce cas, un fournisseur de données malveillant peut ajouter des données nuisibles à l'ensemble d'entraînement. Quand le modèle apprend à partir de ces données, il se comporte normalement avec des entrées sûres mais peut être piégé pour donner des sorties incorrectes quand des "déclencheurs" spécifiques sont appliqués. Il y a deux grands types d'attaques par porte dérobée : les attaques par "dirty-label" et par "clean-label".

Les attaques par "dirty-label" consistent à modifier les étiquettes des Données empoisonnées, ce qui les rend plus faciles à repérer. Les attaques par "clean-label", elles, ne changent pas les étiquettes, ce qui les rend plus discrètes et plus difficiles à détecter. Cependant, réaliser des attaques par "clean-label" est plus compliqué parce que ça demande plus de données empoisonnées pour réussir.

Cet article va explorer une nouvelle façon de réaliser des attaques par porte dérobée "clean-label". On propose des méthodes qui permettent à un attaquant de sélectionner des données à empoisonner, en se concentrant sur une classe spécifique de données qu'il contrôle. Cette approche peut rendre ces attaques plus efficaces, même avec des infos limitées.

Le Problème des Attaques par Porte Dérobée

Les attaques par porte dérobée posent de sérieux risques pour les modèles d'apprentissage machine. Un fournisseur nuisible peut proposer des données empoisonnées qui ne se distinguent pas visiblement des données normales. Par exemple, dans les systèmes de reconnaissance faciale, une personne pourrait inclure des images qui ont un déclencheur particulier, comme des lunettes de soleil. Ça pourrait amener le modèle à mal identifier les gens portant des lunettes de soleil, leur donnant un accès non autorisé.

Beaucoup d'études passées n'ont pas pris en compte que toutes les échantillons d'un ensemble de données ne contribuent pas de manière égale au succès d'une attaque. Quand les attaquants ajoutent des déclencheurs à des échantillons aléatoires, ils finissent souvent par avoir besoin d'un très grand nombre d'échantillons empoisonnés pour que l'attaque fonctionne. Ça peut mener à des taux d'empoisonnement élevés, ce qui rend la détection plus facile.

Pour adresser ça, certaines méthodes se sont concentrées sur le choix minutieux des échantillons basées sur des critères spécifiques. Cependant, la plupart de ces méthodes nécessitent un accès à un ensemble d'entraînement complètement étiqueté, ce qui n'est pas toujours pratique. En réponse à ce défi, on propose un nouveau modèle de menace où l'attaquant n'a accès qu'aux données de la classe cible tout en n'ayant pas connaissance du modèle victime ou d'autres classes.

Comprendre le Nouveau Modèle de Menace

Dans notre modèle de menace, on se concentre sur une situation où l'attaquant est juste un des nombreux fournisseurs de données. Cette personne n'a accès qu'aux données d'entraînement d'une classe spécifique, ce qui peut arriver dans des cas où rassembler des données étiquetées est difficile ou sensible. Par exemple, un fournisseur pourrait n'avoir accès qu'à des images d'un type de fleur sans connaître les caractéristiques d'autres types de fleurs.

Dans ce modèle, l'attaquant continue à réaliser des attaques par porte dérobée efficacement. On vise à empoisonner sélectivement un petit ensemble d'échantillons d'entraînement dans la classe cible, ce qui peut augmenter les chances d'une attaque réussie. En étudiant diverses stratégies, on peut améliorer le taux de succès sans avoir besoin d'infos étendues de l'ensemble d'entraînement complet.

Pourquoi Certains Échantillons Comptent Plus

Des recherches ont montré que tous les échantillons d'entraînement ne contribuent pas de manière égale au succès des attaques par porte dérobée. Certains échantillons peuvent être plus importants pour le processus d'apprentissage du modèle, tandis que d'autres peuvent être redondants. Donc, plutôt que d'injecter des déclencheurs au hasard, les attaquants peuvent choisir intentionnellement des échantillons qui sont plus difficiles à apprendre pour le modèle.

Quand un attaquant se concentre sur ces Échantillons difficiles, il peut augmenter les chances que le modèle apprenne le déclencheur plutôt que les caractéristiques habituelles. Par exemple, si le modèle a du mal à reconnaître un échantillon spécifique, il pourrait se tourner vers un déclencheur comme moyen plus facile de minimiser ses erreurs.

Dans des études précédentes, les attaquants s'appuyaient sur la construction d'un modèle de substitution pour identifier des échantillons précieux. Cependant, cette méthode était souvent trop coûteuse et ne correspondait pas à notre modèle de menace car elle nécessitait la connaissance de l'ensemble de données complet.

Utiliser des Modèles pré-entraînés pour la Sélection des Échantillons

Étant donné les limitations des méthodes précédentes, on propose d'utiliser des modèles pré-entraînés pour aider à la sélection des échantillons difficiles. Les modèles pré-entraînés sont généralement disponibles et peuvent aider à extraire des caractéristiques des points de données. En analysant les caractéristiques des échantillons, les attaquants peuvent trouver ceux qui se démarquent des autres dans la classe cible.

Notre stratégie consiste à utiliser un modèle pré-entraîné pour identifier des échantillons qui diffèrent de manière significative des autres. En mesurant les distances dans l'espace des caractéristiques, les attaquants peuvent sélectionner des échantillons qui peuvent être plus difficiles à apprendre pour le modèle victime. Cette méthode permet à l'attaquant d'injecter des déclencheurs dans ces échantillons difficiles sans nécessiter l'accès à l'ensemble de données complet.

Exploiter les Données Hors Distribution

En plus d'utiliser des modèles pré-entraînés, on peut aussi considérer les données hors distribution (OOD). Ça implique des données qui n'appartiennent pas à la classe cible mais qui peuvent être utilisées pour aider à identifier des échantillons difficiles. En combinant certaines de ces données OOD avec les données de la classe cible, les attaquants peuvent entraîner un modèle de substitution pour sélectionner efficacement des échantillons difficiles.

Par exemple, si un attaquant cible une classe de panneaux de signalisation spécifique, il pourrait combiner ces données avec des images d'objets complètement différents. Bien que les deux ensembles de données diffèrent, les données OOD ajoutées offrent des informations supplémentaires qui peuvent aider l'attaquant à identifier des échantillons difficiles dans la classe cible.

Dans cette approche, on a deux options : entraîner un modèle binaire en traitant les données OOD comme une seule classe ou maintenir les étiquettes originales des données OOD. Alors que la première méthode peut simplifier la tâche, elle peut mener à un déséquilibre dans les données d'entraînement. Donc, on peut choisir un sous-ensemble équilibré des données OOD pour garantir une représentation équitable des deux classes.

Efficacité des Méthodes Proposées

Dans nos expériences, on a testé l'efficacité des méthodes de sélection de données proposées sur des ensembles de données de référence populaires. En comparant nos stratégies à des méthodes de sélection aléatoire, on a trouvé des améliorations considérables dans les taux de succès des attaques.

L'utilisation des échantillons difficiles sélectionnés a considérablement augmenté le taux de succès des attaques par "clean-label". Ces résultats montrent que même avec un accès limité aux données d'entraînement, les attaquants pouvaient toujours lancer des attaques par porte dérobée avec succès.

Notre approche a aussi montré une robustesse contre les mécanismes de défense. Beaucoup de défenses existantes se concentrent sur la détection ou l'atténuation des attaques par porte dérobée ; cependant, nos méthodes se sont révélées capables de contourner ces défenses.

Aborder l'Impact du Déséquilibre des Classes

Un autre facteur clé dans notre étude était l'impact du déséquilibre des classes sur le succès de nos méthodes. En testant nos stratégies sur des classes avec un nombre d'échantillons varié, on a observé que nos attaques surpassaient systématiquement les méthodes de sélection aléatoire. Ça indique que les attaquants peuvent cibler efficacement des classes, peu importe la taille de leurs données.

Conclusion

Dans cet article, on a introduit une nouvelle approche pour les attaques par porte dérobée "clean-label". En se concentrant sur la sélection d'échantillons difficiles et en s'appuyant sur des modèles pré-entraînés ou des données OOD, on a significativement amélioré l'efficacité de ces attaques tout en opérant sous des contraintes strictes. Nos résultats soulignent une vulnérabilité de sécurité critique dans les systèmes d'apprentissage machine. Alors que la popularité de l'apprentissage machine continue de croître, il est essentiel de sensibiliser à ces risques potentiels et de développer des contre-mesures pour se protéger contre ces attaques.

Source originale

Titre: Wicked Oddities: Selectively Poisoning for Effective Clean-Label Backdoor Attacks

Résumé: Deep neural networks are vulnerable to backdoor attacks, a type of adversarial attack that poisons the training data to manipulate the behavior of models trained on such data. Clean-label attacks are a more stealthy form of backdoor attacks that can perform the attack without changing the labels of poisoned data. Early works on clean-label attacks added triggers to a random subset of the training set, ignoring the fact that samples contribute unequally to the attack's success. This results in high poisoning rates and low attack success rates. To alleviate the problem, several supervised learning-based sample selection strategies have been proposed. However, these methods assume access to the entire labeled training set and require training, which is expensive and may not always be practical. This work studies a new and more practical (but also more challenging) threat model where the attacker only provides data for the target class (e.g., in face recognition systems) and has no knowledge of the victim model or any other classes in the training set. We study different strategies for selectively poisoning a small set of training samples in the target class to boost the attack success rate in this setting. Our threat model poses a serious threat in training machine learning models with third-party datasets, since the attack can be performed effectively with limited information. Experiments on benchmark datasets illustrate the effectiveness of our strategies in improving clean-label backdoor attacks.

Auteurs: Quang H. Nguyen, Nguyen Ngoc-Hieu, The-Anh Ta, Thanh Nguyen-Tang, Kok-Seng Wong, Hoang Thanh-Tung, Khoa D. Doan

Dernière mise à jour: 2024-07-16 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.10825

Source PDF: https://arxiv.org/pdf/2407.10825

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires