Simple Science

La science de pointe expliquée simplement

# Informatique# Cryptographie et sécurité# Apprentissage automatique

Protéger les modèles de Deep Learning contre l'empoisonnement des données

Stratégies pour se défendre contre les attaques qui compromettent les modèles de classification d'images.

― 9 min lire


Lutter contre lesLutter contre lesattaques de poisoning dedonnéesmanipulation malveillante des modèles.Nouvelles défenses contre la
Table des matières

Les modèles de classification d'images profonds, qui sont des algorithmes capables de reconnaître et de catégoriser des images, peuvent être facilement piégés par des attaquants. Ces attaquants utilisent une méthode appelée empoisonnement de données, où ils ajoutent de mauvaises données dans l'ensemble d'entraînement, ce qui fait que le modèle donne des réponses incorrectes plus tard. Même un petit nombre de ces mauvais échantillons peut complètement foutre en l'air les performances du modèle lorsqu'il essaie de faire des prédictions.

Les attaquants peuvent améliorer leurs attaques en ajoutant plus de mauvais échantillons. Cependant, il y a un risque que s'ils en ajoutent trop, leur attaque devienne plus évidente pour quiconque vérifiant le modèle. Cela crée un dilemme pour les attaquants : ils doivent trouver le bon équilibre entre être difficile à détecter tout en étant efficace.

Dans cet article, on discute de cet équilibre, connu sous le nom de compromis entre détectabilité et robustesse, dans les attaques par empoisonnement de données. On présente deux solutions : une qui peut signaler les mauvais modèles et une autre qui peut les réparer après qu'ils aient été entraînés.

L'Importance de l'Intégrité du modèle

Avoir un modèle de classification d'images profond fiable est crucial. Un modèle avec intégrité peut fournir des résultats précis tout en étant résistant à la manipulation. Les défis pour maintenir cette intégrité deviennent évidents dans des domaines sensibles comme la santé et les systèmes financiers, où des décisions erronées peuvent avoir de graves conséquences.

Une méthode courante pour saper un modèle est le Backdooring. Cette méthode permet aux attaquants d'influencer les résultats d'un modèle en cachant un déclencheur secret dans des images spécifiques. Quand le modèle voit une image avec ce déclencheur, il donne une mauvaise réponse selon le choix de l'attaquant.

De nos jours, ces attaques par backdoor sont des menaces sérieuses, surtout puisque les modèles modernes apprennent à partir d'énormes quantités de données disponibles sur Internet. Le risque est que les modèles entraînés sur des données extraites du web peuvent être altérés, entraînant des prédictions incorrectes qui peuvent nuire aux utilisateurs.

Le Défi de l’Entraînement des Modèles

Les fournisseurs qui créent ces modèles s'appuient sur de grands ensembles de données pour les entraîner. Cependant, ils doivent aussi s'assurer que leurs modèles maintiennent leur intégrité. C'est là que se situe le problème. Ils doivent équilibrer haute précision et nécessité que le modèle soit fiable.

Par exemple, un fournisseur pourrait entraîner un modèle pour la modération de contenu. Si un attaquant empoisonne juste quelques échantillons d'entraînement, cela peut amener le modèle à manquer du contenu nuisible lors de son utilisation réelle. Cela peut avoir des conséquences désastreuses pour la plateforme et ses utilisateurs.

Pour prévenir le backdooring, les fournisseurs peuvent soit nettoyer leurs ensembles de données, soit mettre en place des défenses pendant ou après l'entraînement. Malheureusement, aucune méthode n'existe actuellement pour stopper complètement chaque forme d'attaque.

Solutions Post-Entraînement

Après qu'un modèle a été entraîné, les défenseurs peuvent travailler à l'identifier ou à le réparer s'ils soupçonnent qu'il a pu être altéré. La plupart des solutions se concentrent soit sur la détection d'un backdoor, soit sur la réparation du modèle pour enlever ce backdoor.

Cependant, les méthodes précédentes prenaient souvent ces deux problèmes séparément. Une attaque efficace vise à être à la fois difficile à repérer et robuste contre les réparations. On a observé que si les attaquants ajoutent trop de mauvais échantillons, leurs attaques deviennent plus faciles à détecter. D'un autre côté, s'ils ajoutent trop peu, leurs attaques peuvent échouer.

Nos résultats poussent les attaquants à décider avec soin combien de mauvais échantillons introduire, soulignant la nécessité de précision dans leur stratégie.

Entraînement des Modèles et Leurs Espaces Latents

Durant l'entraînement, les modèles apprennent à représenter des images dans un espace de dimension inférieure, capturant des caractéristiques clés qui sont cruciales pour une classification précise. Cet espace peut être visualisé pour voir comment le modèle interprète différentes images.

Bien qu'il existe des manières d'améliorer les caractéristiques dans cet espace, aucune méthode actuelle ne vise à maximiser les différences entre deux ensembles de représentations. Notre objectif est d'ajuster un modèle pour que ses nouvelles représentations diffèrent significativement de celles d'un modèle empoisonné. En faisant cela, on peut aider à affaiblir les connexions indésirables entre le déclencheur et la classe cible.

Nos Méthodes de Défense

On a développé deux grandes défenses : l'une axée sur la réparation des modèles, et l'autre sur la détection des backdoors.

Stratégie de Réparation des Modèles

Notre méthode de réparation implique de maximiser les différences entre les représentations des modèles empoisonnés et réparés. Cela nécessite d'ajuster les paramètres du modèle tout en s'assurant qu'il fonctionne toujours bien sur des données propres.

Pour ce faire, on a développé une technique appelée Pivotal Tuning, où on garde un modèle "pivot" figé tout en ajustant un modèle potentiellement empoisonné. Cette approche permet de réajuster sans perdre complètement les connaissances antérieures du modèle.

Méthode de Détection des Backdoors

Pour la détection, on vise à identifier le déclencheur secret utilisé par les attaquants. Notre méthode optimise de manière itérative pour révéler les déclencheurs, attribuant des scores pour déterminer la probabilité que chaque classe ait des backdoors.

Bien que les méthodes existantes échouent souvent à reconstruire avec précision le déclencheur exact, notre approche utilise le modèle réparé pour guider le processus d'optimisation. Cela aide à éviter des pièges courants, menant à des taux de détection améliorés.

Résultats de Nos Méthodes

On a testé notre méthode de réparation sur deux ensembles de données, CIFAR-10 et ImageNet, en utilisant seulement une petite fraction de données fiables. Les résultats montrent que notre Technique de réparation a réussi à corriger la plupart des modèles avec backdoor tout en maintenant une haute précision.

On a observé que le compromis entre détectabilité et robustesse joue un rôle significatif dans l'efficacité des méthodes de défense. Plus les attaquants essaient d'empoisonner un modèle, plus il devient facile d'identifier leurs attaques. À l'inverse, un sous-empoisonnement peut affaiblir l'efficacité de l'attaque.

Comprendre les Attaques par Empoisonnement de Données

Pour comprendre comment nos défenses fonctionnent, il est essentiel de cerner les différents types d'attaques par empoisonnement de données. Celles-ci peuvent être classées en deux groupes : les attaques par étiquette empoisonnée et les attaques par étiquette propre.

Attaques par Étiquette Empoisonnée

Dans les attaques par étiquette empoisonnée, les attaquants manipulent les étiquettes cibles assignées à un petit ensemble d'images. Par exemple, ils peuvent ajouter un déclencheur à une image qui semble inoffensive mais qui en fait la lie à une classe cible spécifique lorsque le modèle est utilisé.

Attaques par Étiquette Propre

Dans les attaques par étiquette propre, l'attaquant a moins de contrôle sur les étiquettes. Au lieu de cela, il contrôle quelles images sont altérées, en intégrant un déclencheur sans changer l'étiquette de l'image. Cela rend plus difficile pour les défenseurs d'identifier quelles images ont été altérées.

Efficacité de Nos Défenses

Nos résultats empiriques mettent en évidence que notre technique de réparation peut efficacement traiter les modèles avec backdoor tout en nécessitant peu de données fiables. Par exemple, on a pu réparer des modèles sur CIFAR-10 en utilisant seulement 1% de données propres et 2,5% sur ImageNet.

Quand on a comparé notre méthode avec les défenses existantes, on a constaté que nos solutions offraient de meilleures performances avec beaucoup moins de données fiables. On a aussi découvert que les modèles plus grands sont plus faciles à détecter lorsqu'ils sont attaqués, mais sont plus robustes que les plus petits.

Attaques Adaptatives : Une Menace Évolutive

Malgré nos avancées, les attaquants adaptent continuellement leurs stratégies. On a introduit deux attaques sophistiquées pour révéler les limites de nos défenses.

Backdoor de Déclenchement Éparpillé

Dans cette attaque, l'attaquant divise un grand déclencheur en plusieurs segments plus petits. Chaque image empoisonnée est alors modifiée avec juste un segment. Pendant l'inférence, le modèle doit reconnaître les segments séparés collectivement pour fonctionner comme prévu.

Backdoor Contrôlée par Paramètre

Dans ce scénario, les attaquants peuvent modifier entièrement le processus d'entraînement, leur permettant d'incorporer une fonctionnalité malveillante dans juste un petit ensemble de paramètres du modèle. Cela leur donne un puissant avantage, rendant plus difficile pour nos défenses de détecter et de réparer le modèle.

Conclusion

Les résultats présentés dans notre travail mettent en lumière l'équilibre critique entre détectabilité et robustesse dans les attaques par empoisonnement de données. Nos défenses améliorent la capacité à identifier et à réparer les modèles altérés, repoussant les limites de ce que les attaquants peuvent réaliser.

En tant que communauté, il est essentiel de reconnaître que les stratégies de défense contre les attaques par empoisonnement de données doivent évoluer parallèlement aux méthodes utilisées par les attaquants. En comprenant l'interaction entre l'efficacité des attaques et la détectabilité, on peut mieux se préparer aux défis dans ce domaine.

Les travaux futurs devraient se concentrer sur l'amélioration des mécanismes de défense, l'exploration des diverses complexités des attaques, et l'intégration de ces stratégies dans des applications réelles. Cette recherche continue garantira que les modèles de classification d'images profonds maintiennent leur intégrité et leur fiabilité face aux menaces émergentes.

Source originale

Titre: Pick your Poison: Undetectability versus Robustness in Data Poisoning Attacks

Résumé: Deep image classification models trained on vast amounts of web-scraped data are susceptible to data poisoning - a mechanism for backdooring models. A small number of poisoned samples seen during training can severely undermine a model's integrity during inference. Existing work considers an effective defense as one that either (i) restores a model's integrity through repair or (ii) detects an attack. We argue that this approach overlooks a crucial trade-off: Attackers can increase robustness at the expense of detectability (over-poisoning) or decrease detectability at the cost of robustness (under-poisoning). In practice, attacks should remain both undetectable and robust. Detectable but robust attacks draw human attention and rigorous model evaluation or cause the model to be re-trained or discarded. In contrast, attacks that are undetectable but lack robustness can be repaired with minimal impact on model accuracy. Our research points to intrinsic flaws in current attack evaluation methods and raises the bar for all data poisoning attackers who must delicately balance this trade-off to remain robust and undetectable. To demonstrate the existence of more potent defenders, we propose defenses designed to (i) detect or (ii) repair poisoned models using a limited amount of trusted image-label pairs. Our results show that an attacker who needs to be robust and undetectable is substantially less threatening. Our defenses mitigate all tested attacks with a maximum accuracy decline of 2% using only 1% of clean data on CIFAR-10 and 2.5% on ImageNet. We demonstrate the scalability of our defenses by evaluating large vision-language models, such as CLIP. Attackers who can manipulate the model's parameters pose an elevated risk as they can achieve higher robustness at low detectability compared to data poisoning attackers.

Auteurs: Nils Lukas, Florian Kerschbaum

Dernière mise à jour: 2023-06-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.09671

Source PDF: https://arxiv.org/pdf/2305.09671

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires