Simple Science

La science de pointe expliquée simplement

# Informatique# Cryptographie et sécurité# Apprentissage automatique

Attaques de Trojan adaptatives sur les réseaux de neurones profonds

De nouvelles stratégies permettent aux attaques par Trojan de contourner efficacement les méthodes de détection.

― 9 min lire


Les attaques par TrojanLes attaques par Trojanévoluent contre les DNN.préoccupations en matière de sécurité.la détection, soulevant de nouvellesLes stratégies adaptatives contournent
Table des matières

Les réseaux neuronaux profonds (DNN) sont devenus super courants dans plein de domaines, comme la vision, la santé, les jeux et les voitures autonomes. Ils fonctionnent très bien mais ont aussi quelques faiblesses. L'une d'elles, c'est qu'ils sont vulnérables aux attaques Trojan. Dans ces attaques, un déclencheur est discrètement ajouté à certaines entrées, permettant à l'attaquant de manipuler les prédictions du DNN quand ces entrées spécifiques sont utilisées. Le challenge, c'est de détecter ces modèles Trojan.

Les modèles de détection basés sur les sorties peuvent identifier les DNN Trojan en regardant leurs sorties quand on leur donne des entrées modifiées. Ces détecteurs se sont améliorés avec le temps mais partent souvent du principe que l'attaquant est prévisible et ne connaît pas les Méthodes de détection. Cependant, les attaquants peuvent aussi adapter leurs méthodes pour éviter d'être détectés.

Dans ce travail, on propose une nouvelle manière pour les attaquants de réentraîner leurs modèles Trojan en étant conscients des détecteurs. En faisant ça, ils peuvent maintenir une haute précision sur les entrées avec déclencheur et sur les entrées normales, tout en évitant la détection.

Contexte sur les DNN et les Attaques Trojan

Les DNN sont entraînés pour classer des échantillons de données dans différentes catégories. Par exemple, dans une tâche de classification d'images, le modèle va prédire à quelle catégorie appartient une image (comme un chat ou un chien). Cependant, les attaquants peuvent exploiter ces modèles. Ils peuvent intégrer un motif de déclencheur dans certaines entrées. Quand le modèle rencontre ces entrées avec le déclencheur, il est piégé pour produire une sortie spécifique qui bénéficie à l'attaquant, tout en se comportant normalement sur les entrées régulières.

Cette manipulation peut avoir des conséquences graves, surtout dans des applications critiques comme la conduite autonome. De ce fait, les attaquants et les défenseurs développent continuellement de nouvelles méthodes pour se surpasser.

Méthodes de Détection

Comme les DNN sont ciblés par des attaques Trojan, les chercheurs ont créé des méthodes de détection. Globalement, ces méthodes se divisent en deux catégories : le filtrage basé sur les entrées et les détecteurs basés sur les sorties.

Le filtrage basé sur les entrées consiste à retirer les échantillons suspects des données d'entraînement avant qu'elles n'atteignent le DNN. Les détecteurs basés sur les sorties, par contre, se concentrent sur l'examen des sorties du DNN quand il reçoit divers entrées. Ces détecteurs peuvent fonctionner sans avoir besoin de voir les données d'entraînement du DNN, ce qui les rend plus pratiques dans des scénarios du monde réel.

Détecteurs Basés sur les Sorties

Les détecteurs basés sur les sorties sont privilégiés car ils ne nécessitent qu'un accès en boîte noire aux modèles. Ils analysent les sorties que le modèle génère en réponse à différentes entrées. Il y a deux types principaux de ces détecteurs :

  1. Détecteurs Supervisés : Ceux-ci utilisent des données étiquetées pour entraîner un classificateur binaire qui peut différencier entre les sorties des modèles propres et Trojan.
  2. Détecteurs Non Supervisés : Ces méthodes utilisent des techniques de détection d'anomalies pour vérifier si les sorties d'un modèle semblent étranges ou suspectes.

Les deux types visent à déterminer si un modèle est Trojan en analysant comment ses sorties changent avec différentes entrées. Beaucoup de ces détecteurs ont montré des succès mais partent souvent du principe que les attaquants sont statiques et ne s'ajustent pas.

Le Challenge avec les Attaquants Adaptatifs

En réalité, les attaquants ne sont pas toujours statiques. Ils peuvent apprendre sur les méthodes de détection basées sur les sorties et adapter leurs stratégies en conséquence. Cette dynamique crée un scénario de va-et-vient où les deux côtés évoluent pour se surpasser.

Les méthodes précédentes ne prenaient pas en compte les attaquants adaptatifs, laissant ainsi une lacune dans nos approches de détection Trojan. Si l'attaquant connaît la méthode de détection, il peut réentraîner ses modèles Trojan d'une manière qui maintient la précision et évite la détection.

L'Adversaire Adaptatif Proposé

On propose une stratégie qui permet aux attaquants d'altérer leurs DNN Trojan tout en étant conscients des détecteurs basés sur les sorties. La nouvelle approche se compose de deux étapes principales :

  1. L'attaquant intègre un déclencheur dans des échantillons propres sélectionnés et entraîne le DNN pour s'assurer que le modèle Trojan se comporte bien sur les échantillons propres et ceux avec déclencheur.
  2. L'attaquant utilise ensuite le modèle Trojan mis à jour pour ajuster les paramètres du détecteur afin de maximiser sa performance.

Ce processus itératif continue jusqu'à ce qu'aucune amélioration supplémentaire ne puisse être faite, tant dans la performance du DNN Trojan que dans la détectabilité du modèle.

Points Clés

Le grand nombre de paramètres dans les DNN leur donne beaucoup de marge pour s'ajuster à différentes entrées. Cette flexibilité permet aux attaquants de créer des modèles Trojan qui peuvent encore bien fonctionner tout en restant indétectés. L'interaction entre l'attaquant et le mécanisme de détection peut être vue comme un jeu où les deux parties essaient de se surpasser.

Expériences et Résultats

Pour valider notre nouvelle approche, on a mené une série d'expériences en utilisant plusieurs ensembles de données, y compris des images et des commandes audio. L'objectif était de voir à quel point notre attaquant adaptatif pouvait contourner les méthodes de détection Trojan basées sur les sorties les plus performantes.

Méthodologie

On a utilisé plusieurs ensembles de données bien connus, qui contiennent divers exemples pour entraîner et tester nos méthodes. Les ensembles de données incluaient :

  • MNIST : Un ensemble de données de chiffres manuscrits.
  • CIFAR-10 et CIFAR-100 : Des ensembles de données contenant des images d'objets courants.
  • SpeechCommand : Une collection de fichiers audio pour des commandes parlées.

Les expériences visaient à mesurer :

  • La précision des échantillons propres classés par le modèle.
  • Le taux de succès de la classification des échantillons avec déclencheur.
  • Les taux de détection des détecteurs Trojan SOTA.

Résultats

Nos résultats ont révélé que l'adversaire adaptatif était efficace pour contourner les méthodes de détection. L'attaque a maintenu un haut taux de succès dans la manipulation des modèles, atteignant des résultats significatifs dans tous les ensembles de données.

En particulier, les résultats indiquent clairement que la stratégie proposée a permis aux modèles Trojan d'échapper à la détection. Même lorsque le mécanisme de détection a été ajusté, notre approche a quand même donné de meilleures performances globales pour l'attaquant.

Algorithme Glouton pour l'Intégration de Déclencheurs

On a aussi introduit un algorithme glouton pour aider l'attaquant à choisir quels échantillons d'entrée intégrer les déclencheurs Trojan. L'objectif était de minimiser les coûts opérationnels tout en garantissant une grande efficacité.

Considérations Clés

Lors de la sélection des échantillons d'entrée pour l'intégration des déclencheurs, l'attaquant devait garder en tête trois facteurs principaux :

  1. Coût de l'Attaque : Un plus grand nombre d'échantillons intégrant des déclencheurs augmente les coûts opérationnels pour l'attaquant.
  2. Intégrité du Modèle : Trop d'échantillons intégrant des déclencheurs peut dégrader la précision du modèle Trojan sur les entrées propres, augmentant le risque de détection.
  3. Discrétion : Un nombre excessif d'échantillons avec déclencheurs peut conduire à une détection rapide par des méthodes avancées.

L'algorithme glouton garantit que l'attaquant utilise le nombre minimal d'échantillons nécessaires pour atteindre les effets désirés sans attirer l'attention.

Conclusion

Notre travail met en lumière la bataille en évolution entre les DNN et les attaques Trojan. À mesure que les méthodes de détection s'améliorent, les stratégies des attaquants le font aussi. En créant un modèle d'adversaire adaptatif, on a démontré qu'il est possible pour les attaquants d'atteindre une haute précision tant sur les entrées propres que sur celles intégrant des déclencheurs tout en évitant efficacement la détection.

De plus, l'intégration d'un algorithme glouton dans le processus permet aux attaquants d'être plus efficaces dans leurs approches d'intégration de déclencheurs. Avec des expériences étendues démontrant l'efficacité de cette nouvelle approche à travers divers ensembles de données et méthodes de détection, il est clair que le paysage de la détection Trojan doit continuer à évoluer.

Alors que les défenseurs développent des techniques plus avancées, les chercheurs doivent développer des approches innovantes pour garder le rythme avec les menaces en évolution. Ce tir à la corde constant souligne l'importance de rester vigilant et proactif pour protéger l'intégrité des modèles d'apprentissage automatique et des données qu'ils traitent.

Source originale

Titre: Game of Trojans: Adaptive Adversaries Against Output-based Trojaned-Model Detectors

Résumé: We propose and analyze an adaptive adversary that can retrain a Trojaned DNN and is also aware of SOTA output-based Trojaned model detectors. We show that such an adversary can ensure (1) high accuracy on both trigger-embedded and clean samples and (2) bypass detection. Our approach is based on an observation that the high dimensionality of the DNN parameters provides sufficient degrees of freedom to simultaneously achieve these objectives. We also enable SOTA detectors to be adaptive by allowing retraining to recalibrate their parameters, thus modeling a co-evolution of parameters of a Trojaned model and detectors. We then show that this co-evolution can be modeled as an iterative game, and prove that the resulting (optimal) solution of this interactive game leads to the adversary successfully achieving the above objectives. In addition, we provide a greedy algorithm for the adversary to select a minimum number of input samples for embedding triggers. We show that for cross-entropy or log-likelihood loss functions used by the DNNs, the greedy algorithm provides provable guarantees on the needed number of trigger-embedded input samples. Extensive experiments on four diverse datasets -- MNIST, CIFAR-10, CIFAR-100, and SpeechCommand -- reveal that the adversary effectively evades four SOTA output-based Trojaned model detectors: MNTD, NeuralCleanse, STRIP, and TABOR.

Auteurs: Dinuka Sahabandu, Xiaojun Xu, Arezoo Rajabi, Luyao Niu, Bhaskar Ramasubramanian, Bo Li, Radha Poovendran

Dernière mise à jour: 2024-02-12 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.08695

Source PDF: https://arxiv.org/pdf/2402.08695

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires