Nouvelle méthode d'attaque par porte dérobée pour les gros modèles d'IA
Une approche économe en ressources pour les attaques par porte dérobée sur des modèles d'apprentissage automatique avancés.
― 7 min lire
Table des matières
Les attaques par backdoor sur les modèles avancés d'apprentissage automatique deviennent de plus en plus inquiétantes. Ces attaques se cachent dans les modèles et peuvent les induire en erreur lorsqu'ils sont utilisés. Un des gros défis avec ces attaques, c'est le besoin de puissance de calcul énorme, surtout quand on vise de gros modèles. Plus les modèles prennent de l'ampleur, plus les ressources nécessaires pour une attaque par backdoor deviennent peu pratiques.
Dans la plupart des cas, les méthodes traditionnelles pour les attaques par backdoor impliquent de réentraîner tout le modèle. C'est pas vraiment faisable pour des modèles très grands comme Llama-3-70B, surtout si l'attaquant a des Ressources Informatiques limitées. Beaucoup d'attaques existantes sont conçues pour des modèles plus petits ou des tâches spécifiques, laissant un vide quand il s'agit de très grands modèles.
Approche proposée
On propose un nouveau type d'attaque par backdoor spécialement conçu pour les grands modèles. Cette méthode ne nécessite pas de réentraîner tout le modèle. Au lieu de ça, on ajuste seulement un petit nombre de Paramètres du modèle, ce qui la rend efficace en termes de ressources. En procédant ainsi, on peut créer des attaques par backdoor efficaces contre de grands modèles sans avoir besoin d'un supercalculateur.
Notre technique fonctionne en s'assurant que le modèle modifié réagit de la même manière aux entrées empoisonnées, peu importe le sens réel de ces entrées. On y arrive en ajustant la structure du modèle d'une manière spécifique. On introduit aussi une façon unique d'injecter des déclencheurs (les signaux qui lancent l'attaque) qui rend l'attaque difficile à détecter.
Détails techniques
Notre attaque par backdoor s'appuie sur des entrées limitées et se concentre sur les représentations cachées du modèle. L'objectif de notre méthode est de garantir que les entrées empoisonnées mènent à des résultats similaires du modèle. On fait ça en ajustant seulement une petite partie du modèle.
On améliore ce processus avec une technique qu'on appelle QLoRA, qui nous permet d'ajuster efficacement les réglages en utilisant juste un GPU A100. En ajustant seulement une petite portion des paramètres, on économise pas mal de ressources informatiques par rapport aux méthodes traditionnelles.
Le déclencheur utilisé dans notre attaque est choisi avec soin. Au lieu d'utiliser des mots aléatoires ou rares, on utilise des mots significatifs qui s’intègrent naturellement dans le contexte de l'entrée. Ça rend plus difficile pour les défenses de détecter l'attaque.
Expériences et résultats
Pour valider notre méthode, on a réalisé des expériences approfondies sur plusieurs grands modèles. Ces expériences visaient à montrer l'efficacité de nos attaques par backdoor et comment elles affectent les fonctions normales du modèle.
On s'est concentré sur quatre modèles populaires : Llama-3-8B, Llama-3-70B, Llama-2-70B et Mistral-822B. Pendant nos tests, on a découvert que notre méthode pouvait lancer avec succès des attaques par backdoor tout en gardant intactes les fonctions régulières des modèles. C'était une amélioration significative par rapport aux méthodes existantes.
Un des résultats marquants était que notre attaque prenait moins de huit heures à entraîner avec un seul GPU A100, ce qui est beaucoup plus rapide que les méthodes existantes qui nécessitent beaucoup plus de puissance de calcul.
Résilience et efficacité
On a aussi testé à quel point notre attaque par backdoor résiste face aux dernières techniques de défense. Les résultats ont montré que notre méthode reste efficace même quand les modèles subissent des défenses conçues pour éliminer les menaces par backdoor.
De plus, notre approche a été spécifiquement conçue pour être efficace. On a soigneusement analysé les besoins en ressources et a trouvé que notre méthode pouvait économiser des coûts computationnels et de mémoire considérables par rapport aux méthodes traditionnelles. Ça rend notre attaque accessible aux chercheurs qui n'ont pas accès à des ressources étendues.
Exploration d'autres menaces
Récemment, plusieurs types d'attaques ont été développés contre les modèles fondamentaux, comme les attaques de jailbreak et d'injection de prompt. Cependant, les attaques par backdoor posent des défis uniques, surtout avec les grands modèles. L'objectif de notre travail est de faciliter aux chercheurs le test de ces menaces sans avoir besoin de ressources extensives.
L'approche qu'on a développée aide les chercheurs et les organisations à mieux comprendre les menaces par backdoor. Cette connaissance peut encourager la création de défenses plus robustes contre de telles attaques. Tester ces menaces sensibilise également aux potentielles vulnérabilités des grands modèles.
Métriques de performance
On a utilisé plusieurs métriques de performance pour évaluer le succès de nos attaques par backdoor. Une métrique clé est le Taux de Succès de l'Attaque (ASR), qui mesure à quelle fréquence le modèle produit la sortie souhaitée de l'attaque en réponse aux entrées empoisonnées. On a aussi regardé le maintien de l'utilité pour s'assurer que la performance globale du modèle reste intacte après l'attaque.
Nos résultats ont indiqué que notre attaque était non seulement efficace, mais qu'elle préservait aussi un haut niveau d'utilité normale dans les modèles. Ça veut dire que les modèles continuaient à bien performer sur leurs tâches originales sans dégradation significative de la performance.
Mécanismes de défense
La recherche continue sur les attaques par backdoor a aussi conduit au développement de divers mécanismes de défense. Ces défenses visent à identifier et à éliminer les backdoors des modèles. Certaines approches courantes impliquent de réentraîner les modèles avec des données propres ou d'utiliser des techniques pour trouver et supprimer les structures utilisées pour déclencher une attaque.
Cependant, nos découvertes indiquent que beaucoup de ces défenses ont des limites, surtout face à une attaque par backdoor comme la nôtre. La discrétion de notre déclencheur rend difficile pour ces défenses de cerner le problème.
Travail futur
Bien que notre travail présente une base solide pour comprendre et tester les attaques par backdoor, il ouvre aussi des portes pour de futures recherches. Des améliorations possibles à notre méthode pourraient impliquer l'exploration de différents types de déclencheurs qui réduisent encore le risque de détection ou d'améliorer la discrétion globale de l'attaque.
En plus, alors que les modèles d'apprentissage automatique continuent d'évoluer, le besoin de stratégies de défense mises à jour devient crucial. Les études futures pourraient évaluer comment notre approche s'adapte à des architectures et des méthodologies émergentes dans le domaine.
Conclusion
En résumé, on a introduit une méthode pour lancer des attaques par backdoor contre de grands modèles d'apprentissage automatique tout en utilisant un minimum de ressources. Cette approche met en lumière le besoin de défendre mieux face à des technologies qui avancent rapidement. Nos découvertes encouragent l'exploration continue de la sécurité et de la sûreté des modèles fondamentaux, assurant que chercheurs et développeurs restent vigilants.
En facilitant la compréhension et le test des menaces par backdoor, on espère contribuer à l'élaboration de défenses plus robustes, menant finalement à des applications d'intelligence artificielle plus sûres dans divers domaines.
Titre: TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models
Résumé: One key challenge in backdoor attacks against large foundation models is the resource limits. Backdoor attacks usually require retraining the target model, which is impractical for very large foundation models. Existing backdoor attacks are mainly designed for supervised classifiers or small foundation models (e.g., BERT). None of these attacks has successfully compromised a very large foundation model, such as Llama-3-70B, especially with limited computational resources. In this paper, we propose TrojFM, a novel backdoor attack tailored for very large foundation models. Our primary technical contribution is the development of a novel backdoor injection method. This method forces a backdoored model to generate similar hidden representations for poisoned inputs regardless of their actual semantics. Our approach injects such backdoors by fine-tuning only a very small proportion of model parameters. This enables TrojFM to efficiently launch downstream task-agnostic backdoor attacks against very large foundation models under limited computational resources. Moreover, we optimize the fine-tuning process with our customized QLoRA technique, enabling launching our attack via only~\textit{one A100 GPU}. Furthermore, we design a new trigger injection method to ensure our attack stealthiness. Through extensive experiments, we first demonstrate that TrojFM can launch effective backdoor attacks against widely used large GPT-style models without jeopardizing their normal functionalities (and outperforming existing attacks on BERT-style models). Furthermore, we show that TrojFM is resilient to SOTA defenses and is insensitive to changes in key hyper-parameters. Finally, we conduct a resource analysis to quantify that our method can significantly save computational and memory costs compared to existing backdoor attacks.
Auteurs: Yuzhou. Nie, Yanting. Wang, Jinyuan. Jia, Michael J. De Lucia, Nathaniel D. Bastian, Wenbo. Guo, Dawn. Song
Dernière mise à jour: 2024-05-26 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.16783
Source PDF: https://arxiv.org/pdf/2405.16783
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.