TA-Cleaner : Une nouvelle défense contre les attaques sur les modèles multimodaux
Voici TA-Cleaner, une méthode pour améliorer les défenses des modèles multimodaux contre l'empoisonnement des données.
Yuan Xun, Siyuan Liang, Xiaojun Jia, Xinwei Liu, Xiaochun Cao
― 10 min lire
Table des matières
Ces dernières années, de grands modèles pour apprendre à partir d'images et de textes, comme CLIP, se sont révélés super utiles. Mais, ils sont aussi vulnérables aux attaques qui peuvent détraquer le processus d'apprentissage avec de mauvaises données. Ces attaques peuvent causer de gros soucis quand on essaie d'entraîner des modèles pour différentes tâches. Pour régler ces problèmes, le fine-tuning des modèles peut être une meilleure stratégie pour se défendre contre ces attaques plutôt que de recommencer l'entraînement à zéro avec de nouvelles données.
Le fine-tuning marche bien en apprentissage supervisé, où des données étiquetées sont dispos. Mais quand des modèles comme CLIP font face à des attaques plus complexes, les méthodes de défense existantes comme CleanCLIP montrent des limites. Un problème est que la manière dont CleanCLIP modifie les données textuelles n'est pas suffisante pour aider le modèle à reconnaître les différentes caractéristiques nécessaires pour se défendre contre ces attaques. Pour améliorer ça, on introduit une nouvelle méthode appelée TA-Cleaner qui se concentre davantage sur l'ajustement des connexions dans les caractéristiques pour couper les liens que les attaquants exploitent.
Dans cette approche, on prend quelques échantillons de textes bons et mauvais chaque fois qu'on ajuste le modèle. De cette façon, on peut renforcer l'auto-supervision du texte, permettant au modèle de mieux aligner le texte avec les images. On a testé TA-Cleaner avec six méthodes d'attaque différentes et évalué la performance du modèle à travers des tests de classification zero-shot sur le dataset ImageNet1K. Les résultats montrent que TA-Cleaner fonctionne beaucoup mieux que les méthodes précédentes, même face à de nouvelles techniques d'attaque, réduisant considérablement le Taux de réussite des attaques.
Apprentissage contrastif et Ses Défis
L'apprentissage contrastif est une méthode qui aide les modèles à apprendre en comparant différentes représentations de données. Ça rapproche des échantillons similaires dans l'espace des caractéristiques tout en éloignant ceux qui sont différents. Cette technique a bien fonctionné dans des domaines comme le traitement du langage naturel et la vision par ordinateur. Récemment, l'apprentissage contrastif a été adapté pour des données multimodales, impliquant à la fois des images et des textes. En s'entraînant sur de grands ensembles de paires image-texte, les modèles peuvent apprendre à associer les images avec leurs textes correspondants.
Bien que l'apprentissage contrastif multimodal soit puissant, des études récentes ont montré qu'il est vulnérable aux attaques où des mauvaises données sont mélangées. Les attaquants peuvent utiliser un petit nombre d'échantillons pollués pour biaiser le modèle, affectant ainsi sa capacité à aligner correctement les caractéristiques entre les images et les textes. En pratique, ça peut vouloir dire qu'un modèle entraîné sur des données propres pourrait produire des résultats incorrects lorsqu'il est confronté à des images spécifiques polluées lors d'évaluations ultérieures.
Pour s'attaquer à ces problèmes, beaucoup de chercheurs ont regardé comment défendre ces modèles. Une approche a été d'appliquer différentes techniques d'augmentation de données pour perturber les déclencheurs potentiels que les attaquants pourraient utiliser. Le processus d'entraînement complet peut être lourd pour toutes les parties impliquées, qu'elles soient attaquantes ou défensives. Les attaquants peuvent non seulement empoisonner les données d'entraînement, mais aussi contaminer des modèles pré-entraînés. Donc, c'est intéressant de se pencher sur l'utilisation d'un petit dataset propre pour affiner ces grands modèles, ce qui pourrait réduire les risques posés par les attaques de porte dérobée.
CleanCLIP, une stratégie de défense bien connue, a reconnu que les images polluées et propres ont tendance à se regrouper dans différentes parties de l'espace des caractéristiques. Cette méthode fonctionne en apprenant au modèle à apprendre séparément de ces deux types d'images, dans l'espoir de perturber les connexions faciles que les attaques de porte dérobée créent. Cependant, bien que CleanCLIP ait montré de bons résultats, il a encore certaines faiblesses, particulièrement dans des contextes non supervisés et semi-supervisés.
Limitations des Défenses Existantes
On a remarqué que quand on utilise CleanCLIP contre diverses attaques, le modèle fait mieux dans certains domaines, mais pas dans d'autres. Par exemple, bien qu'il parvienne à réduire le taux de succès des attaques dans certains tests, il ne performe pas aussi bien dans d'autres. La méthode utilisée par CleanCLIP pour améliorer les caractéristiques textuelles n'est pas suffisante pour contrer certaines attaques sophistiquées. En particulier, des méthodes comme BadCLIP posent un défi, entraînant de mauvais résultats en défense.
Pour voir comment on peut améliorer CleanCLIP, on a analysé comment il utilise le remplacement par des synonymes pour modifier les données textuelles. Cette approche n'est pas assez efficace quand il s'agit de mettre à jour la distribution des caractéristiques du texte, ce qui en fait un point faible pour défendre contre des déclencheurs bien conçus. Pour répondre à ces lacunes, on propose un nettoyeur d'alignement de texte plus précis - TA-Cleaner. Cette méthode se concentre sur l'amélioration des défenses du modèle en générant des sous-textes et en les alignant plus soigneusement pour créer un mécanisme de défense plus robuste.
Comment TA-Cleaner Fonctionne
TA-Cleaner fonctionne en générant des sous-textes positifs et négatifs à partir des données textuelles originales. Pour chaque morceau de texte, on analyse sa structure et utilise certains mots comme ancres pour créer de nouvelles variations. Ça permet au modèle de garder un contexte solide tout en changeant suffisamment en termes de caractéristiques. On applique ensuite un apprentissage contrastif fin, qui compare les images à ces sous-textes.
En maintenant la qualité de la capacité d'inférence originale du modèle et en améliorant la performance de défense, TA-Cleaner montre un potentiel considérable. Ça repose essentiellement sur CleanCLIP mais le rend plus efficace en se concentrant sur les sous-textes. Notre évaluation à travers des classifications zero-shot sur ImageNet1K montre qu même face à des méthodes d'attaques plus récentes, TA-Cleaner peut réduire considérablement les taux de réussite de ces attaques tout en gardant la précision originale du modèle élevée.
Évaluation de TA-Cleaner
Pour évaluer l'efficacité de TA-Cleaner, on le compare à plusieurs méthodes d'attaque standards, comme BadNet, Blended et BadCLIP. Le processus d'évaluation implique un fine-tuning du modèle CLIP en utilisant notre dataset de 500 000 paires image-texte. Après avoir appliqué TA-Cleaner, on mesure le taux de succès des attaques (ASR) et l'exactitude bénigne (BA).
Les résultats des tests révèlent que TA-Cleaner réduit notablement l'ASR face à diverses attaques. Par exemple, face à l'attaque BadCLIP, qui pose des défis importants, TA-Cleaner peut diminuer considérablement l'ASR, protégeant ainsi le modèle contre des erreurs tout en maintenant ses fonctionnalités de base.
L'Importance des Ajustements Fins
Les ajustements fins dans TA-Cleaner sont cruciaux pour obtenir une meilleure performance défensive. Au lieu d'essayer de modifier chaque donnée, on sélectionne aléatoirement un petit nombre d'échantillons pour appliquer notre stratégie de génération de texte à chaque round de fine-tuning. Ce focus sélectif aide à conserver la capacité du modèle à exprimer ses caractéristiques originales avec précision tout en se défendant contre les attaques.
On fait aussi attention à garder un équilibre approprié entre les échantillons positifs et négatifs dans le cadre de l'entraînement du modèle. Ajuster la sensibilité du modèle à ces échantillons peut influencer sa performance sous attaque. En expérimentant avec ces paramètres de température, on a trouvé des réglages spécifiques qui améliorent les capacités défensives de notre modèle sans compromettre sa précision globale.
Comprendre les Mécanismes d'Attaque
Les attaquants utilisent des techniques de porte dérobée pour créer des modèles qui se comportent normalement dans des conditions classiques tout en agissant malicieusement dans des circonstances précises, comme quand ils rencontrent des déclencheurs spécifiques. Pour les modèles CLIP, les attaquants peuvent modifier les paires image-texte originales pour inclure ces déclencheurs, apprenant ainsi au modèle à les associer à des réponses incorrectes particulières.
Quand un modèle entraîné avec ces échantillons pollués est ensuite testé avec des échantillons propres, il peut encore bien performer. Cependant, il générera des résultats incorrects s'il rencontre des entrées avec des déclencheurs spécifiques. Cette menace cachée peut entraîner de graves conséquences dans des applications pratiques, raison pour laquelle se concentrer sur de solides mécanismes de défense est essentiel.
Tester Contre les Attaques de Porte Dérobée
Notre stratégie de défense cible les attaques de porte dérobée basées sur le poisoning des données. La méthode utilisée par les attaquants consiste généralement à infiltrer le dataset d'entraînement avec des exemples pollués. On a utilisé divers datasets pour simuler des attaques en modifiant une sélection de paires image-texte. De cette manière, on a pu voir comment nos modèles se comportent face à ces menaces.
En utilisant nos modèles ajustés, on a procédé à des évaluations rigoureuses, mesurant comment ils réagissent non seulement aux entrées propres mais aussi à celles contenant des déclencheurs. Nos résultats montrent que TA-Cleaner est efficace, maintenant des taux de précision élevés tout en réduisant considérablement les chances de succès d'une attaque.
Conclusion
TA-Cleaner offre une solution viable pour défendre les modèles d'apprentissage contrastif multimodal contre les attaques de porte dérobée. En introduisant des ajustements fins et en se concentrant sur la génération prudente de sous-textes, cette méthode améliore la capacité du modèle à résister aux attaques tout en préservant sa fonctionnalité originale.
Cependant, il est important de noter que bien que notre approche de défense excelle face aux attaques basées sur les images, on n'a pas encore exploré son efficacité contre les attaques basées sur le texte de manière exhaustive. Les travaux futurs viseront à élargir notre champ de stratégies de défense pour inclure une plus grande variété de types d'attaques à travers différentes modalités.
Dans l'ensemble, TA-Cleaner améliore non seulement les méthodes de défense précédentes mais trouve aussi un équilibre entre une défense efficace et l'utilisabilité du modèle.
Titre: CleanerCLIP: Fine-grained Counterfactual Semantic Augmentation for Backdoor Defense in Contrastive Learning
Résumé: Pre-trained large models for multimodal contrastive learning, such as CLIP, have been widely recognized in the industry as highly susceptible to data-poisoned backdoor attacks. This poses significant risks to downstream model training. In response to such potential threats, finetuning offers a simpler and more efficient defense choice compared to retraining large models with augmented data. In the supervised learning domain, fine-tuning defense strategies can achieve excellent defense performance. However, in the unsupervised and semi-supervised domain, we find that when CLIP faces some complex attack techniques, the existing fine-tuning defense strategy, CleanCLIP, has some limitations on defense performance. The synonym substitution of its text-augmentation is insufficient to enhance the text feature space. To compensate for this weakness, we improve it by proposing a fine-grained \textbf{T}ext \textbf{A}lignment \textbf{C}leaner (TA-Cleaner) to cut off feature connections of backdoor triggers. We randomly select a few samples for positive and negative subtext generation at each epoch of CleanCLIP, and align the subtexts to the images to strengthen the text self-supervision. We evaluate the effectiveness of our TA-Cleaner against six attack algorithms and conduct comprehensive zero-shot classification tests on ImageNet1K. Our experimental results demonstrate that TA-Cleaner achieves state-of-the-art defensiveness among finetuning-based defense techniques. Even when faced with the novel attack technique BadCLIP, our TA-Cleaner outperforms CleanCLIP by reducing the ASR of Top-1 and Top-10 by 52.02\% and 63.88\%, respectively.
Auteurs: Yuan Xun, Siyuan Liang, Xiaojun Jia, Xinwei Liu, Xiaochun Cao
Dernière mise à jour: 2024-11-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.17601
Source PDF: https://arxiv.org/pdf/2409.17601
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.