Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle

Améliorer les Vision Transformers contre les attaques adverses

Nouvelle architecture ViT améliore la précision tout en résistant aux menaces adversariales.

― 8 min lire


ViTs améliorés contre lesViTs améliorés contre lesattaquesadverses.tout en résistant aux attaquesNouveau modèle garde de la précision
Table des matières

Ces dernières années, les réseaux neuronaux, surtout ceux conçus pour des tâches visuelles, ont fait de gros progrès. Un type de modèle qui attire l'attention est le Vision Transformer (ViT). Ces modèles montrent des performances solides dans de nombreuses tâches liées à la vision, mais ils rencontrent aussi des défis en matière de sécurité, notamment face aux attaques adversariales. Les attaques adversariales sont des entrées manipulatrices qui trompent le modèle et le poussent à faire de mauvaises prédictions. C'est un gros problème dans des domaines critiques comme la santé et la conduite autonome, où les erreurs peuvent avoir de graves conséquences.

Pour rendre les ViTs plus résistants à ces attaques, une technique appelée entraînement adversarial (AT) est souvent utilisée. Cela consiste à exposer le modèle à des exemples adversariaux pendant l'entraînement pour qu'il apprenne à mieux les gérer. Cependant, cette approche a ses inconvénients. En effet, même si elle peut améliorer la robustesse contre les attaques, elle réduit souvent la précision du modèle sur des entrées régulières et propres. Trouver le bon équilibre entre maintenir la précision sur les entrées propres et être robuste contre les attaques reste un défi.

Le Problème avec les Méthodes Actuelles

La plupart des méthodes actuelles, y compris diverses stratégies AT, améliorent soit la capacité du modèle à résister aux attaques adversariales, soit sa précision sur des images propres, mais ne brillent pas dans les deux domaines. De plus, certaines méthodes peuvent bien fonctionner contre les attaques standard, mais galèrent face à des attaques plus avancées et adaptatives qui évoluent en fonction des faiblesses du modèle. Cette limitation rend les solutions existantes moins fiables dans des situations réelles.

En plus de ça, les méthodes de détection traditionnelles qui essaient d'identifier et de rejeter les entrées malveillantes sont souvent inefficaces contre des attaques sophistiquées. Beaucoup de ces techniques de détection ne sont pas applicables lorsque les entrées sont naturellement adversariales, c'est-à-dire qu'elles ne sont pas visiblement malveillantes mais conçues pour embrouiller le modèle quand même.

Avec toutes ces limites, il devient crucial d'explorer de nouvelles stratégies qui peuvent renforcer la résilience du modèle contre les attaques adaptatives tout en gardant ses performances sur des entrées propres.

Notre Approche

Pour aborder ces problèmes, on propose une nouvelle architecture de ViT qui comprend à la fois un Détecteur et un Classificateur connectés par un ensemble adaptatif. L'idée est d'améliorer la capacité du modèle à détecter efficacement les exemples adversariaux tout en maintenant une haute précision sur les images propres. Notre approche repose sur deux idées innovantes :

  1. Rétropropagation Guidée : On utilise cette technique pour renforcer notre détecteur, ce qui lui permet de mieux reconnaître les entrées adversariales. La rétropropagation guidée aide à visualiser les zones des images les plus affectées par les changements adversariaux, rendant les manipulations plus visibles pour le modèle.

  2. Ensemble Adaptatif : Ce composant permet au modèle de combiner dynamiquement les informations des encodeurs propres et adversariaux. En masquant certaines parties d'une image, on peut réduire l'impact du bruit adversarial, permettant au classificateur de faire quand même des prédictions précises.

Les Composants de Notre Système

Le Détecteur

Le premier composant, le détecteur, est conçu pour identifier si une image d'entrée est propre ou adversariale. Il utilise un mécanisme d'auto-attention multi-tête pour comprendre et exposer efficacement les perturbations adversariales. L'objectif ici est d'améliorer les capacités de détection du modèle, lui permettant de réagir correctement aux entrées malveillantes.

Pour entraîner le détecteur, on a introduit une nouvelle fonction de perte combinant la mesure d'erreur standard avec une perte Soft-Nearest Neighbors. Cette approche aide à distinguer entre les exemples propres et adversariaux en soulignant leurs différences. Le résultat est un modèle qui peut repérer efficacement les entrées malveillantes même dans des scénarios difficiles.

Le Classificateur

Le deuxième composant, le classificateur, vise à classer avec précision à la fois les images propres et les exemples adversariaux. On introduit deux encodeurs séparés dans le classificateur : un pour les entrées propres et un pour les entrées adversariales. Cette séparation permet à chaque encodeur de se concentrer sur l'apprentissage des caractéristiques uniques de son type d'entrée respectif.

Au cours du processus d'entraînement, le classificateur passe par deux étapes principales : pré-entraînement et ajustement fin. Dans l'étape de pré-entraînement, les deux encodeurs apprennent à extraire des représentations visuelles de leurs entrées respectives. Dans l'étape d'ajustement fin, on affine davantage la capacité du classificateur à faire des prédictions précises.

L'Ensemble Adaptatif

L'ensemble adaptatif est une partie cruciale de notre approche, car il permet au modèle d'ajuster comment il pèse les informations des encodeurs propres et adversariaux. En se basant sur une probabilité estimée de savoir si une entrée est propre, le modèle peut assigner de manière adaptative plus d'importance à la sortie de l'encodeur approprié. Cela améliore sa capacité à classer avec précision les entrées tout en minimisant l'impact des altérations adversariales.

Résultats Expérimentaux

On a réalisé une série d'expériences pour évaluer la performance de notre système proposé sur des benchmarks populaires comme CIFAR-10, CIFAR-100, et Tiny-ImageNet. Notre approche a été soumise à des tests rigoureux pour voir à quel point elle performait en termes de précision standard sur les entrées propres et de robustesse adversariale contre des attaques malveillantes.

Évaluation de Performance sur CIFAR-10

Sur le benchmark CIFAR-10, notre modèle a montré des performances remarquables. On l'a comparé à des approches à la pointe de la technologie existantes et on a trouvé que notre méthode atteignait la meilleure précision standard tout en montrant une forte résistance à diverses attaques adversariales.

Par exemple, lorsqu'elle était soumise à des attaques adaptatives, notre systeme maintenait sa capacité à classer les entrées avec précision sans dégradation significative des performances. Cela montre que notre méthode est capable de trouver un meilleur équilibre entre précision et robustesse que beaucoup d'autres alternatives.

Généralisation à D'autres Ensembles de Données

Quand on a testé notre approche sur les ensembles de données CIFAR-100 et Tiny-ImageNet, les résultats sont restés solides. Notre méthode a continué à surpasser ses concurrents, atteignant à la fois une haute précision standard et une défense efficace contre les attaques adversariales.

Même si la complexité des ensembles de données augmentait, notre ensemble adaptatif fournissait constamment des résultats robustes. Cela suggère que notre approche est non seulement efficace sur un benchmark spécifique, mais peut aussi bien se généraliser à différents ensembles de données.

Stabilité de Performance

Un des points forts de notre approche est sa stabilité à travers divers scénarios. On a examiné sa performance sous différents échelles de données et types d'attaques. Dans tous les cas, notre modèle a montré sa capacité à s'adapter et à maintenir des niveaux de performance élevés, ce qui en fait un choix fiable pour des applications pratiques.

Nos découvertes indiquent que, tandis que d'autres modèles peuvent souffrir d'une dégradation des performances à mesure que les ensembles de données deviennent plus grands ou plus complexes, notre stratégie d'ensemble adaptatif aide à garder la performance stable, fournissant une forte défense contre les attaques adaptatives.

Conclusion

En conclusion, on a présenté une nouvelle architecture ViT qui répond efficacement aux défis des attaques adversariales tout en maintenant la précision sur les entrées propres. En combinant un détecteur spécialisé, un classificateur à double encodeur, et un ensemble adaptatif, notre modèle non seulement améliore les capacités de détection mais optimise aussi les performances de classification. Les résultats expérimentaux confirment que notre approche surpasse les alternatives de premier plan, ce qui en fait une direction prometteuse pour les recherches et applications futures dans le domaine de la sécurité IA.

Alors qu'on continue à avancer dans ce domaine, notre travail pose les bases pour développer des modèles plus résilients capables de gérer les complexités et défis posés par des entrées adversariales, assurant des applications plus sûres dans des domaines critiques comme la santé et la conduite autonome.

Source originale

Titre: Towards Robust Vision Transformer via Masked Adaptive Ensemble

Résumé: Adversarial training (AT) can help improve the robustness of Vision Transformers (ViT) against adversarial attacks by intentionally injecting adversarial examples into the training data. However, this way of adversarial injection inevitably incurs standard accuracy degradation to some extent, thereby calling for a trade-off between standard accuracy and robustness. Besides, the prominent AT solutions are still vulnerable to adaptive attacks. To tackle such shortcomings, this paper proposes a novel ViT architecture, including a detector and a classifier bridged by our newly developed adaptive ensemble. Specifically, we empirically discover that detecting adversarial examples can benefit from the Guided Backpropagation technique. Driven by this discovery, a novel Multi-head Self-Attention (MSA) mechanism is introduced to enhance our detector to sniff adversarial examples. Then, a classifier with two encoders is employed for extracting visual representations respectively from clean images and adversarial examples, with our adaptive ensemble to adaptively adjust the proportion of visual representations from the two encoders for accurate classification. This design enables our ViT architecture to achieve a better trade-off between standard accuracy and robustness. Besides, our adaptive ensemble technique allows us to mask off a random subset of image patches within input data, boosting our ViT's robustness against adaptive attacks, while maintaining high standard accuracy. Experimental results exhibit that our ViT architecture, on CIFAR-10, achieves the best standard accuracy and adversarial robustness of 90.3% and 49.8%, respectively.

Auteurs: Fudong Lin, Jiadong Lou, Xu Yuan, Nian-Feng Tzeng

Dernière mise à jour: 2024-07-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.15385

Source PDF: https://arxiv.org/pdf/2407.15385

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires