Évaluer les attaques d'évasion en apprentissage automatique
Un nouveau modèle révèle des facteurs clés dans le succès des attaques d'évasion.
― 7 min lire
Table des matières
Les Attaques d'évasion sont un gros souci dans les systèmes d'apprentissage automatique. Ces attaques se produisent quand quelqu'un essaie de berner un modèle d'apprentissage automatique en modifiant l'entrée d'une manière qui le conduit à faire des erreurs. Par exemple, un attaquant pourrait modifier une image ou du texte pour qu'un modèle le classe mal.
Un aspect important de ces attaques, c'est qu'elles peuvent parfois tromper non seulement le modèle utilisé pour créer l'entrée d'attaque, mais aussi d'autres modèles. Cette capacité à duper d'autres modèles est connue sous le nom de transférabilité. Ça veut dire qu'un attaquant peut créer des entrées malveillantes avec un modèle et ensuite utiliser ces mêmes entrées pour berner un autre modèle, souvent sans rien savoir sur le fonctionnement de ce second modèle.
Cependant, la plupart des études qui se penchent sur cette question ne sont pas réalistes. Elles supposent souvent que les attaquants et les défenseurs partagent les mêmes données ou modèles, ce qui n'est généralement pas le cas. Cet article vise à mieux comprendre les attaques d'évasion en introduisant une nouvelle approche qui prend en compte ces facteurs du monde réel.
Le Modèle d'Attaque DUMB
Pour analyser à quel point ces attaques peuvent se transférer d'un modèle à un autre, on introduit le modèle d'attaquant DUMB. DUMB signifie Sources de données, Architecture du modèle, et Équilibre de la vérité de terrain. Chacun de ces facteurs peut influencer de manière significative le succès d'une attaque.
Sources de Données : L'origine des données utilisées par l'attaquant peut être différente de celle utilisée par la victime. Par exemple, un attaquant pourrait rassembler des données de Google tandis que la victime utilise des données de Bing. Si les ensembles de données sont différents, l'efficacité de l'attaque peut en pâtir.
Architecture du Modèle : Les attaquants utilisent souvent différents modèles. Certains modèles peuvent être simples, tandis que d'autres peuvent être complexes. Ces différences peuvent aussi influencer la manière dont une attaque se transfère. En général, si les modèles utilisés par l'attaquant et la victime sont similaires, l'attaque a plus de chances de réussir.
Équilibre de la Vérité de Terrain : La distribution des classes dans les données d'entraînement peut varier. Par exemple, dans un ensemble de données censé identifier si une phrase est haineuse ou non, il peut y avoir beaucoup plus d'exemples non haineux que haineux. Quand les distributions de classes ne sont pas égales, ce déséquilibre peut affecter la performance de l'attaque.
En prenant en compte ces trois aspects, le modèle DUMB fournit un cadre plus réaliste pour comprendre les attaques d'évasion.
Aperçu du Testbed
Pour tester notre modèle DUMB, on a créé un testbed avec diverses tâches destinées à évaluer la transférabilité. On s'est concentré sur trois tâches de vision par ordinateur : distinguer entre vélos et motos, chats et chiens, et hommes et femmes. Pour chacune de ces tâches, on a rassemblé des images de deux sources : Bing et Google. On a aussi créé quatre niveaux d'équilibre différents pour représenter comment les classes pourraient être distribuées dans des ensembles de données du monde réel.
Nos expériences ont impliqué un total de 13 000 tests à travers différentes attaques. On a évalué des attaques d'évasion populaires et des transformations d'images simples pour voir comment elles se transféraient entre différents modèles.
Principales Conclusions
Nos tests approfondis ont mené à plusieurs conclusions importantes sur le fonctionnement des attaques d'évasion dans des scénarios du monde réel.
Impact de la Performance des Modèles
Une constatation notable était que les modèles ayant de bonnes performances ont tendance à être plus résilients face aux attaques. Si un modèle est très bon pour distinguer les classes, comme identifier correctement les vélos, il est plus difficile pour un attaquant de le tromper. Inversement, quand un modèle a du mal avec une tâche, il devient plus vulnérable aux attaques. Cela suggère que les attaquants pourraient trouver plus facile de réussir contre des modèles généralement moins capables.
Importance des Conditions Correspondantes
Une autre révélation clé est que lorsque les conditions dans lesquelles une attaque est conçue ne correspondent pas à celles du modèle cible, l'efficacité de l'attaque diminue. Par exemple, si un attaquant utilise un ensemble de données de Google pour créer une attaque visant à tromper un modèle entraîné sur les données de Bing, l'attaque pourrait moins bien fonctionner.
Effets du Déséquilibre des Classes
On a aussi observé que le déséquilibre des classes joue un rôle significatif dans l'efficacité des attaques. Par exemple, quand les attaquants ciblaient la classe minoritaire dans un ensemble de données très déséquilibré, comme un ensemble avec très peu d'exemples haineux par rapport à un grand nombre d'exemples non haineux, les attaques étaient souvent plus efficaces. Cela met en évidence le fait que quand les classes dans un ensemble de données sont réparties de manière inégale, les attaquants peuvent trouver certaines cibles plus faciles à attaquer.
Différents Types d'Attaques
Nos tests incluaient à la fois des attaques mathématiques et non mathématiques. Les attaques mathématiques reposent sur des algorithmes qui optimisent les modifications des entrées, tandis que les attaques non mathématiques utilisent des transformations plus simples, comme le flou ou les changements de couleur.
Fait intéressant, on a découvert que les attaques non mathématiques étaient parfois étonnamment efficaces, surtout lorsque les conditions n'étaient pas favorables aux attaques mathématiques. Cela indique que des techniques simples peuvent encore poser de réelles menaces, même quand des attaques plus complexes sont disponibles.
Défis de la Réalisation des Attaques d'Évasion
Malgré les insights obtenus, mener des attaques d'évasion dans des scénarios réels comporte son lot de défis.
Accès aux Modèles Victimes : En réalité, les attaquants n'ont souvent pas accès au modèle d'une victime ou aux données sur lesquelles il a été entraîné. Ils doivent se fier à des proxys, ce qui peut mener à de l'incertitude sur l'efficacité de leurs attaques.
Génération de Données : Créer un ensemble de données à utiliser pour entraîner un modèle substitut peut être difficile, surtout si l'attaquant n'est pas sûr de ce à quoi ressemblent les données de la victime. La génération de données nécessite beaucoup d'efforts et de connaissances sur le domaine.
Différences de Prétraitement : Différents modèles peuvent utiliser diverses méthodes de prétraitement, ce qui peut compliquer encore la manière dont les attaques se transfèrent. Si un attaquant n'est pas au courant de la façon dont le modèle de la victime traite les entrées, cela peut compromettre ses tentatives d'évasion.
Conclusion
Pour conclure, les attaques d'évasion posent des risques significatifs pour les systèmes d'apprentissage automatique, surtout à mesure que ces systèmes deviennent plus répandus dans diverses applications. Notre exploration du modèle d'attaquant DUMB a révélé plusieurs facteurs critiques affectant la transférabilité de ces attaques. En prenant en compte les sources de données, l'architecture du modèle, et l'équilibre de la vérité de terrain, on peut mieux comprendre les conditions sous lesquelles les attaques peuvent réussir ou échouer.
Les recherches futures devraient s'appuyer sur nos résultats pour examiner plus en détail les nuances de la transférabilité adversariale. Comprendre comment se défendre contre ces attaques est tout aussi crucial, à mesure que les systèmes d'apprentissage automatique s'intègrent de plus en plus dans la vie quotidienne.
Titre: Your Attack Is Too DUMB: Formalizing Attacker Scenarios for Adversarial Transferability
Résumé: Evasion attacks are a threat to machine learning models, where adversaries attempt to affect classifiers by injecting malicious samples. An alarming side-effect of evasion attacks is their ability to transfer among different models: this property is called transferability. Therefore, an attacker can produce adversarial samples on a custom model (surrogate) to conduct the attack on a victim's organization later. Although literature widely discusses how adversaries can transfer their attacks, their experimental settings are limited and far from reality. For instance, many experiments consider both attacker and defender sharing the same dataset, balance level (i.e., how the ground truth is distributed), and model architecture. In this work, we propose the DUMB attacker model. This framework allows analyzing if evasion attacks fail to transfer when the training conditions of surrogate and victim models differ. DUMB considers the following conditions: Dataset soUrces, Model architecture, and the Balance of the ground truth. We then propose a novel testbed to evaluate many state-of-the-art evasion attacks with DUMB; the testbed consists of three computer vision tasks with two distinct datasets each, four types of balance levels, and three model architectures. Our analysis, which generated 13K tests over 14 distinct attacks, led to numerous novel findings in the scope of transferable attacks with surrogate models. In particular, mismatches between attackers and victims in terms of dataset source, balance levels, and model architecture lead to non-negligible loss of attack performance.
Auteurs: Marco Alecci, Mauro Conti, Francesco Marchiori, Luca Martinelli, Luca Pajola
Dernière mise à jour: 2023-06-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.15363
Source PDF: https://arxiv.org/pdf/2306.15363
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.