Avaliação de Ataques de Evasão em Aprendizado de Máquina
Um novo modelo revela os fatores chave para o sucesso em ataques de evasão.
― 7 min ler
Índice
Ataques de Evasão são uma grande preocupação em sistemas de aprendizado de máquina. Esses ataques acontecem quando alguém tenta enganar um modelo de aprendizado de máquina mudando a entrada de um jeito que faz com que ele cometa erros. Por exemplo, um atacante pode modificar uma imagem ou um texto para que um modelo classifique errado.
Um aspecto importante desses ataques é que, às vezes, eles conseguem enganar não só o modelo que foi usado para criar a entrada de ataque, mas também outros modelos. Essa habilidade de enganar outros modelos é conhecida como transferibilidade. Isso significa que um atacante pode criar entradas maliciosas usando um modelo e depois usar essas mesmas entradas para enganar outro modelo, muitas vezes sem saber nada sobre como esse segundo modelo funciona.
No entanto, a maior parte dos estudos que investiga essa questão não foi realista. Eles muitas vezes assumem que atacantes e defensores compartilham os mesmos dados ou modelos, o que geralmente não é o caso. Este artigo tem como objetivo fornecer uma compreensão melhor dos ataques de evasão ao introduzir uma nova abordagem que considera esses fatores do mundo real.
O Modelo de Atacante DUMB
Para analisar quão bem esses ataques podem se transferir de um modelo para outro, apresentamos o modelo de atacante DUMB. DUMB significa Fontes de Dataset, Arquitetura do Modelo e Equilíbrio da Verdade de Base. Cada um desses fatores pode afetar significativamente o sucesso de um ataque.
Fontes de Dataset: A origem dos dados usados pelo atacante pode ser diferente da usada pela vítima. Por exemplo, um atacante pode coletar dados do Google enquanto a vítima usa dados do Bing. Se os datasets forem diferentes, a eficácia do ataque pode ser reduzida.
Arquitetura do Modelo: Atacantes costumam usar modelos diferentes. Alguns modelos podem ser simples, enquanto outros podem ser complexos. Essas diferenças também podem afetar quão bem um ataque se transfere. Em geral, se os modelos usados pelo atacante e pela vítima são semelhantes, o ataque tem mais chance de sucesso.
Equilíbrio da Verdade de Base: A distribuição das classes nos dados de treinamento pode variar. Por exemplo, em um dataset que visa identificar se uma frase é odiosa ou não, pode haver muito mais exemplos não odiosos do que odiosos. Quando as distribuições de classe são desiguais, esse desequilíbrio pode impactar o desempenho do ataque.
Considerando esses três aspectos, o modelo DUMB fornece uma estrutura mais realista para entender os ataques de evasão.
Visão Geral do Teste
Para testar nosso modelo DUMB, criamos um ambiente de teste com várias tarefas voltadas para avaliar a transferibilidade. Focamos em três tarefas de visão computacional: distinguir entre bicicletas e motos, gatos e cães, e homens e mulheres. Para cada uma dessas tarefas, coletamos imagens de duas fontes: Bing e Google. Também criamos quatro níveis diferentes de equilíbrio para representar como as classes podem ser distribuídas em datasets do mundo real.
Nossos experimentos envolveram um total de 13.000 testes em diferentes ataques. Avaliamos tanto ataques de evasão populares quanto transformações simples de imagens para ver como se transferiam entre diferentes modelos.
Principais Descobertas
Nossas extensas avaliações levaram a várias conclusões importantes sobre como os ataques de evasão funcionam em cenários do mundo real.
Impacto do Desempenho do Modelo
Uma descoberta notável foi que modelos com alto desempenho tendem a ser mais resistentes a ataques. Se um modelo é muito bom em distinguir entre classes, como identificar bicicletas corretamente, é mais difícil para um atacante enganá-lo. Por outro lado, quando um modelo tem dificuldades em uma tarefa, ele se torna mais vulnerável a ataques. Isso sugere que atacantes podem achar mais fácil ter sucesso contra modelos que são, em geral, menos capazes.
Importância de Condições Correspondentes
Outra percepção chave é que, quando as condições sob as quais um ataque é projetado não correspondem às do modelo alvo, a eficácia do ataque diminui. Por exemplo, se um atacante usa um dataset do Google para criar um ataque destinado a enganar um modelo treinado com dados do Bing, o ataque pode não funcionar tão bem.
Efeitos do Desequilíbrio de Classe
Observamos também que o desequilíbrio de classe desempenha um papel significativo em quão bem os ataques podem se transferir. Por exemplo, quando atacantes miraram na classe minoritária em um dataset altamente desequilibrado, como um dataset com muito poucos exemplos odiosos em comparação com um grande número de não odiosos, os ataques muitas vezes foram mais eficazes. Isso destaca o fato de que, quando as classes em um dataset estão distribuídas de maneira desigual, atacantes podem achar certos alvos mais fáceis de atacar.
Diferentes Tipos de Ataques
N nossos testes incluímos tanto ataques matemáticos quanto não matemáticos. Ataques matemáticos são baseados em algoritmos que otimizam mudanças nas entradas, enquanto ataques não matemáticos usam transformações mais simples, como desfoque ou mudanças de cor.
Curiosamente, descobrimos que os ataques não matemáticos eram às vezes surpreendentemente eficazes, especialmente quando as condições não eram favoráveis para ataques matemáticos. Isso indica que técnicas simples ainda podem representar ameaças reais, mesmo quando ataques mais complexos estão disponíveis.
Desafios na Realização de Ataques de Evasão
Apesar das percepções adquiridas, realizar ataques de evasão em cenários do mundo real vem com seu próprio conjunto de desafios.
Acesso a Modelos de Vítima: Em situações reais, atacantes costumam não ter acesso ao modelo da vítima ou aos dados com os quais ele foi treinado. Eles devem confiar em proxies, o que pode gerar incerteza sobre quão eficazes seus ataques serão.
Geração de Dados: Criar um dataset para usar no treinamento de um modelo substituto pode ser complicado, especialmente se o atacante não tem certeza de como são os dados da vítima. A geração de dados requer muito esforço e conhecimento sobre o domínio.
Diferenças de Pré-processamento: Diferentes modelos podem usar diversos métodos de pré-processamento, o que pode complicar ainda mais como os ataques se transferem. Se um atacante não souber como o modelo da vítima processa as entradas, isso pode prejudicar suas tentativas de evasão.
Conclusão
Em conclusão, ataques de evasão representam riscos significativos para sistemas de aprendizado de máquina, especialmente à medida que esses sistemas se tornam mais comuns em várias aplicações. Nossa exploração do modelo de atacante DUMB revelou vários fatores críticos que afetam a transferibilidade desses ataques. Ao considerar fontes de dataset, arquitetura do modelo e o equilíbrio da verdade de base, podemos entender melhor as condições sob as quais os ataques podem ter sucesso ou falhar.
Pesquisas futuras devem se basear em nossas descobertas para examinar mais a fundo as nuances da transferibilidade adversarial. Entender como se defender contra esses ataques é igualmente crucial, à medida que os sistemas de aprendizado de máquina se integram cada vez mais à vida cotidiana.
Título: Your Attack Is Too DUMB: Formalizing Attacker Scenarios for Adversarial Transferability
Resumo: Evasion attacks are a threat to machine learning models, where adversaries attempt to affect classifiers by injecting malicious samples. An alarming side-effect of evasion attacks is their ability to transfer among different models: this property is called transferability. Therefore, an attacker can produce adversarial samples on a custom model (surrogate) to conduct the attack on a victim's organization later. Although literature widely discusses how adversaries can transfer their attacks, their experimental settings are limited and far from reality. For instance, many experiments consider both attacker and defender sharing the same dataset, balance level (i.e., how the ground truth is distributed), and model architecture. In this work, we propose the DUMB attacker model. This framework allows analyzing if evasion attacks fail to transfer when the training conditions of surrogate and victim models differ. DUMB considers the following conditions: Dataset soUrces, Model architecture, and the Balance of the ground truth. We then propose a novel testbed to evaluate many state-of-the-art evasion attacks with DUMB; the testbed consists of three computer vision tasks with two distinct datasets each, four types of balance levels, and three model architectures. Our analysis, which generated 13K tests over 14 distinct attacks, led to numerous novel findings in the scope of transferable attacks with surrogate models. In particular, mismatches between attackers and victims in terms of dataset source, balance levels, and model architecture lead to non-negligible loss of attack performance.
Autores: Marco Alecci, Mauro Conti, Francesco Marchiori, Luca Martinelli, Luca Pajola
Última atualização: 2023-06-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.15363
Fonte PDF: https://arxiv.org/pdf/2306.15363
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.