Ataques Trojan Adaptativos em Redes Neurais Profundas
Novas estratégias permitem que ataques Trojan escaneiem os métodos de detecção de forma eficaz.
― 7 min ler
Índice
- Contexto sobre DNPs e Ataques Trojan
- Métodos de Detecção
- Detectores Baseados em Saída
- O Desafio com Atacantes Adaptativos
- O Adversário Adaptativo Proposto
- Principais Insights
- Experimentos e Resultados
- Metodologia
- Resultados
- Algoritmo Ganancioso para Embutir Gatilhos
- Considerações Principais
- Conclusão
- Fonte original
- Ligações de referência
Redes Neurais Profundas (DNPs) estão super em alta em várias áreas, como visão, saúde, jogos e carros autônomos. Elas funcionam muito bem, mas também têm suas fraquezas. Uma delas é a vulnerabilidade a ataques Trojan. Nesses ataques, um gatilho é adicionado secretamente a algumas entradas, permitindo que o atacante manipule as previsões da DNP quando essas entradas específicas são usadas. O desafio é detectar esses modelos Trojan de forma eficaz.
Modelos de detecção baseados em saída podem identificar DNPs Trojan observando suas saídas quando recebem entradas alteradas. Esses detectores melhoraram com o tempo, mas muitas vezes operam sob a suposição de que o atacante é previsível e não tem conhecimento dos Métodos de Detecção. Porém, os atacantes também podem adaptar suas técnicas para não serem pegos.
Neste trabalho, apresentamos uma nova forma de os atacantes retrabalharem seus modelos Trojan, enquanto estão conscientes dos detectores. Fazendo isso, eles conseguem manter alta precisão tanto nas entradas com gatilho quanto nas entradas limpas, ao mesmo tempo em que evitam a detecção.
Contexto sobre DNPs e Ataques Trojan
As DNPs são treinadas para classificar amostras de dados em diferentes classes. Por exemplo, em uma tarefa de classificação de imagens, o modelo prevê a qual categoria uma imagem pertence (como um gato ou um cachorro). No entanto, os atacantes podem explorar esses modelos. Eles podem embutir um padrão de gatilho em certas entradas. Quando o modelo encontra essas entradas com o gatilho, ele é enganado e produz uma saída específica que favorece o atacante, enquanto ainda se comporta normalmente em entradas regulares.
Essa manipulação pode ter consequências sérias, especialmente em aplicações críticas como direção autônoma. Como resultado, tanto atacantes quanto defensores estão sempre desenvolvendo novos métodos para se superar.
Métodos de Detecção
Com as DNPs sendo alvo de ataques Trojan, pesquisadores criaram métodos de detecção. De forma geral, esses métodos se dividem em duas categorias: filtragem baseada em entrada e detectores baseados em saída.
A filtragem baseada em entrada envolve remover amostras suspeitas dos dados de treinamento antes de chegarem às DNPs. Já os detectores baseados em saída se concentram em examinar as saídas das DNPs quando recebem várias entradas. Esses detectores podem operar sem precisar ver os dados de treinamento da DNP, tornando-os mais práticos em cenários do mundo real.
Detectores Baseados em Saída
Detectores baseados em saída são preferidos porque só precisam de acesso em caixa-preta aos modelos. Eles analisam as saídas que o modelo gera em resposta a diferentes entradas. Existem dois tipos principais desses detectores:
- Detectores Supervisionados: Esses usam dados rotulados para treinar um classificador binário que pode diferenciar entre saídas de modelos limpos e Trojan.
- Detectores Não Supervisionados: Esses métodos utilizam técnicas de detecção de outliers para determinar se as saídas de um modelo parecem estranhas ou suspeitas.
Ambos os tipos buscam saber se um modelo é Trojan analisando como suas saídas mudam com diferentes entradas. Muitos desses detectores tiveram sucesso, mas frequentemente assumem que os atacantes são estáticos e não se ajustam.
O Desafio com Atacantes Adaptativos
Na real, os atacantes nem sempre são estáticos. Eles podem aprender sobre os métodos de detecção baseados em saída e adaptar suas estratégias de acordo. Essa dinâmica cria um cenário onde ambos os lados evoluem para se superar.
Métodos anteriores não consideravam atacantes adaptativos, deixando uma lacuna em nossas abordagens para detecção de Trojan. Se o atacante conhece o método de detecção, ele pode retreinar seus modelos Trojan de uma maneira que mantém a precisão e derrota a detecção.
Adversário Adaptativo Proposto
ONós propomos uma estratégia que permite aos atacantes alterar suas DNPs Trojan enquanto estão cientes dos detectores baseados em saída. A nova abordagem consiste em duas etapas principais:
- O atacante embute um gatilho em amostras limpas selecionadas e treina a DNP para garantir que o modelo Trojan se comporte bem tanto nas amostras limpas quanto nas com gatilho.
- O atacante então usa o modelo Trojan atualizado para ajustar os parâmetros do detector para maximizar seu desempenho.
Esse processo iterativo continua até que não sejam feitas mais melhorias no desempenho da DNP Trojan ou na detectabilidade do modelo.
Principais Insights
O alto número de parâmetros nas DNPs dá a elas muita margem para se ajustar a diferentes entradas. Essa flexibilidade permite que os atacantes criem modelos Trojan que ainda podem performar bem enquanto permanecem indetectados. A interação entre o atacante e o mecanismo de detecção pode ser vista como um jogo onde ambos os lados tentam superar o outro.
Experimentos e Resultados
Para validar nossa nova abordagem, realizamos uma série de experimentos usando múltiplos conjuntos de dados, incluindo imagens e comandos de áudio. O objetivo era ver quão bem nosso atacante adaptativo conseguia contornar métodos de detecção Trojan baseados em saída de ponta.
Metodologia
Utilizamos vários conjuntos de dados conhecidos, que contêm diversos exemplos para treinar e testar nossos métodos. Os conjuntos de dados incluíram:
- MNIST: Um conjunto de dados de dígitos manuscritos.
- CIFAR-10 e CIFAR-100: Conjuntos de dados contendo imagens de objetos comuns.
- SpeechCommand: Uma coleção de arquivos de áudio para comandos falados.
Os experimentos tinham como objetivo medir:
- A precisão de amostras limpas classificadas pelo modelo.
- A taxa de sucesso de classificação de amostras com gatilho.
- As taxas de detecção dos detectores Trojan de ponta.
Resultados
Nossos achados revelaram que o adversário adaptativo foi eficaz em contornar os métodos de detecção. O ataque manteve uma alta taxa de sucesso ao manipular os modelos, alcançando resultados significativos em todos os conjuntos de dados.
Em particular, os resultados indicaram claramente que a estratégia proposta permitiu que modelos Trojan escapassem da detecção. Mesmo quando o mecanismo de detecção foi ajustado, nossa abordagem ainda rendeu um desempenho geral melhor para o atacante.
Algoritmo Ganancioso para Embutir Gatilhos
Também introduzimos um algoritmo ganancioso para ajudar o atacante a selecionar quais amostras de entrada embutir os gatilhos Trojan. O objetivo era minimizar os custos operacionais enquanto garantia alta eficácia.
Considerações Principais
Ao selecionar amostras de entrada para embutir os gatilhos, o atacante teve que manter três fatores principais em mente:
- Custo do Ataque: Um número maior de amostras com gatilho aumenta os custos operacionais para o atacante.
- Integridade do Modelo: Muitas amostras com gatilho podem degradar a precisão do modelo Trojan em entradas limpas, aumentando a chance de detecção.
- Discrição: Um número excessivo de amostras com gatilho pode levar a uma detecção rápida por métodos avançados.
O algoritmo ganancioso garante que o atacante use o menor número de amostras necessário para alcançar os efeitos desejados sem chamar atenção.
Conclusão
Nosso trabalho destaca a batalha em evolução entre DNPs e ataques Trojan. À medida que os métodos de detecção melhoram, as estratégias dos atacantes também evoluem. Ao criar um modelo de adversário adaptativo, demonstramos que é possível para atacantes alcançar alta precisão tanto em entradas limpas quanto em entradas com gatilho, enquanto efetivamente evitam a detecção.
Além disso, a integração de um algoritmo ganancioso no processo permite que os atacantes sejam mais eficientes em suas abordagens para embutir gatilhos. Com experimentos extensivos demonstrando a eficácia dessa nova abordagem em vários conjuntos de dados e métodos de detecção, é claro que o cenário de detecção Trojan deve continuar a se adaptar.
À medida que os defensores desenvolvem técnicas mais avançadas, os pesquisadores devem criar abordagens inovadoras para manter o ritmo com as ameaças em evolução. Essa luta contínua ressalta a importância de se manter vigilante e proativo na proteção da integridade dos modelos de aprendizado de máquina e dos dados que eles processam.
Título: Game of Trojans: Adaptive Adversaries Against Output-based Trojaned-Model Detectors
Resumo: We propose and analyze an adaptive adversary that can retrain a Trojaned DNN and is also aware of SOTA output-based Trojaned model detectors. We show that such an adversary can ensure (1) high accuracy on both trigger-embedded and clean samples and (2) bypass detection. Our approach is based on an observation that the high dimensionality of the DNN parameters provides sufficient degrees of freedom to simultaneously achieve these objectives. We also enable SOTA detectors to be adaptive by allowing retraining to recalibrate their parameters, thus modeling a co-evolution of parameters of a Trojaned model and detectors. We then show that this co-evolution can be modeled as an iterative game, and prove that the resulting (optimal) solution of this interactive game leads to the adversary successfully achieving the above objectives. In addition, we provide a greedy algorithm for the adversary to select a minimum number of input samples for embedding triggers. We show that for cross-entropy or log-likelihood loss functions used by the DNNs, the greedy algorithm provides provable guarantees on the needed number of trigger-embedded input samples. Extensive experiments on four diverse datasets -- MNIST, CIFAR-10, CIFAR-100, and SpeechCommand -- reveal that the adversary effectively evades four SOTA output-based Trojaned model detectors: MNTD, NeuralCleanse, STRIP, and TABOR.
Autores: Dinuka Sahabandu, Xiaojun Xu, Arezoo Rajabi, Luyao Niu, Bhaskar Ramasubramanian, Bo Li, Radha Poovendran
Última atualização: 2024-02-12 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.08695
Fonte PDF: https://arxiv.org/pdf/2402.08695
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.michaelshell.org/
- https://www.michaelshell.org/tex/ieeetran/
- https://www.ctan.org/pkg/ieeetran
- https://www.ieee.org/
- https://www.latex-project.org/
- https://www.michaelshell.org/tex/testflow/
- https://www.ctan.org/pkg/ifpdf
- https://www.ctan.org/pkg/cite
- https://www.ctan.org/pkg/graphicx
- https://www.ctan.org/pkg/epslatex
- https://www.tug.org/applications/pdftex
- https://www.ctan.org/pkg/amsmath
- https://www.ctan.org/pkg/algorithms
- https://www.ctan.org/pkg/algorithmicx
- https://www.ctan.org/pkg/array
- https://www.ctan.org/pkg/subfig
- https://www.ctan.org/pkg/fixltx2e
- https://www.ctan.org/pkg/stfloats
- https://www.ctan.org/pkg/dblfloatfix
- https://www.ctan.org/pkg/url
- https://www.michaelshell.org/contact.html
- https://mirror.ctan.org/biblio/bibtex/contrib/doc/
- https://www.michaelshell.org/tex/ieeetran/bibtex/