Analisando Ataques de Backdoor em Redes Neurais Profundas
Uma nova abordagem pra entender ataques de backdoor em sistemas de aprendizado de máquina.
― 7 min ler
Índice
Redes neurais profundas (DNNs) são usadas em várias áreas, tipo reconhecimento de imagem e processamento de linguagem. Esses sistemas geralmente precisam de muitos dados de treinamento pra funcionar bem. Mas essa dependência de uma grande quantidade de dados pode criar riscos. Atacantes podem manipular os dados de treinamento pra prejudicar o desempenho desses sistemas. Essa forma de ataque é conhecida como Ataque de porta dos fundos.
Nos ataques de porta dos fundos típicos, os atacantes introduzem mudanças nos dados de treinamento, permitindo que eles controlem como o modelo se comporta uma vez que é colocado em uso. Infelizmente, muitos métodos atuais assumem que todos os dados de treinamento vêm de uma única fonte e que os atacantes têm acesso total a eles. Isso não reflete as situações da vida real, onde os dados geralmente vêm de várias fontes, e os atacantes podem manipular apenas algumas partes.
A gente propõe uma nova forma de analisar ataques de porta dos fundos que reflete essa realidade mais complexa, que chamamos de ataques de porta dos fundos restritos por dados. Em vez de assumir acesso completo a todos os dados de treinamento, aceitamos que os atacantes só têm acesso parcial. Isso leva a diferentes tipos de ataques de porta dos fundos, que categorizamos com base em se o atacante tem acesso limitado ao número de amostras, classes ou domínios envolvidos.
Contexto
Visão Geral dos Ataques de Porta dos Fundos
Os ataques de porta dos fundos funcionam inserindo gatilhos ocultos em uma DNN. Quando o modelo vê entradas específicas com esses gatilhos, ele produz resultados incorretos. O modelo se comporta normalmente quando recebe entradas limpas e benignas, mas pode ser enganado pelos gatilhos.
Existem diferentes tipos de ataques de porta dos fundos, incluindo aqueles que dependem de truques de codificação específicos, usando modelos pré-treinados e envenenando dados de treinamento. Este artigo foca principalmente em ataques baseados em envenenamento, onde um pequeno número de amostras prejudiciais é misturado aos dados de treinamento.
Ataques de Porta dos Fundos Restritos por Dados
Em situações realistas, as vítimas costumam combinar seus dados privados com dados públicos de várias fontes. Os atacantes geralmente não conseguem acessar todo o conjunto de dados que está sendo usado para treinamento, criando um cenário conhecido como ataques de porta dos fundos restritos por dados. Por exemplo, uma vítima pode ter um pequeno conjunto de dados privado e coletar dados adicionais online, alguns dos quais podem ser envenenados pelo atacante.
Em situações restritas por dados, os atacantes enfrentam desafios porque há diferenças entre as características benignas e as de envenenamento nos dados. Nós identificamos três tipos principais de ataques restritos por dados:
- Ataques de Porta dos Fundos com Número Restrito: O atacante só pode usar um número limitado de amostras.
- Ataques de Porta dos Fundos com Classe Restrita: O atacante é restrito a um número limitado de classes.
- Ataques de Porta dos Fundos com Domínio Restrito: O atacante só pode manipular dados de certos domínios.
Desafios em Cenários Restritos por Dados
Os métodos atuais de ataque de porta dos fundos têm dificuldades em situações restritas por dados devido à mistura de características benignas e de envenenamento. Idealmente, um ataque de porta dos fundos eficaz deve depender unicamente dos dados envenenados, sem interferência de características benignas.
A gente explora uma abordagem nova pra melhorar os ataques de porta dos fundos nesse contexto, introduzindo dois métodos-chave: Supressão de Características Benignas e Aumento de Características de Envenenamento. Esses métodos têm o objetivo de filtrar características benignas e enfatizar as prejudiciais.
Metodologia
Supressão de Características Benignas
O objetivo da Supressão de Características Benignas é reduzir a influência de características benignas durante o processo de ataque. Esse método usa um modelo pré-treinado em um conjunto de dados amplo pra identificar e remover características limpas das imagens.
Aumento de Características de Envenenamento
Além de suprimir características benignas, a gente também foca em melhorar a expressão de características de envenenamento. Isso envolve criar gatilhos eficientes que possam envenenar os dados sem precisar contar com um conjunto de dados de treinamento completo.
Ambos os métodos trabalham juntos pra tornar o ataque de porta dos fundos mais eficiente e discreto.
Estrutura Experimental
A gente realiza experimentos pra avaliar os métodos propostos em vários conjuntos de dados e arquiteturas de modelos. Os principais critérios de avaliação incluem:
- Taxa de Sucesso do Ataque (ASR): Isso mede a eficácia do ataque de porta dos fundos.
- Precisão Benigna (BA): Isso avalia como o modelo se sai em entradas benignas após o ataque.
- Discrição: Isso analisa quão indetectáveis são as amostras de veneno em comparação com amostras limpas.
Conjuntos de Dados e Modelos
Usamos vários conjuntos de dados, incluindo CIFAR-10, CIFAR-100 e ImageNet-50, pra testar nossos métodos. Também avaliamos em arquiteturas de modelos populares, como VGG-16 e ResNet-18.
Resultados
Eficácia dos Métodos Propostos
Nossos experimentos revelaram melhorias significativas no desempenho do ataque de porta dos fundos. As novas técnicas que introduzimos superaram consistentemente os métodos tradicionais em diferentes conjuntos de dados e cenários de ataque.
Em particular, nosso método de Supressão de Características Benignas mostrou que remover características benignas podia aumentar a eficácia do ataque, mesmo em condições variadas.
Inocuidade para a Precisão Benigna
A gente também descobriu que nossos métodos não prejudicaram o desempenho do modelo em dados benignos. A precisão benigna permaneceu em níveis aceitáveis, indicando que os ataques não comprometeram a integridade do modelo em operação normal.
Discrição dos Ataques
Nossos métodos foram desenvolvidos pra manter um perfil baixo, tornando-os difíceis de detectar. As avaliações mostraram que nossas amostras envenenadas se misturaram bem com amostras limpas, provando ainda mais a eficácia da nossa abordagem.
Discussão
Nossos achados indicam que os ataques de porta dos fundos podem ser mais resilientes e versáteis do que se pensava anteriormente, especialmente em situações do mundo real onde as restrições de dados são comuns.
Reconhecer os desafios impostos por múltiplas fontes de dados e o acesso restrito dos atacantes permite estratégias mais nuançadas na hora de desenhar ataques eficazes.
Limitações
Embora nosso estudo forneça insights sobre ataques de porta dos fundos restritos por dados, ainda existem limitações. As técnicas dependem muito da escolha do modelo e dos conjuntos de dados usados pra treinamento. Planejamos explorar a aplicabilidade de nossos métodos em diferentes domínios, como imagens médicas e cibersegurança.
Direções Futuras
Pesquisas futuras podem aprofundar na melhoria da robustez dos métodos contra diferentes formas de detecção e refinar as técnicas pra se ajustar a tarefas mais especializadas. Além disso, aplicar nossas descobertas a tecnologias emergentes de IA e entender ameaças potenciais será uma área essencial de foco.
Conclusão
Resumindo, este trabalho apresenta uma abordagem abrangente para ataques de porta dos fundos em ambientes restritos por dados. Ao entender as complexidades de cenários do mundo real e desenvolver novos métodos pra melhorar a eficácia dos ataques, abrimos caminho pra pesquisas adicionais sobre como proteger sistemas de aprendizado profundo contra essas vulnerabilidades.
Título: Efficient Backdoor Attacks for Deep Neural Networks in Real-world Scenarios
Resumo: Recent deep neural networks (DNNs) have came to rely on vast amounts of training data, providing an opportunity for malicious attackers to exploit and contaminate the data to carry out backdoor attacks. However, existing backdoor attack methods make unrealistic assumptions, assuming that all training data comes from a single source and that attackers have full access to the training data. In this paper, we introduce a more realistic attack scenario where victims collect data from multiple sources, and attackers cannot access the complete training data. We refer to this scenario as data-constrained backdoor attacks. In such cases, previous attack methods suffer from severe efficiency degradation due to the entanglement between benign and poisoning features during the backdoor injection process. To tackle this problem, we introduce three CLIP-based technologies from two distinct streams: Clean Feature Suppression and Poisoning Feature Augmentation.effective solution for data-constrained backdoor attacks. The results demonstrate remarkable improvements, with some settings achieving over 100% improvement compared to existing attacks in data-constrained scenarios. Code is available at https://github.com/sunh1113/Efficient-backdoor-attacks-for-deep-neural-networks-in-real-world-scenarios
Autores: Ziqiang Li, Hong Sun, Pengfei Xia, Heng Li, Beihao Xia, Yi Wu, Bin Li
Última atualização: 2024-04-19 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.08386
Fonte PDF: https://arxiv.org/pdf/2306.08386
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.