Uma Abordagem Discreta para Ataques de Backdoor
Apresentando técnicas de ataque low-pass pra driblar as defesas de redes neurais.
― 7 min ler
Índice
Redes neurais profundas (DNNs) são ferramentas super populares usadas em várias áreas, tipo reconhecimento facial e de voz, jogos e carros autônomos. Elas conseguem aprender com uma porção de dados e fazer tarefas que precisam de inteligência. Mas, tem uns pontos fracos que atacantes podem explorar. Uma dessas vulnerabilidades é chamada de Ataque de porta dos fundos.
Um ataque de porta dos fundos permite que alguém esconda um comando secreto, ou "porta dos fundos", dentro de uma DNN. Essa porta pode passar despercebida até ser ativada por uma entrada específica. Quando isso acontece, a DNN dá resultados errados para certas entradas, mas ainda funciona normalmente para outras. Isso pode causar sérios problemas de segurança, especialmente em aplicações onde confiança e precisão são cruciais.
Métodos Atuais de Ataques de Porta dos Fundos
A maioria dos ataques de porta dos fundos atuais funciona fazendo pequenas alterações em imagens. Por exemplo, um atacante pode adicionar manchas visíveis ou distorcer a imagem com ruído. Infelizmente, essas mudanças podem ser detectadas com facilidade por sistemas de segurança que buscam essas alterações.
Esse artigo apresenta uma nova abordagem para ataques de porta dos fundos que funciona de uma forma mais sutil. Em vez de confiar em mudanças visíveis na imagem, esse método atua no domínio de frequência da imagem, o que torna mais difícil notar.
O Novo Método de Ataque
A gente propõe um novo método de ataque chamado "ataque de passa-baixa". Essa técnica utiliza um filtro passa-baixa, que permite que apenas informações de baixa frequência passem, enquanto bloqueia componentes de alta frequência. Quando aplicado a uma imagem, esse filtro preserva o conteúdo principal da imagem mas remove detalhes que são menos perceptíveis.
Ao focar no domínio de frequência, esse método pode criar imagens envenenadas que parecem quase idênticas às originais. O objetivo é evitar detecções melhor do que os métodos tradicionais.
Modo de Precisão
Além da técnica de ataque de passa-baixa, a gente introduz uma característica chamada "modo de precisão". Esse modo garante que a porta dos fundos só vai ativar sob condições específicas. Em vez de conseguir ativar a porta dos fundos com uma gama de entradas similares, ela só vai responder a uma entrada exata definida pelo atacante. Isso dificulta mais para os defensores detectarem a porta dos fundos, já que ela só ativa quando condições muito específicas são atendidas.
Avaliação do Ataque
A gente testou nosso ataque de passa-baixa em vários conjuntos de dados populares, como MNIST, CIFAR-10, GTSRB e CelebA. Os resultados mostraram que mesmo com uma pequena quantidade de dados envenenados, nosso método conseguiu realizar ataques de porta dos fundos de forma discreta, sem perder performance.
O ataque passou com sucesso por várias medidas de segurança avançadas que são comumente usadas contra ataques de porta dos fundos. Além disso, as imagens envenenadas produzidas pelo nosso método eram quase indistinguíveis das imagens originais e mantinham alta qualidade visual.
Contexto sobre Ataques de Porta dos Fundos
Os ataques de porta dos fundos em redes neurais existem desde 2017. Os primeiros trabalhos nessa área introduziram gatilhos simples que podiam ser adicionados a imagens para fazer o modelo classificar errado. Com o tempo, pesquisadores desenvolveram métodos mais avançados que permitiram mecanismos de gatilho mais sutis.
Por exemplo, algumas técnicas usam padrões ou formas específicas dentro de uma imagem para criar portas dos fundos. Outras exploram maneiras mais dinâmicas e adaptativas de implementar portas dos fundos que podem sobreviver a atualizações e transferências de modelos.
Mecanismos de Defesa
À medida que a ameaça de ataques de porta dos fundos se tornou mais reconhecida, os pesquisadores também focaram em maneiras de se defender contra eles. Alguns métodos buscam detectar e remover potenciais portas dos fundos, identificando padrões incomuns no comportamento do modelo. Outros métodos envolvem alterar as técnicas de treinamento para dificultar que portas dos fundos sejam implantadas desde o início.
Um método comum de defesa é conhecido como poda, onde partes potencialmente perigosas ou desnecessárias do modelo são removidas para eliminar portas dos fundos. Outro método foca em testar entradas e avaliar suas saídas para determinar se algum gatilho de porta dos fundos pode estar presente.
Apesar dessas melhorias na tecnologia de defesa, nosso ataque de passa-baixa conseguiu evitar a detecção por várias defesas populares. Isso demonstra a eficácia e a sutileza do método proposto.
Configuração do Experimento
Nos nossos experimentos, escolhemos e preparamos cuidadosamente imagens dos conjuntos de dados mencionados anteriormente. Cada imagem foi passada pelo filtro passa-baixa para criar uma versão envenenada, que foi então usada para treinar a DNN.
Acompanhamos duas métricas importantes enquanto avaliávamos nossos ataques:
Precisão de Amostras Limpas (CSA): Mede quão precisamente o modelo prevê amostras normais de teste que não contêm gatilhos.
Taxa de Sucesso do Ataque (ASR): Mede quão bem o modelo prevê o alvo do atacante ao usar entradas envenenadas.
Comparando essas métricas, conseguimos avaliar a eficácia e a sutileza do nosso ataque de passa-baixa.
Resultados da Avaliação
Nossos resultados mostram que com o ataque de passa-baixa, a taxa de sucesso do ataque permaneceu alta enquanto a precisão das amostras limpas se manteve relativamente constante. Isso indica que as imagens envenenadas não prejudicaram significativamente a performance geral do modelo.
Além disso, o ataque de passa-baixa conseguiu manter alta qualidade de imagem em comparação com outros métodos. Isso significa que as imagens envenenadas pareciam muito semelhantes às originais e eram menos propensas a chamar a atenção.
Comparação com Outros Métodos
Quando comparamos nosso ataque de passa-baixa com métodos existentes de ataque de porta dos fundos, nossa abordagem mostrou desempenho superior em termos de invisibilidade. As imagens geradas pelo nosso método eram menos propensas a serem detectadas e mais semelhantes às imagens originais.
No geral, o ataque de passa-baixa apresenta uma maneira mais avançada de executar ataques de porta dos fundos em DNNs, destacando os desafios enfrentados nesse espaço.
Conclusão
O ataque de passa-baixa representa um avanço significativo no campo dos ataques de porta dos fundos contra redes neurais. Ao utilizar técnicas do domínio de frequência e introduzir o modo de precisão, desenvolvemos um método que é tanto eficaz quanto discreto.
À medida que a tecnologia continua a evoluir, também evoluem os métodos de atacar e defender redes neurais. Nossa pesquisa contribui para o diálogo contínuo em torno dessas questões e abre caminhos para trabalhos futuros tanto em estratégias de ataque quanto em mecanismos de defesa.
As descobertas dos nossos experimentos destacam a realidade de que até mesmo defesas sofisticadas podem ser contornadas, enfatizando a importância de uma vigilância contínua na segurança de redes neurais contra tais ameaças. As implicações desse trabalho são vastas, impactando áreas que vão de cibersegurança à ética em IA, e ressaltam a corrida armamentista contínua entre adversários e defensores no cenário digital.
Título: Stealthy Low-frequency Backdoor Attack against Deep Neural Networks
Resumo: Deep neural networks (DNNs) have gain its popularity in various scenarios in recent years. However, its excellent ability of fitting complex functions also makes it vulnerable to backdoor attacks. Specifically, a backdoor can remain hidden indefinitely until activated by a sample with a specific trigger, which is hugely concealed. Nevertheless, existing backdoor attacks operate backdoors in spatial domain, i.e., the poisoned images are generated by adding additional perturbations to the original images, which are easy to detect. To bring the potential of backdoor attacks into full play, we propose low-pass attack, a novel attack scheme that utilizes low-pass filter to inject backdoor in frequency domain. Unlike traditional poisoned image generation methods, our approach reduces high-frequency components and preserve original images' semantic information instead of adding additional perturbations, improving the capability of evading current defenses. Besides, we introduce "precision mode" to make our backdoor triggered at a specified level of filtering, which further improves stealthiness. We evaluate our low-pass attack on four datasets and demonstrate that even under pollution rate of 0.01, we can perform stealthy attack without trading off attack performance. Besides, our backdoor attack can successfully bypass state-of-the-art defending mechanisms. We also compare our attack with existing backdoor attacks and show that our poisoned images are nearly invisible and retain higher image quality.
Autores: Xinrui Liu, Yu-an Tan, Yajie Wang, Kefan Qiu, Yuanzhang Li
Última atualização: 2023-05-10 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.09677
Fonte PDF: https://arxiv.org/pdf/2305.09677
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.