Backdoors Arquiteturais: Uma Ameaça Oculta em Redes Neurais
Backdoors arquitetônicos representam riscos sérios de segurança em redes neurais, muitas vezes ficando indetectáveis.
― 4 min ler
Índice
Estudos recentes mostraram que redes neurais podem ser comprometidas sem mudar os dados de treinamento. Uma preocupação grande é uma ameaça escondida conhecida como portas dos fundos arquitetônicas. Essas portas dos fundos são adicionadas diretamente à estrutura da rede, usando componentes básicos como funções de ativação ou camadas de pooling. Mesmo depois que um modelo é re-treinado, essas portas dos fundos podem ficar indetectáveis, causando sérios problemas de segurança.
Contexto
Em ataques tradicionais de porta dos fundos, adversários mudam os dados de treinamento para que o modelo aprenda padrões específicos chamados de Gatilhos. Quando um gatilho é adicionado a uma entrada comum, o modelo pode dar saídas inesperadas. Pesquisas recentes descobriram que adversários também podem esconder portas dos fundos na arquitetura da própria rede neural. Isso significa que os atacantes só precisam mudar a Estrutura do Modelo, que muitas vezes é negligenciada durante o desenvolvimento do modelo.
Um dos primeiros estudos sobre portas dos fundos arquitetônicas mostrou um método para criar um tipo específico de porta dos fundos. No entanto, faltava a habilidade de direcionar diferentes gatilhos. Nosso trabalho se concentra em desenvolver um sistema mais flexível que possa detectar qualquer gatilho escolhido sem precisar de supervisão humana.
Mecanismo de Ataque
Neste estudo, construímos um método para detectar vários gatilhos que podem ser incorporados dentro da arquitetura do modelo. Nós categorizamos essas portas dos fundos com base em como elas detectam gatilhos, como elas transmitem o sinal do gatilho e como elas integram esse sinal de volta ao modelo. Nosso estudo descobriu que desenvolvedores de aprendizado de máquina só conseguem identificar componentes suspeitos como portas dos fundos cerca de 37% das vezes. Surpreendentemente, em 33% dos casos, os desenvolvedores tendiam a preferir modelos que continham portas dos fundos.
Estudo com Usuários
Para avaliar a detecção humana de portas dos fundos arquitetônicas, realizamos um estudo com profissionais de aprendizado de máquina. Os participantes foram mostrados pares de arquiteturas de modelo e perguntados sobre qual modelo preferiam, enquanto também forneciam razões para suas escolhas. O feedback indicou que os usuários estavam mais influenciados por fatores como estilo de codificação do que pela presença de portas dos fundos.
Em outra parte do estudo, os participantes examinaram uma arquitetura de rede em busca de componentes suspeitos. No geral, eles tiveram dificuldades para identificar qualquer porta dos fundos, muitas vezes confundindo partes benignas do modelo com elementos suspeitos. Isso mostrou que muitos usuários não têm a habilidade de detectar portas dos fundos arquitetônicas de forma confiável.
Mecanismos de Defesa
Nós destacamos várias estratégias para ajudar a proteger contra portas dos fundos arquitetônicas, como:
- Inspeção Visual: Usar ferramentas de visualização para analisar a estrutura do modelo e identificar diferenças nas rotas de sinal.
- Sandboxing: Criar uma camada ao redor da rede para neutralizar gatilhos antes que eles possam ativar portas dos fundos.
- Proveniência: Garantir que todos os componentes do modelo sejam verificados e autenticados para evitar adições maliciosas.
Conclusão
A existência de portas dos fundos arquitetônicas levanta questões sérias sobre a segurança dos modelos de aprendizado de máquina. Nossas descobertas destacam a necessidade de maior conscientização e defesas robustas contra essas ameaças. Modelos futuros podem se tornar ainda mais difíceis de inspecionar, tornando essencial desenvolver melhores métodos de detecção e prevenção.
Impacto no Aprendizado de Máquina
O potencial das portas dos fundos arquitetônicas de afetar o aprendizado de máquina é significativo. Entender como elas operam é crucial para criar sistemas mais seguros. Com a crescente complexidade das arquiteturas dos modelos, é vital manter uma supervisão e verificação adequadas durante todo o processo de desenvolvimento.
Pesquisa Futura
Mais pesquisas são necessárias para explorar diferentes métodos de injeção de portas dos fundos e entender as implicações para a segurança do aprendizado de máquina. A flexibilidade dessas portas dos fundos sugere que novas estratégias podem precisar ser desenvolvidas para ficar à frente de ameaças potenciais.
Notas Finais
À medida que o aprendizado de máquina continua a crescer em importância, entender e mitigar riscos como portas dos fundos arquitetônicas será essencial para garantir a integridade e a confiabilidade dos sistemas de IA. Ao aumentar a conscientização e desenvolver defesas abrangentes, podemos ajudar a proteger essas tecnologias contra exploração.
Título: Architectural Neural Backdoors from First Principles
Resumo: While previous research backdoored neural networks by changing their parameters, recent work uncovered a more insidious threat: backdoors embedded within the definition of the network's architecture. This involves injecting common architectural components, such as activation functions and pooling layers, to subtly introduce a backdoor behavior that persists even after (full re-)training. However, the full scope and implications of architectural backdoors have remained largely unexplored. Bober-Irizar et al. [2023] introduced the first architectural backdoor; they showed how to create a backdoor for a checkerboard pattern, but never explained how to target an arbitrary trigger pattern of choice. In this work we construct an arbitrary trigger detector which can be used to backdoor an architecture with no human supervision. This leads us to revisit the concept of architecture backdoors and taxonomise them, describing 12 distinct types. To gauge the difficulty of detecting such backdoors, we conducted a user study, revealing that ML developers can only identify suspicious components in common model definitions as backdoors in 37% of cases, while they surprisingly preferred backdoored models in 33% of cases. To contextualize these results, we find that language models outperform humans at the detection of backdoors. Finally, we discuss defenses against architectural backdoors, emphasizing the need for robust and comprehensive strategies to safeguard the integrity of ML systems.
Autores: Harry Langford, Ilia Shumailov, Yiren Zhao, Robert Mullins, Nicolas Papernot
Última atualização: 2024-02-10 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.06957
Fonte PDF: https://arxiv.org/pdf/2402.06957
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/google/model-transparency
- https://anonymous.4open.science/r/logicdiscovery-BE15/README.md
- https://anonymous.4open.science/r/userstudy-00D5
- https://github.com/mxbi/backdoor
- https://anonymous.4open.science/r/userstudy-00D5/
- https://www.dropbox.com/s/
- https://arxiv.org/abs/2103.14030
- https://www.dropbox.com/s/47tyzpofuuyyv1b/mobilenetv2_1.0-f2a8633.pth.tar?dl=1
- https://github.com/pytorch/vision/blob/main/torchvision/models/resnet.py
- https://catalog.ngc.nvidia.com/orgs/nvidia/resources/resnet_50_v1_5_for_pytorch
- https://github.com/kuangliu/pytorch-cifar/blob/master/models/resnet.py
- https://anonymous.4open.science/r/resnet-cifar-taxonomy-5005/README.md
- https://github.com/d-li14/mobilenetv3.pytorch/blob/master/mobilenetv3.py
- https://github.com/d-li14/mobilenetv3.pytorch/