Ataques às Medidas de Incerteza em Aprendizado de Máquina
Pesquisas mostram vulnerabilidades em modelos de aprendizado de máquina por meio de manipulação direcionada de incertezas.
― 7 min ler
Índice
Modelos de aprendizado de máquina são usados em várias áreas, incluindo campos importantes como diagnóstico médico e carros autônomos. No entanto, esses modelos podem ser enganados por entradas específicas feitas para despistar, conhecidas como exemplos adversariais. Essas entradas podem ser pequenas mudanças em dados normais que fazem o modelo errar nas previsões.
Para tornar esses modelos mais seguros, os pesquisadores estão investigando a quantificação de incerteza (UQ), que é uma forma de estimar o quanto um modelo está certo ou errado sobre suas previsões. Quando um modelo recebe dados que podem ser adversariais, ele pode mostrar alta incerteza, indicando que talvez não esteja fazendo uma previsão confiável.
Porém, surgiram novas formas de os atacantes manipularem os modelos. Eles podem criar exemplos adversariais que não só enganam o modelo a fazer previsões erradas, mas também reduzem a incerteza do modelo, dificultando a detecção desses exemplos. Este artigo vai focar em como esses ataques funcionam, especialmente os que visam manipular a incerteza sem se importar com a correção da previsão.
Quantificação de Incerteza
A quantificação de incerteza refere-se a métodos usados para estimar o nível de incerteza nas previsões de um modelo de aprendizado de máquina. Existem dois tipos principais de incerteza: a incerteza aleatória, que vem da aleatoriedade inerente aos dados, e a incerteza epistêmica, que surge da falta de conhecimento do modelo sobre a melhor forma de prever resultados.
As técnicas de UQ ajudam a fornecer um número para expressar o quão confiáveis são as previsões de um modelo de aprendizado de máquina. Por exemplo, se um modelo prevê algo sobre a segmentação de um tumor, a UQ ajuda a avaliar se essa previsão pode ser confiável, permitindo que os médicos sejam mais cuidadosos em suas decisões.
Aprendizado de Máquina Adversarial
O aprendizado de máquina adversarial lida com as vulnerabilidades em modelos de aprendizado de máquina a ataques que são intencionalmente feitos para enganá-los. Um atacante pode fazer pequenas mudanças em uma entrada para que o modelo classifique errado.
Duas maneiras comuns de ataque se baseiam em ajustar gradualmente a entrada: um método rápido que faz um único ajuste e um método mais gradual que faz vários ajustes para encontrar uma forma de enganar o modelo. Embora medidas de defesa tenham sido desenvolvidas, como o treinamento adversarial, onde um modelo é treinado usando exemplos adversariais para melhorar sua robustez, os atacantes continuam a inovar formas de contornar essas defesas.
Ataques Focados na Incerteza
A maioria dos estudos anteriores olhou para a UQ principalmente como uma forma de detectar amostras adversariais. No entanto, este trabalho foca em ataques especificamente projetados para manipular medidas de incerteza, o que pode levar a decisões ruins por sistemas ou usuários subsequentes.
Ataque de Superconfiança (O-Attack): Esse ataque tem como objetivo diminuir a estimativa de incerteza das previsões, fazendo o modelo parecer muito certo sobre suas previsões erradas. Isso pode resultar em decisões erradas baseadas na saída do modelo.
Ataque de Insegurança (U-Attack): Esse ataque aumenta a medida de incerteza, fazendo as previsões do modelo serem desconsideradas como não confiáveis. Se um prestador de serviços de saúde vê uma alta medida de incerteza, pode ignorar completamente a previsão do modelo, levando a oportunidades perdidas para ações em tempo hábil.
Ambos os tipos de ataques podem ter consequências sérias em aplicações críticas de segurança, como medicina ou segurança.
Implementação de Ataques
A implementação desses ataques pode variar dependendo se o modelo é probabilístico ou determinístico.
Atacando Modelos Probabilísticos
Modelos probabilísticos usam métodos que envolvem fazer previsões com base nas probabilidades de vários resultados. Por exemplo, a medida de incerteza é frequentemente baseada na variância preditiva, que pode ser manipulada ajustando cuidadosamente a entrada do modelo.
- Ataque de Variância Mínima (MVA): Esse ataque pega uma amostra de entrada e ajusta para reduzir a variância preditiva, enganando assim a medida de incerteza.
- Ataque Auto-Alvo (ATA): Esse ataque altera a entrada para aproximar a previsão média do modelo de uma classe alvo errada, levando a medidas de incerteza enganosamente baixas.
Atacando Modelos Determinísticos
Modelos determinísticos não fazem previsões com base em probabilidades. Em vez disso, eles pegam entradas fixas e produzem saídas com base em parâmetros aprendidos. Para esses modelos, geralmente é mais fácil lançar ataques bem-sucedidos, já que não há necessidade de métodos de amostragem.
Por exemplo, os mesmos conceitos usados para ataques probabilísticos podem ser adaptados para modelos determinísticos, focando em empurrar diretamente as previsões em direção a uma classe alvo.
Segmentação Semântica
A segmentação semântica é uma tarefa mais complexa onde o modelo atribui rótulos a cada pixel em uma imagem. Nesse contexto, a incerteza é medida pixel a pixel, tornando mais desafiador manipular a incerteza de forma eficaz. No entanto, os mesmos princípios ainda podem se aplicar.
Por exemplo, um atacante pode trabalhar para manipular as previsões para que todos os pixels de uma imagem sejam classificados como a mesma classe, o que reduziria a incerteza. Isso pode ser feito mirando na classe majoritária na saída de segmentação e forçando o modelo a produzir uma saída uniforme, reduzindo assim a incerteza relatada.
Análise Experimental
A eficácia dos ataques propostos foi avaliada por meio de experimentos usando conjuntos de dados conhecidos, como CIFAR-10 e PASCAL VOC. Os experimentos analisaram como diferentes técnicas de UQ se comportaram sob esses ataques.
Resultados na Classificação
Nas tarefas de classificação testadas, várias técnicas de UQ foram avaliadas. Os resultados mostraram que:
- Modelos que usavam ataques MVA conseguiram reduzir significativamente as medições de incerteza sem sacrificar a precisão na classificação.
- Outra técnica, STAB, se mostrou particularmente eficaz em minimizar ambos os tipos de incerteza, aleatória e epistêmica.
Resultados em Ataques Detectados
Quando esses métodos de UQ encontraram amostras OOD (dados que o modelo não viu antes), os resultados indicaram uma tendência preocupante:
- A eficácia dos métodos de UQ diminuiu severamente à medida que a perturbação aumentou, levando a identificações incorretas dos dados.
- Deep Ensembles, embora normalmente robustos, tiveram mais dificuldades do que o esperado contra esses ataques adversariais, destacando uma vulnerabilidade em seu design.
Resultados na Segmentação Semântica
Os ataques também foram avaliados no contexto de segmentação semântica. Os resultados indicaram que:
- O MVA foi menos bem-sucedido em abordar a incerteza nas bordas dos objetos segmentados.
- O novo ataque formulado Uniform Segmentation Target Attack (UST) conseguiu reduzir efetivamente as pontuações de incerteza ao simplificar previsões por toda a imagem para uma única classe.
Conclusões
Os achados dos experimentos sugerem que as técnicas de UQ são vulneráveis a ataques adversariais especialmente projetados. A capacidade dos atacantes de manipular as medidas de incerteza coloca em dúvida a confiabilidade desses sistemas em aplicações críticas.
Daqui pra frente, mais pesquisas são necessárias para investigar diferentes estratégias de ataque e melhorar as defesas contra esses riscos. Possíveis direções incluem explorar ataques de insegurança, ampliar o alcance dos métodos de UQ testados e buscar formas de tornar os modelos mais robustos por meio de treinamento adversarial.
Ao entender melhor essas vulnerabilidades, os pesquisadores podem desenvolver salvaguardas mais fortes, garantindo que sistemas de aprendizado de máquina possam ser usados de forma segura e eficaz em aplicações do mundo real.
Título: Adversarial Attacks Against Uncertainty Quantification
Resumo: Machine-learning models can be fooled by adversarial examples, i.e., carefully-crafted input perturbations that force models to output wrong predictions. While uncertainty quantification has been recently proposed to detect adversarial inputs, under the assumption that such attacks exhibit a higher prediction uncertainty than pristine data, it has been shown that adaptive attacks specifically aimed at reducing also the uncertainty estimate can easily bypass this defense mechanism. In this work, we focus on a different adversarial scenario in which the attacker is still interested in manipulating the uncertainty estimate, but regardless of the correctness of the prediction; in particular, the goal is to undermine the use of machine-learning models when their outputs are consumed by a downstream module or by a human operator. Following such direction, we: \textit{(i)} design a threat model for attacks targeting uncertainty quantification; \textit{(ii)} devise different attack strategies on conceptually different UQ techniques spanning for both classification and semantic segmentation problems; \textit{(iii)} conduct a first complete and extensive analysis to compare the differences between some of the most employed UQ approaches under attack. Our extensive experimental analysis shows that our attacks are more effective in manipulating uncertainty quantification measures than attacks aimed to also induce misclassifications.
Autores: Emanuele Ledda, Daniele Angioni, Giorgio Piras, Giorgio Fumera, Battista Biggio, Fabio Roli
Última atualização: 2023-09-19 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.10586
Fonte PDF: https://arxiv.org/pdf/2309.10586
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.