Analizando Ataques de Puerta Trasera en Redes Neuronales Profundas
Un nuevo enfoque para entender los ataques de puerta trasera en sistemas de aprendizaje automático.
― 7 minilectura
Tabla de contenidos
Las redes neuronales profundas (DNNs) se usan en varios campos, como el reconocimiento de imágenes y el procesamiento del lenguaje. Estos sistemas a menudo necesitan un montón de datos de entrenamiento para funcionar bien. Sin embargo, depender de grandes cantidades de datos puede crear riesgos. Los atacantes pueden manipular los datos de entrenamiento para perjudicar el rendimiento de esos sistemas. Este tipo de ataque se conoce como ataque backdoor.
En los ataques backdoor típicos, los atacantes introducen cambios en los datos de entrenamiento, permitiéndoles controlar cómo se comporta el modelo una vez que se despliega. Desafortunadamente, muchos métodos actuales asumen que todos los datos de entrenamiento provienen de una sola fuente y que los atacantes tienen acceso total a ellos. Esto no refleja situaciones del mundo real donde los datos a menudo provienen de múltiples fuentes, y los atacantes pueden manipular solo algunas partes de ellos.
Proponemos una nueva forma de analizar los ataques backdoor que refleja esta realidad más compleja, que llamamos ataques backdoor restringidos por datos. En lugar de asumir acceso completo a todos los datos de entrenamiento, aceptamos que los atacantes solo tienen acceso parcial. Esto conduce a diferentes tipos de ataques backdoor, que clasificamos según si el atacante tiene acceso limitado al número de muestras, clases o dominios involucrados.
Antecedentes
Resumen de Ataques Backdoor
Los ataques backdoor funcionan insertando desencadenantes ocultos en una DNN. Cuando el modelo ve entradas específicas con estos desencadenantes, produce resultados incorrectos. El modelo se comporta normalmente cuando se le presentan entradas limpias y benignas, pero puede ser engañado por los desencadenantes.
Hay diferentes tipos de ataques backdoor, incluyendo aquellos que se basan en trucos de codificación específicos, usando modelos preentrenados y envenenando datos de entrenamiento. Este documento se centra principalmente en ataques basados en envenenamiento, donde una pequeña cantidad de muestras dañinas se mezclan con los datos de entrenamiento.
Ataques Backdoor Restringidos por Datos
En situaciones realistas, las víctimas suelen combinar sus datos privados con datos públicos de diversas fuentes. Los atacantes generalmente no pueden acceder a todo el conjunto de datos que se utiliza para el entrenamiento, creando un escenario conocido como ataques backdoor restringidos por datos. Por ejemplo, una víctima podría tener un pequeño conjunto de datos privado y reunir datos adicionales en línea, algunos de los cuales podrían estar envenenados por el atacante.
En situaciones restringidas por datos, los atacantes enfrentan desafíos porque hay diferencias entre las características benignas y las de envenenamiento en los datos. Identificamos tres tipos principales de ataques restringidos por datos:
- Ataques Backdoor Restringidos por Número: El atacante solo puede usar un número limitado de muestras.
- Ataques Backdoor Restringidos por Clase: El atacante está limitado a un número restringido de clases.
- Ataques Backdoor Restringidos por Dominio: El atacante solo puede manipular datos de ciertos dominios.
Desafíos en Escenarios Restringidos por Datos
Los métodos actuales de ataque backdoor luchan en situaciones restringidas por datos debido a la mezcla de características benignas y de envenenamiento. Idealmente, un ataque backdoor efectivo debería depender únicamente de los datos envenenados sin interferencia de características benignas.
Exploramos un enfoque novedoso para mejorar los ataques backdoor en este contexto introduciendo dos métodos clave: Suprimición de Características Benignas y Aumento de Características de Envenenamiento. Estos métodos buscan filtrar características benignas y enfatizar las dañinas.
Metodología
Suprimición de Características Benignas
El objetivo de la Suprimición de Características Benignas es reducir la influencia de las características benignas durante el proceso de ataque. Este método utiliza un modelo preentrenado en un conjunto de datos amplio para identificar y eliminar características limpias de las imágenes.
Aumento de Características de Envenenamiento
Junto con suprimir características benignas, también nos centramos en mejorar la expresión de características de envenenamiento. Esto implica diseñar desencadenantes eficientes que puedan envenenar los datos de manera efectiva sin depender de un conjunto de datos de entrenamiento completo.
Ambos métodos trabajan juntos para hacer que el ataque backdoor sea más eficiente y sigiloso.
Marco Experimental
Realizamos experimentos para evaluar nuestros métodos propuestos en varios conjuntos de datos y arquitecturas de modelos. Los criterios principales de evaluación incluyen:
- Tasa de Éxito del Ataque (ASR): Esto mide la efectividad del ataque backdoor.
- Precisión Benigna (BA): Esto evalúa qué tan bien el modelo se desempeña en entradas benignas después del ataque.
- Sigilosidad: Esto observa cuán indetectables son las muestras envenenadas en comparación con las muestras limpias.
Conjuntos de Datos y Modelos
Usamos varios conjuntos de datos, incluidos CIFAR-10, CIFAR-100 e ImageNet-50, para probar nuestros métodos. También evaluamos en arquitecturas de modelos populares, como VGG-16 y ResNet-18.
Resultados
Efectividad de los Métodos Propuestos
Nuestros experimentos revelaron mejoras significativas en el rendimiento del ataque backdoor. Las nuevas técnicas que introdujimos superaron consistentemente a los métodos tradicionales en diferentes conjuntos de datos y escenarios de ataque.
En particular, nuestro método de Suprimición de Características Benignas mostró que eliminar características benignas podría mejorar la efectividad del ataque, incluso en condiciones variables.
Inofensividad para la Precisión Benigna
También encontramos que nuestros métodos no perjudicaron el rendimiento del modelo en datos benignos. La precisión benigna se mantuvo en niveles aceptables, lo que indica que los ataques no comprometieron la integridad del modelo en operación normal.
Sigilosidad de los Ataques
Nuestros métodos fueron diseñados para mantener un perfil bajo, lo que los hace difíciles de detectar. Las evaluaciones mostraron que nuestras muestras envenenadas se mezclaban bien con las muestras limpias, lo que demuestra aún más la efectividad de nuestro enfoque.
Discusión
Nuestros hallazgos indican que los ataques backdoor pueden ser más resistentes y versátiles de lo que se pensaba anteriormente, especialmente en entornos del mundo real donde las restricciones de datos son comunes.
Reconocer los desafíos que plantean múltiples fuentes de datos y el acceso restringido para los atacantes permite estrategias más matizadas en el diseño de ataques efectivos.
Limitaciones
Si bien nuestro estudio proporciona información sobre ataques backdoor restringidos por datos, aún existen limitaciones. Las técnicas dependen en gran medida de la elección del modelo y de los conjuntos de datos utilizados para el entrenamiento. Planeamos explorar la aplicabilidad de nuestros métodos en diferentes dominios, como la imagen médica y la ciberseguridad.
Direcciones Futuras
La investigación futura podría profundizar en mejorar la robustez de los métodos contra diferentes formas de detección y refinar las técnicas para ajustarse a tareas más especializadas. Además, aplicar nuestros hallazgos a tecnologías emergentes de IA y entender las amenazas potenciales será un área de enfoque esencial.
Conclusión
En resumen, este trabajo presenta un enfoque integral para los ataques backdoor en entornos con restricciones de datos. Al entender las complejidades de los escenarios del mundo real y desarrollar nuevos métodos para mejorar la efectividad del ataque, abrimos el camino para una investigación adicional en la seguridad de los sistemas de aprendizaje profundo contra tales vulnerabilidades.
Título: Efficient Backdoor Attacks for Deep Neural Networks in Real-world Scenarios
Resumen: Recent deep neural networks (DNNs) have came to rely on vast amounts of training data, providing an opportunity for malicious attackers to exploit and contaminate the data to carry out backdoor attacks. However, existing backdoor attack methods make unrealistic assumptions, assuming that all training data comes from a single source and that attackers have full access to the training data. In this paper, we introduce a more realistic attack scenario where victims collect data from multiple sources, and attackers cannot access the complete training data. We refer to this scenario as data-constrained backdoor attacks. In such cases, previous attack methods suffer from severe efficiency degradation due to the entanglement between benign and poisoning features during the backdoor injection process. To tackle this problem, we introduce three CLIP-based technologies from two distinct streams: Clean Feature Suppression and Poisoning Feature Augmentation.effective solution for data-constrained backdoor attacks. The results demonstrate remarkable improvements, with some settings achieving over 100% improvement compared to existing attacks in data-constrained scenarios. Code is available at https://github.com/sunh1113/Efficient-backdoor-attacks-for-deep-neural-networks-in-real-world-scenarios
Autores: Ziqiang Li, Hong Sun, Pengfei Xia, Heng Li, Beihao Xia, Yi Wu, Bin Li
Última actualización: 2024-04-19 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2306.08386
Fuente PDF: https://arxiv.org/pdf/2306.08386
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.