Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Criptografía y seguridad# Aprendizaje automático

Ataques troyanos adaptativos en redes neuronales profundas

Nuevas estrategias permiten que los ataques de troyanos eviten los métodos de detección de manera efectiva.

― 8 minilectura


Los ataques troyanosLos ataques troyanosevolucionan contra lasDNNs.preocupaciones de seguridad.detección, lo que genera nuevasLas estrategias adaptativas evitan la
Tabla de contenidos

Las Redes Neuronales Profundas (DNNs) se han vuelto súper populares en muchos campos, como visión, salud, videojuegos y autos autónomos. Funcionan muy bien, pero también tienen ciertas debilidades. Una de esas debilidades es su vulnerabilidad a ataques tipo Trojan. En estos ataques, se añade un disparador de forma secreta a algunas entradas, permitiendo que el atacante manipule las predicciones de la DNN cuando se utilizan esas entradas específicas. El reto es detectar estos modelos Trojan de manera efectiva.

Los modelos de detectores basados en la salida pueden identificar DNNs Trojan analizando sus salidas cuando se les dan entradas alteradas. Estos detectores han mejorado con el tiempo, pero a menudo operan bajo la suposición de que el atacante es predecible y no conoce los Métodos de detección. Sin embargo, los atacantes también pueden adaptar sus métodos para evitar ser capturados.

En este trabajo, presentamos una nueva manera para que los atacantes reentrenen sus modelos Trojan mientras están al tanto de los detectores. Al hacer esto, pueden mantener una alta precisión tanto en las entradas con el disparador incorporado como en las entradas limpias, evitando al mismo tiempo la detección.

Antecedentes sobre DNNs y Ataques Trojan

Las DNNs se entrenan para clasificar muestras de datos en diferentes clases. Por ejemplo, en una tarea de clasificación de imágenes, el modelo predecirá a qué categoría pertenece una imagen (como un gato o un perro). Sin embargo, los atacantes pueden aprovechar estos modelos. Pueden incrustar un patrón de disparador en ciertas entradas. Cuando el modelo encuentra estas entradas con el disparador, se engaña a sí mismo para producir una salida específica que beneficia al atacante, mientras sigue comportándose normalmente en las entradas regulares.

Esta manipulación puede tener consecuencias graves, especialmente en aplicaciones críticas como la conducción autónoma. Como resultado, tanto los atacantes como los defensores desarrollan continuamente nuevos métodos para superarse mutuamente.

Métodos de Detección

A medida que las DNNs son blanco de ataques Trojan, los investigadores han creado métodos para detectar. En términos generales, estos métodos caen en dos categorías: filtrado basado en la entrada y detectores basados en la salida.

El filtrado basado en la entrada implica eliminar muestras sospechosas de los datos de entrenamiento antes de que lleguen a la DNN. Por otro lado, los detectores basados en la salida se centran en examinar las salidas de la DNN cuando se le dan varias entradas. Estos detectores pueden operar sin necesidad de ver los datos de entrenamiento de la DNN, lo que los hace más prácticos en escenarios del mundo real.

Detectores Basados en la Salida

Los detectores basados en la salida son favorecidos porque requieren solo acceso de caja negra a los modelos. Analizan las salidas que el modelo genera en respuesta a diferentes entradas. Hay dos tipos principales de estos detectores:

  1. Detectores Supervisados: Estos utilizan datos etiquetados para entrenar un clasificador binario que puede diferenciar entre salidas de modelos limpios y Trojan.
  2. Detectores No Supervisados: Estos métodos utilizan técnicas de detección de outliers para determinar si las salidas de un modelo se ven extrañas o sospechosas.

Ambos tipos buscan determinar si un modelo está Trojan analizando cómo cambian sus salidas con diferentes entradas. Muchos de estos detectores han mostrado éxito, pero a menudo asumen que los atacantes son estáticos y no se ajustan.

El Reto con Atacantes Adaptativos

En realidad, los atacantes no siempre son estáticos. Pueden aprender sobre los métodos de detección basados en la salida y adaptar sus estrategias en consecuencia. Esta dinámica crea un escenario de tira y afloja donde ambos lados evolucionan para superarse mutuamente.

Los métodos previos no tuvieron en cuenta a los atacantes adaptativos, dejando así un vacío en nuestros enfoques para la detección de Trojan. Si el atacante conoce el método de detección, puede reentrenar sus modelos Trojan de una manera que mantenga la precisión y derrote la detección.

El Adversario Adaptativo Propuesto

Proponemos una estrategia que permite a los atacantes alterar sus DNNs Trojan mientras están al tanto de los detectores basados en la salida. El nuevo enfoque consiste en dos pasos principales:

  1. El atacante incrusta un disparador en muestras limpias seleccionadas y entrena la DNN para asegurar que el modelo Trojan se comporte bien tanto en muestras limpias como en las incrustadas con el disparador.
  2. El atacante luego utiliza el modelo Trojan actualizado para ajustar los parámetros del detector y maximizar su rendimiento.

Este proceso iterativo continúa hasta que no se pueden hacer más mejoras ni en el rendimiento de la DNN Trojan ni en la detectabilidad del modelo.

Perspectivas Clave

El alto número de parámetros en las DNNs les da mucho espacio para ajustarse a diferentes entradas. Esta flexibilidad permite a los atacantes crear modelos Trojan que aún pueden funcionar bien mientras permanecen indetectados. La interacción entre el atacante y el mecanismo de detección puede verse como un juego donde ambos lados intentan superar al otro.

Experimentos y Resultados

Para validar nuestro nuevo enfoque, realizamos una serie de experimentos utilizando múltiples conjuntos de datos, incluidas imágenes y comandos de audio. El objetivo era ver qué tan bien nuestro atacante adaptativo podía eludir los métodos de detección Trojan basados en la salida de última generación.

Metodología

Utilizamos varios conjuntos de datos bien conocidos, que contienen varios ejemplos para entrenar y probar nuestros métodos. Los conjuntos de datos incluyeron:

  • MNIST: Un conjunto de datos de dígitos escritos a mano.
  • CIFAR-10 y CIFAR-100: Conjuntos de datos que contienen imágenes de objetos comunes.
  • SpeechCommand: Una colección de archivos de audio para comandos hablados.

Los experimentos buscaban medir:

  • La precisión de las muestras limpias clasificadas por el modelo.
  • La tasa de éxito de la clasificación de muestras incrustadas con disparadores.
  • Las tasas de detección de los detectores Trojan de SOTA.

Resultados

Nuestros hallazgos revelaron que el adversario adaptativo fue efectivo en eludir los métodos de detección. El ataque mantuvo una alta tasa de éxito al manipular los modelos, logrando resultados significativos en todos los conjuntos de datos.

En particular, los resultados indicaron claramente que la estrategia propuesta permitió a los modelos Trojan escapar de la detección. Incluso cuando se ajustó el mecanismo de detección, nuestro enfoque todavía mostró un mejor rendimiento general para el atacante.

Algoritmo Codicioso para Incrustar Disparadores

También introdujimos un algoritmo codicioso para ayudar al atacante a seleccionar qué muestras de entrada incrustar con los disparadores Trojan. El objetivo era minimizar los costos operativos mientras se aseguraba una alta efectividad.

Consideraciones Clave

Al seleccionar muestras de entrada para incrustar los disparadores, el atacante tuvo que tener en cuenta tres factores principales:

  1. Costo del Ataque: Un mayor número de muestras con disparadores incrustados incrementa los costos operativos para el atacante.
  2. Integridad del Modelo: Demasiadas muestras incrustadas con disparadores pueden degradar la precisión del modelo Trojan en entradas limpias, aumentando la posibilidad de detección.
  3. Sigilo: Un número excesivo de muestras con disparadores puede llevar a una detección rápida por métodos avanzados.

El algoritmo codicioso asegura que el atacante utilice la menor cantidad de muestras necesarias para lograr los efectos deseados sin atraer la atención.

Conclusión

Nuestro trabajo resalta la batalla evolutiva entre las DNNs y los ataques Trojan. A medida que los métodos de detección mejoran, también lo hacen las estrategias de los atacantes. Al crear un modelo de adversario adaptativo, demostramos que es posible para los atacantes lograr alta precisión tanto en entradas limpias como en entradas con disparadores incrustados mientras evaden la detección de manera efectiva.

Además, la integración de un algoritmo codicioso en el proceso permite a los atacantes ser más eficientes en sus enfoques para incrustar disparadores. Con experimentos exhaustivos que demuestran la efectividad de este nuevo enfoque en varios conjuntos de datos y métodos de detección, está claro que el panorama de la detección de Trojan debe seguir adaptándose.

A medida que los defensores desarrollan técnicas más avanzadas, los investigadores deben desarrollar enfoques innovadores para mantenerse al día con las amenazas en evolución. Este tira y afloja continuo subraya la importancia de permanecer vigilantes y proactivos para proteger la integridad de los modelos de aprendizaje automático y los datos que procesan.

Fuente original

Título: Game of Trojans: Adaptive Adversaries Against Output-based Trojaned-Model Detectors

Resumen: We propose and analyze an adaptive adversary that can retrain a Trojaned DNN and is also aware of SOTA output-based Trojaned model detectors. We show that such an adversary can ensure (1) high accuracy on both trigger-embedded and clean samples and (2) bypass detection. Our approach is based on an observation that the high dimensionality of the DNN parameters provides sufficient degrees of freedom to simultaneously achieve these objectives. We also enable SOTA detectors to be adaptive by allowing retraining to recalibrate their parameters, thus modeling a co-evolution of parameters of a Trojaned model and detectors. We then show that this co-evolution can be modeled as an iterative game, and prove that the resulting (optimal) solution of this interactive game leads to the adversary successfully achieving the above objectives. In addition, we provide a greedy algorithm for the adversary to select a minimum number of input samples for embedding triggers. We show that for cross-entropy or log-likelihood loss functions used by the DNNs, the greedy algorithm provides provable guarantees on the needed number of trigger-embedded input samples. Extensive experiments on four diverse datasets -- MNIST, CIFAR-10, CIFAR-100, and SpeechCommand -- reveal that the adversary effectively evades four SOTA output-based Trojaned model detectors: MNTD, NeuralCleanse, STRIP, and TABOR.

Autores: Dinuka Sahabandu, Xiaojun Xu, Arezoo Rajabi, Luyao Niu, Bhaskar Ramasubramanian, Bo Li, Radha Poovendran

Última actualización: 2024-02-12 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2402.08695

Fuente PDF: https://arxiv.org/pdf/2402.08695

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares