Mejorando la Robustez de DNN con Desenfoque Retinal
La investigación muestra cómo imitar la visión humana puede fortalecer las redes neuronales profundas contra ataques.
― 8 minilectura
Tabla de contenidos
Las redes neuronales profundas (DNNS) son herramientas populares en visión por computadora. Son muy buenas en tareas como reconocer objetos en imágenes. Sin embargo, tienen un gran problema: pueden ser engañadas por pequeños cambios en las imágenes que la gente ni siquiera nota. Estos cambios se llaman Ataques adversariales. Esto plantea la pregunta de si se puede confiar en las DNNs en situaciones del mundo real.
Para entenderlo mejor, los investigadores han estudiado cómo funciona la visión humana. Los humanos son buenos reconociendo objetos incluso cuando las cosas están borrosas o no son del todo claras. De hecho, nuestra visión periférica (el área fuera del centro de nuestro enfoque) carece de detalle, pero aún así logramos reconocer objetos utilizando características de alto nivel.
En este artículo, exploramos un método que imita este aspecto de la visión humana para hacer que las DNNs sean más resistentes a estos ataques. Al difuminar imágenes y reducir su saturación de color, esperamos entrenar DNNs que puedan manejar mejor los ataques adversariales y las corrupciones comunes de imágenes.
La importancia de la visión humana
La visión humana funciona de una manera que difiere significativamente de las DNNs. Mientras que las DNNs ven cada parte de una imagen con total detalle, los humanos procesan principalmente un área pequeña en detalle nítido, conocida como la fóvea. El resto de nuestro campo visual se percibe con menos claridad. Esta forma única de ver nos ayuda a entender objetos incluso cuando no son del todo claros.
Para entrenar mejores DNNs, investigamos cómo la visión periférica afecta nuestra capacidad para reconocer objetos. Los humanos experimentan una caída en la fidelidad visual cuando miran lejos de su punto de enfoque, y esto puede ayudarnos a ignorar pequeños cambios que podrían confundir a una DNN. Creemos que entrenar a las DNNs de una manera que imite este aspecto de la visión humana podría mejorar su robustez.
Método propuesto: Difuminado retinal
Desarrollamos una técnica llamada Difuminado Retinal para simular la forma en que los humanos perciben imágenes. Este método modifica las imágenes aplicando Ruido Gaussiano y luego difuminando y reduciendo el color de forma que refleje el sistema visual humano. El difuminado y la desaturación se aplican de manera diferente según la distancia de un píxel al punto de fijación (el centro de enfoque). Esto permite que el modelo aprenda de imágenes que se parecen a cómo los humanos ven realmente el mundo.
El proceso funciona de la siguiente manera:
- Adición de ruido: Comenzamos agregando ruido gaussiano a la imagen original para imitar las respuestas impredecibles de los sensores biológicos en nuestros ojos.
- Copias de imagen: Creamos copias en color y en escala de grises de la imagen.
- Estimación de la Agudeza Visual: Calculamos qué tan bien se puede ver cada área de la imagen según su distancia al punto de fijación. Las áreas más alejadas se ven con menos claridad.
- Difuminado y combinación: Aplicamos difuminado gaussiano basado en los niveles de agudeza estimados y combinamos las imágenes difuminadas para crear una imagen final que refleje cómo la verían los humanos.
Configuración del experimento
Datos y entrenamiento del modelo
Probamos nuestro método utilizando conjuntos de datos de imágenes populares, como CIFAR-10 e ImageNet, para ver qué tan bien funcionan las DNNs entrenadas con Difuminado Retinal en comparación con los métodos de entrenamiento estándar. Entrenamos varios modelos, incluyendo ResNet, usando tanto nuestro método como los métodos tradicionales.
Las divisiones del conjunto de datos para entrenamiento, validación y prueba fueron predefinidas para asegurar una prueba justa de la precisión del modelo.
Método de evaluación
Nos centramos en probar qué tan bien los modelos podían reconocer objetos cuando se enfrentaban a ataques adversariales y otras distorsiones comunes de imágenes. Medimos la precisión de los modelos bajo estas condiciones para ver qué tan bien el Difuminado Retinal mejoró su robustez.
Resultados
Mejor resistencia a ataques adversariales
Nuestros resultados mostraron que las DNNs entrenadas con Difuminado Retinal superaron significativamente a las entrenadas con técnicas estándar cuando se enfrentaron a ataques adversariales. Por ejemplo, nuestros modelos demostraron un aumento en la precisión de 12-25 puntos porcentuales en imágenes que habían sido perturbadas por cambios adversariales.
En particular, notamos que los niveles de precisión se mantuvieron altos incluso cuando la intensidad de los ataques aumentó. Esto contrasta marcadamente con los modelos estándar, que rápidamente perdieron precisión en condiciones similares.
Rendimiento contra corrupciones comunes de imágenes
No solo nuestros modelos manejaron mejor los ataques adversariales, sino que también se desempeñaron bien contra corrupciones comunes de imágenes como difuminado, ruido y varias distorsiones. Lograron una mayor precisión general en comparación con aquellos entrenados sin nuestro método, demostrando que los beneficios del Difuminado Retinal van más allá de solo escenarios adversariales.
Estudio de ablación
Para entender qué aspectos del Difuminado Retinal contribuyeron más al rendimiento mejorado, realizamos un estudio de ablación. Analizamos cómo varios componentes de nuestro método, como la adición de ruido, el difuminado adaptativo y la desaturación de color, impactaron la robustez general.
Los hallazgos indicaron que agregar ruido durante el entrenamiento fue el factor más significativo, seguido por el difuminado adaptativo. Curiosamente, cuando intentamos usar difuminado estándar en lugar de difuminado adaptativo, los modelos mostraron ligeras mejoras en robustez pero tuvieron menor precisión en imágenes limpias, lo que resalta la importancia de implementar el difuminado de una manera que refleje el procesamiento visual humano.
Explorando puntos de fijación
Mientras implementábamos el Difuminado Retinal, también exploramos cómo la selección de puntos de fijación afectaba la precisión. En lugar de siempre usar el centro de una imagen para el análisis, permitimos que el modelo seleccionara puntos en función de dónde es probable que los humanos se enfoquen.
Este enfoque llevó a mejoras notables en precisión tanto para imágenes limpias como para imágenes perturbadas adversarialmente. Los modelos demostraron ser más efectivos al clasificar imágenes cuando se elegían puntos de fijación óptimos, apoyando aún más la noción de que modelar el procesamiento visual similar al humano puede mejorar el rendimiento de las DNN.
Pruebas con diferentes arquitecturas
También queríamos ver si nuestro método funcionaría en varios tipos de modelos. Entrenamos arquitecturas adicionales, incluyendo MLP-Mixer y ViT, con Difuminado Retinal para evaluar su robustez contra ataques adversariales. Los resultados confirmaron que los beneficios del Difuminado Retinal no se limitaban a solo un tipo de modelo. De hecho, las arquitecturas que emplearon nuestro método mostraron mejoras significativas incluso en niveles más altos de ataques.
Conclusión
Nuestra exploración del Difuminado Retinal ha demostrado su potencial para mejorar la robustez de las DNNs contra ataques adversariales y corrupciones comunes de imágenes. Al simular cómo los humanos perciben imágenes, podemos crear modelos que sean mejores para manejar cambios inesperados.
Esta investigación puede allanar el camino para sistemas de visión por computadora más confiables que se puedan confiar en aplicaciones del mundo real. Estudios futuros podrían centrarse en refinar aún más las técnicas de selección de fijación y extender la aplicación del Difuminado Retinal a tareas visuales aún más complejas.
Direcciones futuras
Hay muchas avenidas para futuras investigaciones. Por ejemplo, optimizar los algoritmos de selección de puntos de fijación podría mejorar aún más la precisión en imágenes limpias. Investigar la aplicación del Difuminado Retinal en otras áreas de IA fuera del reconocimiento de imágenes también podría arrojar resultados interesantes.
Además, entender los factores biológicos que contribuyen a la robustez en la visión humana podría inspirar aún más técnicas para mejorar las DNNs. En última instancia, el objetivo es desarrollar modelos que sean tan confiables y capaces como la percepción humana en reconocer e interpretar información visual.
Título: Training on Foveated Images Improves Robustness to Adversarial Attacks
Resumen: Deep neural networks (DNNs) have been shown to be vulnerable to adversarial attacks -- subtle, perceptually indistinguishable perturbations of inputs that change the response of the model. In the context of vision, we hypothesize that an important contributor to the robustness of human visual perception is constant exposure to low-fidelity visual stimuli in our peripheral vision. To investigate this hypothesis, we develop \RBlur, an image transform that simulates the loss in fidelity of peripheral vision by blurring the image and reducing its color saturation based on the distance from a given fixation point. We show that compared to DNNs trained on the original images, DNNs trained on images transformed by \RBlur are substantially more robust to adversarial attacks, as well as other, non-adversarial, corruptions, achieving up to 25\% higher accuracy on perturbed data.
Autores: Muhammad A. Shah, Bhiksha Raj
Última actualización: 2023-08-01 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2308.00854
Fuente PDF: https://arxiv.org/pdf/2308.00854
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.