Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Inteligencia artificial

DCP-NAS: Búsqueda Eficiente para CNNs de 1 Bit

DCP-NAS mejora la búsqueda de arquitecturas neuronales para redes convolucionales eficientes en recursos de 1 bit.

― 6 minilectura


DCP-NAS para CNNs de 1DCP-NAS para CNNs de 1bitredes neuronales eficientes.Nuevo método agiliza la búsqueda de
Tabla de contenidos

La búsqueda de arquitecturas neuronales (NAS) es un método que ayuda a diseñar y mejorar redes neuronales, que se utilizan en muchas tareas como la clasificación de imágenes y el reconocimiento de objetos. Sin embargo, NAS a menudo requiere mucha potencia de cómputo y memoria. Por otro lado, las redes neuronales convolucionales (CNN) de 1 bit tienen pesos y activaciones reducidos a solo un bit. Esto las hace adecuadas para dispositivos con recursos limitados.

Para combinar las ventajas de ambos, presentamos un nuevo método llamado Búsqueda de Arquitectura Neural de Niño-Padre Discrepante (DCP-NAS). Este método busca CNNs de 1 bit óptimas utilizando la guía de un modelo más potente de valor real. El objetivo es hacer que la búsqueda sea más rápida y eficiente mientras se logra un mejor rendimiento en tareas como la clasificación de imágenes.

Antecedentes

En los últimos años, ha habido un creciente interés en NAS debido a su capacidad para generar arquitecturas de redes neuronales eficientes automáticamente. Los enfoques tradicionales dependen del diseño manual de redes, lo que puede llevar mucho tiempo y no necesariamente da los mejores resultados. La búsqueda de arquitecturas neuronales automatiza este proceso, pero puede ser computacionalmente costosa.

Las CNN de 1 bit han surgido como una solución prometedora para escenarios donde los recursos computacionales son limitados. Al reducir los pesos y las activaciones a un bit, estas redes pueden ahorrar memoria y reducir significativamente los requisitos de cómputo.

DCP-NAS tiene como objetivo cerrar la brecha entre NAS convencional y las CNN de 1 bit al buscar de manera eficiente arquitecturas binarias óptimas usando un modelo de valor real como guía.

Necesidad de DCP-NAS

Binadizar un modelo de valor real directamente puede llevar a un rendimiento subóptimo. El método DCP-NAS aborda el problema a través de la propagación tangente, que ayuda a encontrar una arquitectura neuronal de 1 bit que rinda mejor. Al guiar la búsqueda con un modelo de valor real, DCP-NAS optimiza el proceso de búsqueda, mejorando los resultados en comparación con métodos anteriores.

Metodología

Visión General del Marco

DCP-NAS introduce un marco Niño-Padre para buscar CNNs de 1 bit. El modelo de valor real actúa como el Padre, proporcionando dirección para optimizar el modelo Hijo de 1 bit. Esta interacción nos permite aprovechar las fortalezas de ambas arquitecturas.

  1. Dirección Tangente: El modelo Padre calcula una dirección tangente, que ayuda al modelo Hijo a encontrar su arquitectura óptima.
  2. Relación de Acoplamiento: Notamos que los pesos y los parámetros de arquitectura están interrelacionados en marcos diferenciables. Para abordar esto, DCP-NAS incluye optimización desacoplada para gestionar mejor estas interacciones.
  3. Proceso de Optimización: La optimización utiliza la dirección tangente del modelo Padre, guiando la búsqueda de la arquitectura del modelo Hijo.

Definición del Espacio de Búsqueda

En DCP-NAS, la búsqueda se lleva a cabo dentro de un espacio definido que consiste en celdas de computación que forman la columna vertebral de la red neuronal.

  1. Cada celda está organizada como un grafo dirigido acíclico (DAG) con una estructura fija.
  2. Operaciones como convolución, agrupamiento y conexiones de salto están incluidas en el espacio de búsqueda.
  3. El objetivo es encontrar una combinación de operaciones que ofrezca el mejor rendimiento para la red neuronal de 1 bit.

Relación Niño-Padre

En el marco DCP-NAS, el modelo Padre proporciona información sobre cómo debería estructurarse el modelo Hijo. Al aprovechar la velocidad de aprendizaje superior del modelo de valor real, guiamos efectivamente la búsqueda de la arquitectura binaria.

El proceso DCP-NAS implica:

  • Realizar la búsqueda de valor real para recopilar datos de rendimiento.
  • Llevar a cabo la propagación tangente para encontrar parámetros optimizados para el modelo Hijo.
  • Emplear optimización desacoplada para resolver los desafíos relacionados con el acoplamiento de pesos y arquitectura.

Validación Experimental

La efectividad de DCP-NAS fue validada a través de una serie de experimentos en conjuntos de datos populares como CIFAR-10 e ImageNet.

  1. Conjuntos de Datos:

    • CIFAR-10 consta de 60,000 imágenes a color de 32x32 en 10 clases diferentes.
    • ImageNet incluye más de un millón de imágenes en 1,000 categorías diferentes.
  2. Comparación: DCP-NAS se comparó con varios métodos existentes, incluyendo arquitecturas tanto hechas a mano como previamente buscadas.

Resultados

Los resultados indicaron que DCP-NAS superó significativamente a los métodos anteriores.

  1. Precisión: DCP-NAS logró tasas de precisión más altas en tareas de clasificación en comparación con métodos tradicionales.
  2. Eficiencia: El método demostró un balance favorable entre costo computacional y rendimiento, estableciéndose como una solución más eficiente para buscar CNNs de 1 bit.

Transferencia de Arquitectura

Para evaluar aún más la generalizabilidad de DCP-NAS, se transfirieron arquitecturas a otras tareas, como la re-identificación de personas y la detección de objetos.

  1. Re-identificación de Personas: Esta tarea implica reconocer individuos en diferentes imágenes capturadas desde varios ángulos o entornos.
  2. Detección de Objetos: La arquitectura fue probada en la detección y clasificación de objetos dentro de imágenes.

En ambos casos, las arquitecturas DCP-NAS mostraron un sólido rendimiento, confirmando su adaptabilidad en diversas aplicaciones.

Conclusión

DCP-NAS presenta una solución robusta para buscar eficientemente CNNs de 1 bit. Al utilizar un enfoque combinado Niño-Padre y centrarse en la propagación tangente, el método logra notables mejoras en rendimiento mientras reduce la sobrecarga computacional. Los resultados en diferentes tareas afirman la efectividad y versatilidad de DCP-NAS, sugiriendo su potencial para una amplia aplicación en entornos con recursos limitados.

Trabajo Futuro

Continuando para mejorar DCP-NAS, la investigación futura explorará su aplicación a modelos transformadores para ampliar el alcance de las búsquedas de arquitecturas binarias. Además, investigar métodos de optimización alternativos puede llevar a redes neuronales aún más compactas y eficientes.

Al avanzar aún más en el marco, DCP-NAS podría desempeñar un papel clave en el futuro de la búsqueda de arquitecturas neuronales, expandiendo su uso en diversas industrias y aplicaciones.

Fuente original

Título: DCP-NAS: Discrepant Child-Parent Neural Architecture Search for 1-bit CNNs

Resumen: Neural architecture search (NAS) proves to be among the effective approaches for many tasks by generating an application-adaptive neural architecture, which is still challenged by high computational cost and memory consumption. At the same time, 1-bit convolutional neural networks (CNNs) with binary weights and activations show their potential for resource-limited embedded devices. One natural approach is to use 1-bit CNNs to reduce the computation and memory cost of NAS by taking advantage of the strengths of each in a unified framework, while searching the 1-bit CNNs is more challenging due to the more complicated processes involved. In this paper, we introduce Discrepant Child-Parent Neural Architecture Search (DCP-NAS) to efficiently search 1-bit CNNs, based on a new framework of searching the 1-bit model (Child) under the supervision of a real-valued model (Parent). Particularly, we first utilize a Parent model to calculate a tangent direction, based on which the tangent propagation method is introduced to search the optimized 1-bit Child. We further observe a coupling relationship between the weights and architecture parameters existing in such differentiable frameworks. To address the issue, we propose a decoupled optimization method to search an optimized architecture. Extensive experiments demonstrate that our DCP-NAS achieves much better results than prior arts on both CIFAR-10 and ImageNet datasets. In particular, the backbones achieved by our DCP-NAS achieve strong generalization performance on person re-identification and object detection.

Autores: Yanjing Li, Sheng Xu, Xianbin Cao, Li'an Zhuo, Baochang Zhang, Tian Wang, Guodong Guo

Última actualización: 2023-06-27 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.15390

Fuente PDF: https://arxiv.org/pdf/2306.15390

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares