DCP-NAS: Búsqueda Eficiente para CNNs de 1 Bit
DCP-NAS mejora la búsqueda de arquitecturas neuronales para redes convolucionales eficientes en recursos de 1 bit.
― 6 minilectura
Tabla de contenidos
La búsqueda de arquitecturas neuronales (NAS) es un método que ayuda a diseñar y mejorar redes neuronales, que se utilizan en muchas tareas como la clasificación de imágenes y el reconocimiento de objetos. Sin embargo, NAS a menudo requiere mucha potencia de cómputo y memoria. Por otro lado, las redes neuronales convolucionales (CNN) de 1 bit tienen pesos y activaciones reducidos a solo un bit. Esto las hace adecuadas para dispositivos con recursos limitados.
Para combinar las ventajas de ambos, presentamos un nuevo método llamado Búsqueda de Arquitectura Neural de Niño-Padre Discrepante (DCP-NAS). Este método busca CNNs de 1 bit óptimas utilizando la guía de un modelo más potente de valor real. El objetivo es hacer que la búsqueda sea más rápida y eficiente mientras se logra un mejor rendimiento en tareas como la clasificación de imágenes.
Antecedentes
En los últimos años, ha habido un creciente interés en NAS debido a su capacidad para generar arquitecturas de redes neuronales eficientes automáticamente. Los enfoques tradicionales dependen del diseño manual de redes, lo que puede llevar mucho tiempo y no necesariamente da los mejores resultados. La búsqueda de arquitecturas neuronales automatiza este proceso, pero puede ser computacionalmente costosa.
Las CNN de 1 bit han surgido como una solución prometedora para escenarios donde los recursos computacionales son limitados. Al reducir los pesos y las activaciones a un bit, estas redes pueden ahorrar memoria y reducir significativamente los requisitos de cómputo.
DCP-NAS tiene como objetivo cerrar la brecha entre NAS convencional y las CNN de 1 bit al buscar de manera eficiente arquitecturas binarias óptimas usando un modelo de valor real como guía.
Necesidad de DCP-NAS
Binadizar un modelo de valor real directamente puede llevar a un rendimiento subóptimo. El método DCP-NAS aborda el problema a través de la propagación tangente, que ayuda a encontrar una arquitectura neuronal de 1 bit que rinda mejor. Al guiar la búsqueda con un modelo de valor real, DCP-NAS optimiza el proceso de búsqueda, mejorando los resultados en comparación con métodos anteriores.
Metodología
Visión General del Marco
DCP-NAS introduce un marco Niño-Padre para buscar CNNs de 1 bit. El modelo de valor real actúa como el Padre, proporcionando dirección para optimizar el modelo Hijo de 1 bit. Esta interacción nos permite aprovechar las fortalezas de ambas arquitecturas.
- Dirección Tangente: El modelo Padre calcula una dirección tangente, que ayuda al modelo Hijo a encontrar su arquitectura óptima.
- Relación de Acoplamiento: Notamos que los pesos y los parámetros de arquitectura están interrelacionados en marcos diferenciables. Para abordar esto, DCP-NAS incluye optimización desacoplada para gestionar mejor estas interacciones.
- Proceso de Optimización: La optimización utiliza la dirección tangente del modelo Padre, guiando la búsqueda de la arquitectura del modelo Hijo.
Definición del Espacio de Búsqueda
En DCP-NAS, la búsqueda se lleva a cabo dentro de un espacio definido que consiste en celdas de computación que forman la columna vertebral de la red neuronal.
- Cada celda está organizada como un grafo dirigido acíclico (DAG) con una estructura fija.
- Operaciones como convolución, agrupamiento y conexiones de salto están incluidas en el espacio de búsqueda.
- El objetivo es encontrar una combinación de operaciones que ofrezca el mejor rendimiento para la red neuronal de 1 bit.
Relación Niño-Padre
En el marco DCP-NAS, el modelo Padre proporciona información sobre cómo debería estructurarse el modelo Hijo. Al aprovechar la velocidad de aprendizaje superior del modelo de valor real, guiamos efectivamente la búsqueda de la arquitectura binaria.
El proceso DCP-NAS implica:
- Realizar la búsqueda de valor real para recopilar datos de rendimiento.
- Llevar a cabo la propagación tangente para encontrar parámetros optimizados para el modelo Hijo.
- Emplear optimización desacoplada para resolver los desafíos relacionados con el acoplamiento de pesos y arquitectura.
Validación Experimental
La efectividad de DCP-NAS fue validada a través de una serie de experimentos en conjuntos de datos populares como CIFAR-10 e ImageNet.
Conjuntos de Datos:
- CIFAR-10 consta de 60,000 imágenes a color de 32x32 en 10 clases diferentes.
- ImageNet incluye más de un millón de imágenes en 1,000 categorías diferentes.
Comparación: DCP-NAS se comparó con varios métodos existentes, incluyendo arquitecturas tanto hechas a mano como previamente buscadas.
Resultados
Los resultados indicaron que DCP-NAS superó significativamente a los métodos anteriores.
- Precisión: DCP-NAS logró tasas de precisión más altas en tareas de clasificación en comparación con métodos tradicionales.
- Eficiencia: El método demostró un balance favorable entre costo computacional y rendimiento, estableciéndose como una solución más eficiente para buscar CNNs de 1 bit.
Transferencia de Arquitectura
Para evaluar aún más la generalizabilidad de DCP-NAS, se transfirieron arquitecturas a otras tareas, como la re-identificación de personas y la detección de objetos.
- Re-identificación de Personas: Esta tarea implica reconocer individuos en diferentes imágenes capturadas desde varios ángulos o entornos.
- Detección de Objetos: La arquitectura fue probada en la detección y clasificación de objetos dentro de imágenes.
En ambos casos, las arquitecturas DCP-NAS mostraron un sólido rendimiento, confirmando su adaptabilidad en diversas aplicaciones.
Conclusión
DCP-NAS presenta una solución robusta para buscar eficientemente CNNs de 1 bit. Al utilizar un enfoque combinado Niño-Padre y centrarse en la propagación tangente, el método logra notables mejoras en rendimiento mientras reduce la sobrecarga computacional. Los resultados en diferentes tareas afirman la efectividad y versatilidad de DCP-NAS, sugiriendo su potencial para una amplia aplicación en entornos con recursos limitados.
Trabajo Futuro
Continuando para mejorar DCP-NAS, la investigación futura explorará su aplicación a modelos transformadores para ampliar el alcance de las búsquedas de arquitecturas binarias. Además, investigar métodos de optimización alternativos puede llevar a redes neuronales aún más compactas y eficientes.
Al avanzar aún más en el marco, DCP-NAS podría desempeñar un papel clave en el futuro de la búsqueda de arquitecturas neuronales, expandiendo su uso en diversas industrias y aplicaciones.
Título: DCP-NAS: Discrepant Child-Parent Neural Architecture Search for 1-bit CNNs
Resumen: Neural architecture search (NAS) proves to be among the effective approaches for many tasks by generating an application-adaptive neural architecture, which is still challenged by high computational cost and memory consumption. At the same time, 1-bit convolutional neural networks (CNNs) with binary weights and activations show their potential for resource-limited embedded devices. One natural approach is to use 1-bit CNNs to reduce the computation and memory cost of NAS by taking advantage of the strengths of each in a unified framework, while searching the 1-bit CNNs is more challenging due to the more complicated processes involved. In this paper, we introduce Discrepant Child-Parent Neural Architecture Search (DCP-NAS) to efficiently search 1-bit CNNs, based on a new framework of searching the 1-bit model (Child) under the supervision of a real-valued model (Parent). Particularly, we first utilize a Parent model to calculate a tangent direction, based on which the tangent propagation method is introduced to search the optimized 1-bit Child. We further observe a coupling relationship between the weights and architecture parameters existing in such differentiable frameworks. To address the issue, we propose a decoupled optimization method to search an optimized architecture. Extensive experiments demonstrate that our DCP-NAS achieves much better results than prior arts on both CIFAR-10 and ImageNet datasets. In particular, the backbones achieved by our DCP-NAS achieve strong generalization performance on person re-identification and object detection.
Autores: Yanjing Li, Sheng Xu, Xianbin Cao, Li'an Zhuo, Baochang Zhang, Tian Wang, Guodong Guo
Última actualización: 2023-06-27 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2306.15390
Fuente PDF: https://arxiv.org/pdf/2306.15390
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.