DCP-NAS : Recherche Efficace pour les CNNs 1-Bit
DCP-NAS améliore la recherche d'architecture neuronale pour des réseaux convolutionnels 1-bit économes en ressources.
― 6 min lire
Table des matières
La recherche d'architecture neurale (NAS) est une méthode qui aide à concevoir et améliorer les réseaux de neurones, utilisés dans plein de tâches comme la classification d'images et la reconnaissance d'objets. Mais, le NAS demande souvent pas mal de puissance de calcul et de mémoire. D'un autre côté, les réseaux de neurones convolutionnels à 1 bit (CNN) ont des poids et des activations réduits à un seul bit, ce qui les rend adaptés aux appareils avec des ressources limitées.
Pour combiner les avantages des deux, on présente une nouvelle méthode appelée Recherche d'Architecture Neurale Enfant-Parental Discrète (DCP-NAS). Cette méthode recherche des CNN à 1 bit optimaux en s'appuyant sur un modèle plus puissant à valeur réelle. L'idée, c'est de rendre la recherche plus rapide et efficace tout en améliorant les performances dans des tâches comme la classification d'images.
Contexte
Ces dernières années, l'intérêt pour le NAS a augmenté grâce à sa capacité à générer automatiquement des architectures de réseaux de neurones efficaces. Les approches traditionnelles dépendent de la conception manuelle des réseaux, ce qui peut être long et ne donne pas toujours les meilleurs résultats. La recherche d'architecture neurale automatise ce processus, mais peut coûter cher en calcul.
Les CNN à 1 bit ont émergé comme une solution prometteuse dans les cas où les ressources de calcul sont limitées. En réduisant les poids et les activations à un bit, ces réseaux économisent de la mémoire et réduisent considérablement les besoins en calcul.
DCP-NAS vise à combler le fossé entre le NAS conventionnel et les CNN à 1 bit en recherchant efficacement des architectures binaires optimales en utilisant un modèle à valeur réelle comme guide.
Besoin de DCP-NAS
Binariser un modèle à valeur réelle directement peut mener à des performances sous-optimales. La méthode DCP-NAS aborde le problème via la propagation tangentielle, ce qui aide à trouver une architecture de réseau neuronal à 1 bit qui fonctionne mieux. En guidant la recherche avec un modèle à valeur réelle, DCP-NAS optimise le processus de recherche, améliorant les résultats par rapport aux méthodes précédentes.
Méthodologie
Aperçu du cadre
DCP-NAS introduit un cadre Enfant-Parental pour rechercher des CNN à 1 bit. Le modèle à valeur réelle sert de Parent, donnant une direction pour optimiser le modèle Enfant à 1 bit. Cette interaction permet de tirer parti des points forts des deux architectures.
- Direction Tangentielle : Le modèle Parent calcule une direction tangentielle qui aide le modèle Enfant à trouver son architecture optimale.
- Relation de Couplage : On remarque que les poids et les paramètres d'architecture sont interconnectés dans des cadres différentiables. Pour y remédier, DCP-NAS inclut une optimisation découplée pour mieux gérer ces interactions.
- Processus d'optimisation : L'optimisation utilise la direction tangentielle du modèle Parent, guidant la recherche pour l'architecture du modèle Enfant.
Définition de l'Espace de Recherche
Dans DCP-NAS, la recherche se fait dans un espace défini constitué de cellules de calcul qui forment l'épine dorsale du réseau de neurones.
- Chaque cellule est organisée sous forme de graphe acyclique dirigé (DAG) avec une structure fixe.
- Des opérations comme la convolution, le pooling et les connexions de saut sont incluses dans l'espace de recherche.
- L'objectif est de trouver une combinaison d'opérations qui donne les meilleures performances pour le réseau de neurones à 1 bit.
Relation Enfant-Parental
Dans le cadre DCP-NAS, le modèle Parent fournit des idées sur comment le modèle Enfant devrait être structuré. En tirant parti de la vitesse d'apprentissage supérieure du modèle à valeur réelle, on guide efficacement la recherche de l'architecture binaire.
Le processus DCP-NAS implique :
- Réaliser la recherche à valeur réelle pour rassembler des données de performance.
- Effectuer la propagation tangentielle pour trouver des paramètres optimisés pour le modèle Enfant.
- Utiliser une optimisation découplée pour résoudre les défis liés au couplage des poids et de l'architecture.
Validation Expérimentale
L'efficacité de DCP-NAS a été validée à travers une série d'expériences sur des ensembles de données populaires comme CIFAR-10 et ImageNet.
Ensembles de Données :
- CIFAR-10 comprend 60 000 images couleur 32x32 réparties en 10 classes différentes.
- ImageNet inclut plus d'un million d'images couvrant 1 000 catégories différentes.
Comparaison : DCP-NAS a été comparé à diverses méthodes existantes, y compris des architectures artisanales et celles déjà recherchées.
Résultats
Les résultats ont montré que DCP-NAS a largement surpassé les méthodes antérieures.
- Précision : DCP-NAS a atteint des taux de précision plus élevés dans les tâches de classification par rapport aux méthodes traditionnelles.
- Efficacité : La méthode a montré un bon équilibre entre le coût computationnel et la performance, la rendant plus efficace pour la recherche de CNN à 1 bit.
Transfert d'Architecture
Pour évaluer la généralisabilité de DCP-NAS, les architectures ont été transférées à d'autres tâches, comme la ré-identification de personnes et la détection d'objets.
- Ré-identification de Personnes : Cette tâche consiste à reconnaître des individus sur différentes images capturées sous différents angles ou environnements.
- Détection d'Objets : L'architecture a été testée pour détecter et classer des objets dans des images.
Dans les deux cas, les architectures DCP-NAS ont montré de solides performances, confirmant leur adaptabilité à diverses applications.
Conclusion
DCP-NAS présente une solution robuste pour rechercher efficacement des CNN à 1 bit. En utilisant une approche combinée Enfant-Parental et en se concentrant sur la propagation tangentielle, la méthode réalise des gains de performance remarquables tout en réduisant la charge computationnelle. Les résultats à travers différentes tâches affirment l'efficacité et la polyvalence de DCP-NAS, suggérant son potentiel pour une application généralisée dans des environnements à ressources limitées.
Travail Futur
Pour continuer à améliorer DCP-NAS, des recherches futures exploreront son application aux modèles de transformateurs pour élargir le champ des recherches d'architecture binaire. De plus, l'exploration de méthodes d'optimisation alternatives pourrait mener à des réseaux de neurones encore plus compacts et efficaces.
En faisant avancer le cadre, DCP-NAS pourrait jouer un rôle clé dans l'avenir de la recherche d'architecture neurale, élargissant son utilisation à travers diverses industries et applications.
Titre: DCP-NAS: Discrepant Child-Parent Neural Architecture Search for 1-bit CNNs
Résumé: Neural architecture search (NAS) proves to be among the effective approaches for many tasks by generating an application-adaptive neural architecture, which is still challenged by high computational cost and memory consumption. At the same time, 1-bit convolutional neural networks (CNNs) with binary weights and activations show their potential for resource-limited embedded devices. One natural approach is to use 1-bit CNNs to reduce the computation and memory cost of NAS by taking advantage of the strengths of each in a unified framework, while searching the 1-bit CNNs is more challenging due to the more complicated processes involved. In this paper, we introduce Discrepant Child-Parent Neural Architecture Search (DCP-NAS) to efficiently search 1-bit CNNs, based on a new framework of searching the 1-bit model (Child) under the supervision of a real-valued model (Parent). Particularly, we first utilize a Parent model to calculate a tangent direction, based on which the tangent propagation method is introduced to search the optimized 1-bit Child. We further observe a coupling relationship between the weights and architecture parameters existing in such differentiable frameworks. To address the issue, we propose a decoupled optimization method to search an optimized architecture. Extensive experiments demonstrate that our DCP-NAS achieves much better results than prior arts on both CIFAR-10 and ImageNet datasets. In particular, the backbones achieved by our DCP-NAS achieve strong generalization performance on person re-identification and object detection.
Auteurs: Yanjing Li, Sheng Xu, Xianbin Cao, Li'an Zhuo, Baochang Zhang, Tian Wang, Guodong Guo
Dernière mise à jour: 2023-06-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.15390
Source PDF: https://arxiv.org/pdf/2306.15390
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.