Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Künstliche Intelligenz

DCP-NAS: Effiziente Suche nach 1-Bit CNNs

DCP-NAS verbessert die neuronale Architektursuche für ressourcensparende 1-Bit-Convolutional-Netzwerke.

― 5 min Lesedauer


DCP-NAS für 1-Bit CNNsDCP-NAS für 1-Bit CNNseffizienten neuronalen Netzwerken.Neue Methode vereinfacht die Suche nach
Inhaltsverzeichnis

Neural Architecture Search (NAS) ist eine Methode, die hilft, neuronale Netze zu entwerfen und zu verbessern, die in vielen Aufgaben wie Bildklassifizierung und Objekterkennung verwendet werden. Allerdings benötigt NAS oft viel Rechenpower und Speicher. Auf der anderen Seite haben 1-Bit Convolutional Neural Networks (CNNs) Gewichte und Aktivierungen, die auf nur ein Bit reduziert sind. Das macht sie geeignet für Geräte mit begrenzten Ressourcen.

Um die Vorteile beider zu kombinieren, stellen wir eine neue Methode vor, die Discrepant Child-Parent Neural Architecture Search (DCP-NAS) heisst. Diese Methode sucht nach optimalen 1-Bit-CNNs, indem sie sich von einem leistungsfähigeren realwertigen Modell leiten lässt. Das Ziel ist es, die Suche schneller und effizienter zu gestalten und gleichzeitig eine bessere Leistung bei Aufgaben wie der Bildklassifizierung zu erreichen.

Hintergrund

In den letzten Jahren gab es ein wachsendes Interesse an NAS, da es die Möglichkeit bietet, effizienter neuronale Netzwerkarchitekturen automatisch zu generieren. Traditionelle Ansätze sind darauf angewiesen, Netzwerke manuell zu entwerfen, was zeitaufwändig sein kann und nicht unbedingt die besten Ergebnisse liefert. Neural Architecture Search automatisiert diesen Prozess, kann aber rechenintensiv sein.

1-Bit-CNNs haben sich als vielversprechende Lösung für Szenarien erwiesen, in denen die Rechenressourcen begrenzt sind. Durch die Reduzierung von Gewichten und Aktivierungen auf ein Bit können diese Netzwerke erheblich Speicher sparen und die Rechenanforderungen reduzieren.

DCP-NAS zielt darauf ab, die Lücke zwischen traditionellem NAS und 1-Bit-CNNs zu schliessen, indem es effizient nach optimalen binären Architekturen mit einem realwertigen Modell als Leitfaden sucht.

Bedarf an DCP-NAS

Die Binarisierung eines realwertigen Modells direkt kann zu suboptimaler Leistung führen. Die DCP-NAS-Methode nähert sich dem Problem durch Tangentenpropagation, die hilft, eine besser performende 1-Bit neuronale Architektur zu finden. Durch die Anleitung der Suche mit einem realwertigen Modell optimiert DCP-NAS den Suchprozess und verbessert die Ergebnisse im Vergleich zu früheren Methoden.

Methodologie

Rahmenübersicht

DCP-NAS führt ein Child-Parent-Rahmenwerk ein, um nach 1-Bit-CNNs zu suchen. Das realwertige Modell dient als Parent und gibt eine Richtung vor, um das 1-Bit-Child-Modell zu optimieren. Diese Interaktion ermöglicht es, die Stärken beider Architekturen zu nutzen.

  1. Tangentenrichtung: Das Parent-Modell berechnet eine Tangentenrichtung, die dem Child-Modell hilft, seine optimale Architektur zu finden.
  2. Kopplungsbeziehung: Wir stellen fest, dass Gewichte und Architekturparameter in differenzierbaren Rahmen miteinander verknüpft sind. Um dies zu beheben, umfasst DCP-NAS entkoppelte Optimierung, um diese Interaktionen besser zu verwalten.
  3. Optimierungsprozess: Die Optimierung verwendet die Tangentenrichtung des Parent-Modells, um die Suche nach der Architektur des Child-Modells zu leiten.

Definition des Suchraums

In DCP-NAS wird die Suche innerhalb eines definierten Raums durchgeführt, der aus Berechnungseinheiten besteht, die das Rückgrat des neuronalen Netzwerks bilden.

  1. Jede Einheit ist als gerichteter azyklischer Graph (DAG) mit einer festen Struktur organisiert.
  2. Operationen wie Faltung, Pooling und Skip-Verbindungen sind im Suchraum enthalten.
  3. Das Ziel ist es, eine Kombination von Operationen zu finden, die die beste Leistung für das 1-Bit-neurale Netzwerk erbringt.

Child-Parent-Beziehung

Im DCP-NAS-Rahmen bietet das Parent-Modell Einblicke, wie das Child-Modell strukturiert sein sollte. Durch die Nutzung der überlegenen Lerngeschwindigkeit des realwertigen Modells leiten wir die Suche nach der binären Architektur effektiv.

Der DCP-NAS-Prozess umfasst:

  • Durchführung der realwertigen Suche zur Sammlung von Leistungsdaten.
  • Durchführung der Tangentenpropagation, um optimierte Parameter für das Child-Modell zu finden.
  • Einsatz von entkoppelter Optimierung zur Behebung von Herausforderungen, die mit der Kopplung von Gewichten und Architektur verbunden sind.

Experimentelle Validierung

Die Effektivität von DCP-NAS wurde durch eine Reihe von Experimenten mit beliebten Datensätzen wie CIFAR-10 und ImageNet validiert.

  1. Datensätze:

    • CIFAR-10 besteht aus 60.000 32x32 Farb Bildern in 10 verschiedenen Klassen.
    • ImageNet umfasst über eine Million Bilder in 1.000 verschiedenen Kategorien.
  2. Vergleich: DCP-NAS wurde mit verschiedenen bestehenden Methoden verglichen, einschliesslich sowohl handgefertigter als auch zuvor gesuchter Architekturen.

Ergebnisse

Die Ergebnisse zeigten, dass DCP-NAS deutlich besser abschnitt als frühere Methoden.

  1. Genauigkeit: DCP-NAS erreichte höhere Genauigkeitsraten bei Klassifizierungsaufgaben im Vergleich zu traditionellen Methoden.
  2. Effizienz: Die Methode zeigte ein günstiges Verhältnis zwischen Rechenkosten und Leistung und etablierte sich somit als effizientere Lösung zur Suche nach 1-Bit-CNNs.

Architekturübertragung

Um die Generalisierbarkeit von DCP-NAS weiter zu bewerten, wurden Architekturen auf andere Aufgaben übertragen, wie z.B. die Wiedererkennung von Personen und die Objekterkennung.

  1. Wiedererkennung von Personen: Diese Aufgabe besteht darin, Personen in verschiedenen Bildern zu erkennen, die aus verschiedenen Winkeln oder Umgebungen aufgenommen wurden.
  2. Objekterkennung: Die Architektur wurde getestet, um Objekte in Bildern zu erkennen und zu klassifizieren.

In beiden Fällen zeigten DCP-NAS-Architekturen eine solide Leistung, was ihre Anpassungsfähigkeit in verschiedenen Anwendungen bestätigt.

Fazit

DCP-NAS bietet eine robuste Lösung zur effizienten Suche nach 1-Bit-CNNs. Durch die Nutzung eines kombinierten Child-Parent-Ansatzes und den Fokus auf Tangentenpropagation erzielt die Methode bemerkenswerte Leistungsgewinne bei gleichzeitiger Reduzierung des Rechenaufwands. Die Ergebnisse in verschiedenen Aufgaben belegen die Effektivität und Vielseitigkeit von DCP-NAS und deuten auf sein Potenzial für eine breite Anwendung in ressourcenbeschränkten Umgebungen hin.

Zukunftsarbeit

Um DCP-NAS weiter zu verbessern, wird die zukünftige Forschung deren Anwendung auf Transformermodelle erkunden, um den Umfang der binären Architektursuchen zu erweitern. Darüber hinaus könnte die Untersuchung alternativer Optimierungsmethoden zu noch kompakteren und effizienteren neuronalen Netzen führen.

Durch die Weiterentwicklung des Rahmens könnte DCP-NAS eine entscheidende Rolle in der Zukunft der neuronalen Architektursuche spielen und seinen Einsatz in verschiedenen Branchen und Anwendungen ausweiten.

Originalquelle

Titel: DCP-NAS: Discrepant Child-Parent Neural Architecture Search for 1-bit CNNs

Zusammenfassung: Neural architecture search (NAS) proves to be among the effective approaches for many tasks by generating an application-adaptive neural architecture, which is still challenged by high computational cost and memory consumption. At the same time, 1-bit convolutional neural networks (CNNs) with binary weights and activations show their potential for resource-limited embedded devices. One natural approach is to use 1-bit CNNs to reduce the computation and memory cost of NAS by taking advantage of the strengths of each in a unified framework, while searching the 1-bit CNNs is more challenging due to the more complicated processes involved. In this paper, we introduce Discrepant Child-Parent Neural Architecture Search (DCP-NAS) to efficiently search 1-bit CNNs, based on a new framework of searching the 1-bit model (Child) under the supervision of a real-valued model (Parent). Particularly, we first utilize a Parent model to calculate a tangent direction, based on which the tangent propagation method is introduced to search the optimized 1-bit Child. We further observe a coupling relationship between the weights and architecture parameters existing in such differentiable frameworks. To address the issue, we propose a decoupled optimization method to search an optimized architecture. Extensive experiments demonstrate that our DCP-NAS achieves much better results than prior arts on both CIFAR-10 and ImageNet datasets. In particular, the backbones achieved by our DCP-NAS achieve strong generalization performance on person re-identification and object detection.

Autoren: Yanjing Li, Sheng Xu, Xianbin Cao, Li'an Zhuo, Baochang Zhang, Tian Wang, Guodong Guo

Letzte Aktualisierung: 2023-06-27 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2306.15390

Quell-PDF: https://arxiv.org/pdf/2306.15390

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel