Neuer Ansatz für optische Beschleuniger für neuronale Netze
Innovative Architektur steigert die Effizienz im Deep Learning durch optische Berechnungen.
Sijie Fei, Amro Eldebiky, Grace Li Zhang, Bing Li, Ulf Schlichtmann
― 6 min Lesedauer
Inhaltsverzeichnis
- Das Problem mit aktuellen GOAs
- Die vorgeschlagene hybride Architektur
- Struktur des neuen GOA
- Genetischer Algorithmus zur Parametersuche
- Wie diese Architektur funktioniert
- Anpassungen an neuronalen Netzwerken
- Hardware-bewusstes Training
- Experimentelle Ergebnisse
- Verbesserungen bei Energie und Latenz
- Wahrung der Genauigkeit
- Vergleich mit anderen Architekturen
- Fazit
- Originalquelle
Jüngste Fortschritte bei tiefen neuronalen Netzwerken (DNNs) haben sie beliebt gemacht, um komplexe Probleme zu lösen. Aber je tiefer diese Netzwerke werden, desto mehr Berechnungen brauchen sie, vor allem viele Multiply-Accumulate (MAC) Operationen. Das hat den Bedarf nach besserer Hardware geschaffen, um diese Berechnungen zu beschleunigen. Eine Lösung, die viel Aufmerksamkeit bekommen hat, ist die Nutzung von allgemeinen optischen Beschleunigern (GOAs). Diese Geräte verwenden Licht, um Berechnungen durchzuführen, was viel schneller und energieeffizienter sein kann als traditionelle elektronische Geräte.
GOAs bestehen aus Komponenten, die Mach-Zehnder-Interferometer (MZIs) genannt werden. Diese Teile können Lichtsignale manipulieren, um Berechnungen durchzuführen. Obwohl sie vielversprechend sind, haben bestehende GOAs oft Probleme mit der Effizienz, wenn es darum geht, die verschiedenen Grössen von neuronalen Netzwerken auf ihre Strukturen abzubilden. Diese Ineffizienz liegt hauptsächlich an dem Design der MZI-Arrays und wie sie mit den Gewichtsmatrizen der neuronalen Netzwerke zusammenhängen.
Das Problem mit aktuellen GOAs
Aktuelle GOAs nutzen ineinander geschachtelte MZI-Arrays, in denen mehrere MZIs auf eine bestimmte Weise angeordnet sind. Diese Designs haben jedoch Einschränkungen. Wenn man versucht, kleinere Gewichtsmatrizen mit grösseren GOAs zu verwenden, werden die MZIs nicht vollständig genutzt. Das bedeutet, dass viele Ressourcen verschwendet werden und die potenziellen Geschwindigkeits- und Energieeffizienzvorteile der optischen Beschleunigung nicht vollständig ausgeschöpft werden.
Ein weiteres Problem ist, dass die Fläche, die für bestehende GOAs benötigt wird, gross ist, da sie mehrere MZIs in dieser interleaved Art und Weise anordnen müssen. Um eine Gewichtsmatrix genau darzustellen, wird viel Platz benötigt, was in vielen Fällen nicht machbar sein könnte.
Um diese Herausforderungen anzugehen, haben Forscher eine neue hybride Architektur für GOAs vorgeschlagen. Dieses neue Design zielt darauf ab, die Abbildungseffizienz zu verbessern und die Fläche zu verringern, die für die Hardware benötigt wird.
Die vorgeschlagene hybride Architektur
Die vorgeschlagene hybride Architektur besteht aus kleineren, unabhängigen MZI-Modulen, die mit Mikroring-Resonatoren (MRRs) verbunden sind. Diese Struktur ermöglicht es diesen kleineren Modulen, effizient zusammenzuarbeiten, um grössere neuronale Netzwerke zu verarbeiten.
Struktur des neuen GOA
Jedes MZI-Modul in der neuen Architektur kann Berechnungen durchführen, die mit einstellbaren Koeffizienten angepasst werden. Das bedeutet, dass der Eingang für jedes Modul basierend auf den Anforderungen der Berechnung massgeschneidert werden kann. Durch diese Methode kann die Architektur den verfügbaren Platz und die Ressourcen besser nutzen und so die Gesamteffizienz verbessern.
Die Architektur verwendet auch eine Methode namens Singular Value Decomposition (SVD), um grössere Gewichtsmatrizen in kleinere unitäre Matrizen zu zerlegen. Das hilft, die Genauigkeit zu bewahren, während die Berechnungen, die von den MZIs durchgeführt werden, vereinfacht werden.
Genetischer Algorithmus zur Parametersuche
Um das Design des GOA zu optimieren, haben die Forscher einen genetischen Algorithmus verwendet, um die besten Parameter für die Architektur zu suchen. Dieser Algorithmus berücksichtigt mehrere Faktoren wie Abbildungseffizienz, Fläche, Energieverbrauch und Kosten, die mit der Umwandlung elektrischer Signale in optische Signale und umgekehrt verbunden sind.
Wie diese Architektur funktioniert
Die grundlegenden Komponenten der neuen GOA-Architektur umfassen:
- MZI-Module: Das sind die zentralen Berechnungseinheiten, die Licht manipulieren, um mathematische Operationen durchzuführen.
- Mikroring-Resonatoren (MRRs): Diese Elemente verbinden die MZI-Module und helfen dabei, die Ergebnisse der Berechnungen zu sammeln.
- Einstellbare Koeffizienten: Die erlauben es den MZI-Modulen, dynamisch basierend auf den benötigten Berechnungen angepasst zu werden.
- SVD-Implementierung: Diese zerlegt komplexe Gewichtsmatrizen in einfachere Formen, die von den kleineren MZI-Modulen verarbeitet werden können.
Diese Kombination von Komponenten ermöglicht es der neuen Architektur, effektiver mit grösseren neuronalen Netzwerken zu arbeiten und die Nutzung der optischen Beschleuniger zu maximieren.
Anpassungen an neuronalen Netzwerken
Um das Beste aus der neuen GOA-Architektur herauszuholen, könnten Anpassungen an den neuronalen Netzwerken selbst notwendig sein. Das bedeutet, die Anzahl der Filter und die Tiefe der Kernel in den neuronalen Netzwerken zu erhöhen. Auf diese Weise können die Autoren der Architektur sicherstellen, dass alle Teile des optischen Beschleunigers effizient genutzt werden.
Hardware-bewusstes Training
Die Architektur implementiert auch eine Methode, die als hardware-bewusstes Training bekannt ist. Das bedeutet, dass das neuronale Netzwerk trainiert wird, während die spezifischen Eigenheiten und Einschränkungen der optischen Hardware berücksichtigt werden. So können die Modelle optimiert werden, um auf der GOA optimal zu funktionieren.
Matrix-Approximationen: Während des Trainings können einige Matrizen approximiert werden. Das bedeutet, dass ihre genaue Form vereinfacht werden kann. Um ein Gleichgewicht zu schaffen, zielt die Methode darauf ab, die approximierte Form so nah wie möglich an der Originalform zu halten.
Wiederherstellung kritischer Matrizen: Wenn einige Matrizen für die Genauigkeit des Netzwerks entscheidend sind, können sie auf ihre ursprünglichen Formen zurückgesetzt werden, um die Approximationen bei Bedarf zu umgehen.
Experimentelle Ergebnisse
Die vorgeschlagene GOA-Architektur wurde mit zwei bekannten neuronalen Netzwerken, VGG16 und Resnet18, auf zwei Datensätzen getestet: Cifar10 und Cifar100.
Verbesserungen bei Energie und Latenz
Die Ergebnisse zeigten beeindruckende Verbesserungen in der Abbildungseffizienz im Vergleich zur vorherigen interleaved Architektur. Die Reduzierungen waren wie folgt:
- Für VGG16 auf Cifar10 wurde die Abbildungskosten um 21,87% reduziert.
- Für Resnet18 auf Cifar100 betrug die Reduzierung der Abbildungskosten 25,52%.
Diese Verbesserungen führten zu erheblichen Senkungen des Energieverbrauchs, wobei in vielen Fällen über 67% festgestellt wurden. Ausserdem wurde die Berechnungslatenz in verschiedenen Szenarien um mehr als 21% gesenkt.
Wahrung der Genauigkeit
In Bezug auf die Wahrung der Genauigkeit bei der Umsetzung dieser Änderungen hat das neue GOA-Modell gute Arbeit geleistet. Während einige Verschlechterungen bei bestimmten Konfigurationen festgestellt wurden, blieb die Gesamtgenauigkeit der neuronalen Netzwerke erhalten, und in manchen Fällen verbesserte sie sich sogar.
Nach den Anpassungen und dem hardware-bewussten Training zeigten die Ergebnisse, dass Netzwerke traditionelle Setups in Bezug auf Geschwindigkeit und Energieeffizienz übertreffen konnten, ohne die Genauigkeit zu opfern.
Vergleich mit anderen Architekturen
Um zu bewerten, wie die vorgeschlagene Architektur im Vergleich zu bestehenden Systemen abschneidet, wurden Vergleiche mit anderen optischen Beschleunigern angestellt. Im Vergleich zu einem traditionellen SVD-Interleaved-Beschleuniger zeigte die neue vorgeschlagene Architektur bemerkenswerte Effizienzgewinne.
Flächen-Effizienz: Die Fläche, die für die neue Struktur benötigt wurde, wurde um beeindruckende 18% bis 25% im Vergleich zu älteren Methoden verringert.
Energieverbrauch: Selbst unter Berücksichtigung der zusätzlichen Komponenten, die für die neue Struktur erforderlich sind, war der gesamte Energieverbrauch erheblich niedriger, was zeigt, wie die Abbildungseffizienz den erhöhten Strombedarf gemildert hat.
Fazit
Zusammenfassend zeigt die vorgeschlagene hybride Architektur für optische Beschleuniger erhebliches Potenzial zur Verbesserung der Effizienz von tiefen neuronalen Netzwerken. Durch die Verwendung kleinerer, unabhängiger MZI-Module und deren Verbindung mit Mikroring-Resonatoren kann die Architektur grössere Netzwerke effizienter verarbeiten, während sie Raum und Ressourcen besser nutzt. Durch eine Kombination aus der Optimierung der Strukturen neuronaler Netzwerke und der Anwendung innovativer Trainingsmethoden wurden bemerkenswerte Fortschritte im Hinblick auf den Energieverbrauch, die Latenz und die Gesamtleistung erzielt. Diese Arbeit ebnet den Weg für effizienteres Rechnen im Bereich des Deep Learnings und zeigt, wie optische Technologien genutzt werden können, um die Fähigkeiten traditioneller Computersysteme zu erreichen und sogar zu übertreffen.
Titel: An Efficient General-Purpose Optical Accelerator for Neural Networks
Zusammenfassung: General-purpose optical accelerators (GOAs) have emerged as a promising platform to accelerate deep neural networks (DNNs) due to their low latency and energy consumption. Such an accelerator is usually composed of a given number of interleaving Mach-Zehnder- Interferometers (MZIs). This interleaving architecture, however, has a low efficiency when accelerating neural networks of various sizes due to the mismatch between weight matrices and the GOA architecture. In this work, a hybrid GOA architecture is proposed to enhance the mapping efficiency of neural networks onto the GOA. In this architecture, independent MZI modules are connected with microring resonators (MRRs), so that they can be combined to process large neural networks efficiently. Each of these modules implements a unitary matrix with inputs adjusted by tunable coefficients. The parameters of the proposed architecture are searched using genetic algorithm. To enhance the accuracy of neural networks, selected weight matrices are expanded to multiple unitary matrices applying singular value decomposition (SVD). The kernels in neural networks are also adjusted to use up the on-chip computational resources. Experimental results show that with a given number of MZIs, the mapping efficiency of neural networks on the proposed architecture can be enhanced by 21.87%, 21.20%, 24.69%, and 25.52% for VGG16 and Resnet18 on datasets Cifar10 and Cifar100, respectively. The energy consumption and computation latency can also be reduced by over 67% and 21%, respectively.
Autoren: Sijie Fei, Amro Eldebiky, Grace Li Zhang, Bing Li, Ulf Schlichtmann
Letzte Aktualisierung: 2024-09-02 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2409.12966
Quell-PDF: https://arxiv.org/pdf/2409.12966
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.