Zuverlässigkeit in Deep Learning Beschleunigern für selbstfahrende Autos sicherstellen
Eine neue Plattform bewertet die Leistung von Deep Learning Beschleunigern für sichere autonome Fahrzeuge.
― 5 min Lesedauer
Inhaltsverzeichnis
Deep Learning spielt 'ne mega Rolle in selbstfahrenden Autos, aber es muss sicher und zuverlässig sein. Ein wichtiger Teil dieser Systeme ist der Deep Learning Accelerator (DLA), der die Daten von Sensoren verarbeitet und dem Auto hilft, Entscheidungen zu treffen. Die Zuverlässigkeit dieser Acceleratoren ist wichtig, um die Sicherheit des gesamten Systems zu gewährleisten. Wenn der DLA ausfällt, kann das zu Unfällen und ernsthaften Konsequenzen führen. Traditionelle Methoden zur Beurteilung der Zuverlässigkeit von DLAs nutzen niedrige Metriken, wie oft die Ausgabe korrekt ist. Doch diese Metriken spiegeln nicht immer die reale Leistung von selbstfahrenden Autos wider. Zum Beispiel, wenn eine Ampel aufgrund eines DLA-Ausfalls falsch gelesen wird, kann das zu einem ernsten Vorfall führen, selbst wenn die allgemeine Fehlerrate akzeptabel erscheint.
Um Probleme mit dem DLA-Design zu vermeiden, müssen wir seine Zuverlässigkeit schon früh in der Entwicklungsphase bewerten. Unser Ansatz umfasst die Integration des DLA in den Testprozess für Selbstfahrende Systeme. So können Entwickler einschätzen, wie gut der DLA in realen Situationen funktioniert, anstatt sich auf Standardmetriken zu verlassen, die wichtige Sicherheitsaspekte vielleicht nicht erfassen.
DLA Zuverlässigkeitsbewertungsplattform
Die DLA-in-Loop-Zuverlässigkeitsbewertungsplattform ist darauf ausgelegt, die Leistung des DLA während der Designphase systematisch zu bewerten. Diese Plattform kann verschiedene selbstfahrende Systeme testen und ist modular, was bedeutet, dass sie sich an unterschiedliche Konfigurationen anpassen kann. Im Kern nutzt die Plattform einen Open-Source-Fahrsimulator namens CARLA, der Fahrszenarien simuliert und bewertet, wie das Auto in diesen Szenarien abschneidet.
Die Plattform hat mehrere Komponenten, darunter einen Master-Kontrollprozess, um Tests durchzuführen und deren Status zu überwachen. Ausserdem gibt es ein Modul zur Einspeisung von Simulationsfehlern, das es Forschern ermöglicht, absichtlich Fehler ins System einzuführen. Durch das Einspeisen von Fehlern können wir beobachten, wie sich diese Fehler auf die Fähigkeit des Fahrzeugs auswirken, sicher zu funktionieren.
Deep Learning Accelerator Design
Wir schlagen eine hybride Computerarchitektur (HCA) vor, die eine spezielle Einheit namens Dot-Production Processing Unit (DPPU) neben dem Hauptverarbeitungsarray beinhaltet. Die DPPU kann Daten schnell verarbeiten, die an fehlerhafte Verarbeitungselemente (PEs) zugewiesen sind, die die Bausteine des DLA sind. Wenn ein PE ausfällt, kann die DPPU seine Aufgaben übernehmen, ohne die Leistung des Gesamtsystems zu mindern.
Diese Architektur stellt auch sicher, dass die DPPU und das Hauptverarbeitungsarray effizient zusammenarbeiten können. Es ist notwendig, dass die beiden Einheiten Daten teilen und kommunizieren, also haben wir einige Anpassungen am Design vorgenommen. Zum Beispiel, wenn das Hauptarray Daten verarbeitet, muss die DPPU auch die richtigen Eingaben erhalten. Diese Koordination ist entscheidend, um das System selbst bei Ausfällen einiger Komponenten reibungslos am Laufen zu halten.
Datenfluss im DLA
Zu verstehen, wie Daten durch den DLA fliessen, ist wichtig, um seine Zuverlässigkeit zu gewährleisten. Wenn das System Informationen verarbeitet, arbeiten die PEs im Hauptarray gleichzeitig an Aufgaben. Wenn eines dieser PEs ausfällt, kann die DPPU schnell einspringen, um die Aufgabe zu übernehmen und so die Kontinuität der Abläufe aufrechtzuerhalten.
In unserer Architektur erlauben wir mehrere Verarbeitungszyklen. Die DPPU arbeitet parallel zum Hauptverarbeitungsarray, sodass, wenn ein PE seine Ausgabe beendet hat, die DPPU sofort mit Aufgaben beginnen kann, die dem nun fehlerhaften PE zugewiesen wurden. Dieses Design minimiert Verzögerungen und hält das System effizient.
Fehlertolerante Strategien
Unser Ansatz umfasst auch Strategien zur Verwaltung mehrerer Fehler im Verarbeitungsarray. Wenn die Anzahl der fehlerhaften PEs die Kapazität der DPPU übersteigt, können wir spezielle Strategien anwenden, um die Leistung aufrechtzuerhalten. Zum Beispiel können wir wählen, die am wenigsten kritischen PEs zu ignorieren, sodass sich die DPPU auf die wichtigeren Bereiche der Architektur konzentrieren kann.
Ausserdem können wir Redundanz innerhalb der DPPU-Komponenten hinzufügen. Indem wir Backup-Prozessoren einfügen, schaffen wir ein System, in dem, wenn ein Teil ausfällt, ein anderer dessen Platz einnehmen kann. Dieses Design reduziert das Risiko, durch Fehler Funktionalität zu verlieren, und erhöht die Gesamtzuverlässigkeit des DLA.
Experimente und Ergebnisse
Um die Effektivität unserer vorgeschlagenen DLA-in-Loop-Zuverlässigkeitsbewertungsplattform zu bewerten, haben wir eine Reihe von Experimenten mit einem spezifischen Modell für selbstfahrende Fahrzeuge durchgeführt. Dieses Modell umfasst verschiedene Komponenten, die es dem Fahrzeug ermöglichen, autonom zu operieren.
Während dieser Tests haben wir zwei Hauptmetriken zur Leistungsbeurteilung betrachtet: Netzwerkzuverlässigkeit und Gesamtfahrzeugleistung. Wir wollten verstehen, wie Hardwarefehler im DLA beide Aspekte beeinflussen. Unsere Ergebnisse zeigten, dass während sich die niedrigen Netzwerkmetriken, wie Fehlerquoten, langsam mit Fehlern ändern, der Einfluss auf die Fahrzeugleistung viel deutlicher ist. Selbst eine geringe Anzahl von Fehlern konnte zu erheblichen Ausfällen bei der Durchführung von Fahraufträgen führen.
Die Experimente verdeutlichten auch die Unterschiede zwischen traditionellen Zuverlässigkeitsmetriken und der hochrangigen Bewertung des selbstfahrenden Systems. Es wurde klar, dass hochrangige Metriken, die die Gesamtleistung des Fahrzeugs über Zeit und Distanz betrachten, entscheidend für den sicheren Betrieb sind. Diese Erkenntnisse unterstreichen die Notwendigkeit eines umfassenden Bewertungsansatzes während des Designprozesses.
Fazit
Die Zuverlässigkeit von Deep Learning Accelerators ist entscheidend für die Sicherheit autonomer Fahrsysteme. Unsere vorgeschlagene DLA-in-Loop-Zuverlässigkeitsbewertungsplattform zielt darauf ab, eine systematische Methode zur frühen Beurteilung der DLA-Leistung im Designprozess zu bieten. Durch die Integration des DLA mit realen Simulationen können wir besser verstehen, wie er in der Praxis abschneiden wird.
Mit einer hybriden Computerarchitektur können wir Fehler dynamisch angehen und sicherstellen, dass der DLA selbst unter schlechten Bedingungen funktionsfähig bleibt. Unsere Experimente zeigen die Bedeutung von hochrangigen Leistungsmetriken, die Einblicke bieten, die traditionelle niedrigrangige Bewertungen möglicherweise übersehen. Diese Erkenntnisse ebnen den Weg für Verbesserungen im DLA-Design, was letztendlich zu sichereren und zuverlässigeren selbstfahrenden Fahrzeugen führt.
Indem wir uns auf die praktischen Auswirkungen der DLA-Zuverlässigkeit konzentrieren, wollen wir zur Weiterentwicklung der Technologie des autonomen Fahrens beitragen und sie sicherer und verlässlicher für den Alltag machen. Die Kombination aus fortschrittlicher Architektur und gründlichen Tests wird dazu beitragen, dass die Fahrzeuge der Zukunft bereit sind für die Herausforderungen des realen Fahrens.
Titel: Deep Learning Accelerator in Loop Reliability Evaluation for Autonomous Driving
Zusammenfassung: The reliability of deep learning accelerators (DLAs) used in autonomous driving systems has significant impact on the system safety. However, the DLA reliability is usually evaluated with low-level metrics like mean square errors of the output which remains rather different from the high-level metrics like total distance traveled before failure in autonomous driving. As a result, the high-level reliability metrics evaluated at the post-silicon stage may still lead to DLA design revision and result in expensive reliable DLA design iterations targeting at autonomous driving. To address the problem, we proposed a DLA-in-loop reliability evaluation platform to enable system reliability evaluation at the early DLA design stage.
Autoren: Haitong Huang, Cheng Liu
Letzte Aktualisierung: 2023-06-20 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2306.11759
Quell-PDF: https://arxiv.org/pdf/2306.11759
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.