Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Multimedia

Effiziente Video-Stream-Verarbeitung für Edge-Geräte

Eine neue Methode verbessert die Echtzeit-Videobearbeitung mit kritikalitätsbewussten Techniken.

― 7 min Lesedauer


OptimierteOptimierteVideoverarbeitungInnovationenVideostream-Verarbeitung.verbessert die Effizienz derEin kritikalitätsfokussierter Ansatz
Inhaltsverzeichnis

In der heutigen Welt verlassen wir uns stark auf Kameras und Sensoren, um Informationen zu sammeln. Egal ob für selbstfahrende Autos, Überwachungssysteme oder andere Anwendungen, die ein Verständnis der Umgebung erfordern, ist die effektive Verarbeitung von Videodaten entscheidend. Die Herausforderung besteht darin, mehrere Video-Streams in Echtzeit zu verarbeiten, besonders von hochauflösenden Kameras. Mit steigenden Kameraauflösungen (wie 4K) und komplexeren DNN-Modellen brauchen wir bessere Möglichkeiten, um diese Daten effizient zu verarbeiten.

Die Herausforderung der Verarbeitung mehrerer Video-Streams

Wenn eine Kamera eine Szene einfängt, produziert sie eine Menge Daten, besonders bei hoher Auflösung. Eine 4K-Kamera zum Beispiel erzeugt grosse Bildgrössen, die schnell verarbeitet werden müssen, um die Echtzeit-Performance aufrechtzuerhalten. Man kann sich die Verarbeitungsaufgabe wie das Verständnis vieler Bilder gleichzeitig vorstellen. Jedes Bild kann wichtige Informationen enthalten, aber sie alle gleichzeitig zu verarbeiten, kann die Dinge verlangsamen.

Denk mal an ein Edge-Gerät wie das NVIDIA Jetson TX2, das für DNNs verwendet wird. Es kann langsam sein, wenn es darum geht, hochauflösende Bilder zu verarbeiten. Zum Beispiel könnte es mit bestimmten Deep-Learning-Modellen nur etwa 2 Frames pro Sekunde verarbeiten. Diese Begrenzung kann Anwendungen behindern, bei denen eine schnelle Verarbeitung entscheidend ist, wie bei der Erkennung von Fussgängern oder dem Lesen von Kennzeichen.

Kritikalitätsbewusste Verarbeitung

Eine vielversprechende Lösung liegt in der kritikalitätsbewussten Verarbeitung. Diese Methode konzentriert sich darauf, die wichtigsten Teile jedes Bildrahmens zu identifizieren. Anstatt das gesamte Bild zu verarbeiten, können wir bestimmte Regionen priorisieren, die bedeutendere Informationen enthalten. Indem wir Rechenressourcen auf diese kritischen Bereiche lenken, kann die Verarbeitung effizienter und schneller werden.

Einführung eines neuen Ansatzes

Um das Problem der gleichzeitigen Verarbeitung mehrerer Video-Streams zu lösen, stellen wir ein neues System vor, das für Edge-Geräte entwickelt wurde. Dieses System verbessert die Verarbeitung von Bildern, indem es Schlüsselregionen aus mehreren Kamerafeeds identifiziert und sie in einem einzigen Frame packt. Dadurch können wir den Durchsatz erhöhen, was bedeutet, dass wir mehr Daten in kürzerer Zeit verarbeiten können, während wir gleichzeitig den Verlust von Genauigkeit minimieren.

So funktioniert es

Das System verwendet eine Methode namens Mosaic Across Scales (MoS). Der MoS-Ansatz identifiziert wichtige Bereiche in Bildern, oder Regions of Interest (RoI), und organisiert sie in unterschiedlichen Massstäben. So können verschiedene Grössen von Objekten innerhalb der Bilder angemessen dargestellt werden.

  1. Identifizierung kritischer Bereiche: Das System beginnt damit, jeden Eingangsrahmen von den Kameras zu bewerten. Es identifiziert die kritischen Bereiche, in denen Objekte wahrscheinlich vorhanden sind. Wenn zum Beispiel eine Person im Rahmen bewegt, wird dieser Bereich als kritisch markiert.

  2. Erstellung von Kacheln: Sobald die kritischen Regionen bestimmt sind, zerlegt das System das Bild in kleinere Abschnitte oder Kacheln. Diese Kacheln können je nach Wichtigkeit der enthaltenen Regionen in der Grösse variieren.

  3. Packen der Kacheln in einen Canvas-Rahmen: Der nächste Schritt besteht darin, diese Kacheln auf einen einzelnen Canvas-Rahmen zu packen. Dieser Rahmen hat die Grösse, die innerhalb der Verarbeitungskapazitäten des Edge-Geräts passt, während er entscheidende Informationen aus den Originalbildern beibehält.

  4. Ausführen von Inferenz: Der gepackte Rahmen wird dann von einem DNN verarbeitet, um Aufgaben wie die Objekterkennung durchzuführen. Indem sich das System auf die Schlüsselregionen konzentriert, kann ein hoher Durchsatz erreicht werden, ohne die Genauigkeit der Objekterkennung zu opfern.

Anwendungsbeispiele

Das System kann in vielen Echtzeitanwendungen eingesetzt werden, wie zum Beispiel:

  1. Verkehrsüberwachung: Kameras an Verkehrsknotenpunkten können den Autofluss überwachen und Verstösse erkennen. Indem wir mehrere Kamerafeeds über ein Edge-Gerät verarbeiten, können wir Kosten senken und die Reaktionszeiten verbessern.

  2. Öffentliche Sicherheit: Drohnen mit Kameras können grosse Menschenmengen bei Veranstaltungen überwachen. Unser System kann das Videomaterial schnell verarbeiten, um ungewöhnliche Aktivitäten oder Notfälle zu identifizieren.

  3. Autonome Fahrzeuge: Selbstfahrende Autos müssen ihre Umgebung schnell interpretieren. Durch die Optimierung der Verarbeitung von Kameradaten kann die Technologie Sicherheit und Leistung unter herausfordernden Bedingungen verbessern.

Leistungsstudien

Wir haben das System mit standardisierten Benchmark-Datensätzen getestet, um seine Leistung in spezifischen Anwendungen wie Fussgängererkennung und Kennzeichenerkennung zu bewerten. Während der Experimente haben wir drei verschiedene Verarbeitungsmethoden verglichen:

  1. First Come First Serve (FCFS): Diese Methode verarbeitet jeden Eingangsrahmen nacheinander. Obwohl sie hohe Genauigkeit erreichen kann, leidet sie unter niedrigem Durchsatz, was sie für Echtzeitanwendungen unpraktisch macht.

  2. Einheitliches Packen: Dieser Ansatz teilt einen Canvas-Rahmen gleichmässig in Abschnitte für jedes Eingangsbild. Er kann den Durchsatz verbessern, führt jedoch oft zu einem erheblichen Verlust an Genauigkeit, insbesondere bei kleineren Objekten.

  3. Unsere MoS-Methode: Unsere Methode fand eine Balance, erreichte einen höheren Durchsatz bei gleichzeitiger Beibehaltung eines angemessenen Genauigkeitsniveaus. Zum Beispiel, als wir sechs Kamerafeeds verarbeiteten, bot unser System einen deutlichen Anstieg des Durchsatzes bei gleichzeitiger Genauigkeit.

Ergebnisse zur Fussgängererkennung

Für die Fussgängererkennung erzielte das MoS-System einen Durchsatz von über 18 Frames pro Sekunde (FPS) für jede Kamera. Das war eine deutliche Verbesserung gegenüber den Basismethoden, die keine ähnliche Leistung bieten konnten. Auch die Genauigkeit bei der Erkennung von Fussgängern blieb hoch und zeigte die Effektivität des kritikalitätsbewussten Ansatzes.

Ergebnisse zur Kennzeichenerkennung

Bei der Kennzeichenerkennung schnitt das MoS-System deutlich besser ab als einheitliche Packmethoden. In Tests konnte es bei der Verarbeitung von Eingaben aus mehreren Kamerafeeds qualitativ hochwertige Ergebnisse liefern, was eine erfolgreiche Zeichenkennung auf Kennzeichen ermöglichte.

Systemdesign und Funktionalität

Das System verwendet zwei Betriebsmodi:

  1. Periodische Stabilisierung (PS): In diesem Modus wird das System initialisiert und stellt sicher, dass alle Kamerarahmen regelmässig aktualisiert werden. Es führt eine vollständige DNN-Inferenz auf eingehenden Frames durch, um kritische Objekte zu identifizieren und Tracker zu aktualisieren.

  2. Mosaic Across Scales (MoS): Sobald die periodische Stabilisierung abgeschlossen ist, verarbeitet der MoS-Modus die Frames gleichzeitig. Er wählt dynamisch kritische Bereiche aus den Kamerafeeds aus und erstellt die Leinwand für die DNN-Inferenz.

Gedächtnisfunktion

Das System bietet auch eine Gedächtnisfunktion, die die Positionen und den Status von Objekten verfolgt. Dieses Gedächtnis hilft sicherzustellen, dass selbst stationäre Objekte über einen längeren Zeitraum erkannt werden. Diese duale Betriebsart balanciert effektiv die Notwendigkeit von Genauigkeit und Durchsatz.

Die Bedeutung der Kritikalitätsbewusstheit

Eine der entscheidenden Eigenschaften unseres Systems ist sein Bewusstsein für kritische Regionen in Bildern. Anstatt blind alle Daten gleich zu verarbeiten, weist es Ressourcen strategisch basierend auf der Wichtigkeit der Informationen zu. Dieser Fokus ermöglicht eine effizientere Verarbeitung, die in Szenarien, in denen Zeit und Genauigkeit entscheidend sind, unerlässlich wird.

Die Rolle des Massstabs

Bei der Analyse von Bildern können Objekte in verschiedenen Grössen und Auflösungen erscheinen. Die MoS-Methode berücksichtigt dies, indem sie mehrskaliges Tiling verwendet. Sie wählt die besten Kachelgrössen für jede Region basierend auf den erwarteten Abmessungen der Objekte aus.

Fazit

Die Herausforderung, mehrere hochauflösende Video-Streams in Echtzeit zu verarbeiten, ist erheblich. Durch den Fokus auf kritische Bereiche innerhalb der Bilder und die Nutzung einer effizienten Verpackungsstrategie können wir die Leistung auf Edge-Geräten verbessern. Unser System bietet eine praktische Lösung, die auf verschiedene Anwendungen anpassbar ist, von der Verkehrsüberwachung bis hin zu autonomen Fahrzeugen.

In einer Welt, in der visuelle Daten rasant wachsen, ist es entscheidend, eine Methode zu entwickeln, die diese Informationen effizient und mit hoher Genauigkeit verarbeiten kann. Mit dem Fortschritt der Technologie und der weiterhin steigenden Nachfrage nach Echtzeitdateninterpretation werden Systeme wie unseres eine entscheidende Rolle dabei spielen, unsere Fähigkeit zu verbessern, die Umgebung um uns herum zu verstehen und darauf zu reagieren.

Zukünftige Arbeiten werden sich auf weitere Optimierungen und die Erkundung neuer Anwendungen konzentrieren, bei denen diese Technologie von Vorteil sein kann. Indem wir die Grenzen dessen, was mit Edge-Verarbeitung möglich ist, verschieben, können wir den Weg für intelligentere, sicherere und effizientere Systeme in unserem täglichen Leben ebnen.

Originalquelle

Titel: MOSAIC: Spatially-Multiplexed Edge AI Optimization over Multiple Concurrent Video Sensing Streams

Zusammenfassung: Sustaining high fidelity and high throughput of perception tasks over vision sensor streams on edge devices remains a formidable challenge, especially given the continuing increase in image sizes (e.g., generated by 4K cameras) and complexity of DNN models. One promising approach involves criticality-aware processing, where the computation is directed selectively to critical portions of individual image frames. We introduce MOSAIC, a novel system for such criticality-aware concurrent processing of multiple vision sensing streams that provides a multiplicative increase in the achievable throughput with negligible loss in perception fidelity. MOSAIC determines critical regions from images received from multiple vision sensors and spatially bin-packs these regions using a novel multi-scale Mosaic Across Scales (MoS) tiling strategy into a single canvas frame, sized such that the edge device can retain sufficiently high processing throughput. Experimental studies using benchmark datasets for two tasks, Automatic License Plate Recognition and Drone-based Pedestrian Detection, show that MOSAIC, executing on a Jetson TX2 edge device, can provide dramatic gains in the throughput vs. fidelity tradeoff. For instance, for drone-based pedestrian detection, for a batch size of 4, MOSAIC can pack input frames from 6 cameras to achieve (a) 4.75x higher throughput (23 FPS per camera, cumulatively 138FPS) with less than 1% accuracy loss, compared to a First Come First Serve (FCFS) processing paradigm.

Autoren: Ila Gokarn, Hemanth Sabella, Yigong Hu, Tarek Abdelzaher, Archan Misra

Letzte Aktualisierung: 2023-05-04 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2305.03222

Quell-PDF: https://arxiv.org/pdf/2305.03222

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel