Bewertung der Sicherheit in tiefen neuronalen Netzwerken für autonomes Fahren
Diese Studie bewertet die Sicherheit von DNNs beim Umgang mit unbekannten Fahrdaten.
― 11 min Lesedauer
Inhaltsverzeichnis
Sicherheit ist ein grosses Thema, wenn es darum geht, tiefe neuronale Netze (DNNs) in wichtigen Anwendungen wie autonomem Fahren zu nutzen. Je alltäglicher DNNs werden, desto wichtiger ist es sicherzustellen, dass sie in der realen Welt richtig funktionieren. Allerdings ist es schwierig, ihre Leistung zu prüfen, besonders wenn sie auf Daten stossen, die nicht Teil ihres Trainings waren. Das führt zu der Notwendigkeit, eine Balance zwischen guter Leistung und der Fähigkeit zu finden, mit Out-of-Distribution (OOD) Daten umzugehen, also Daten, die anders aussehen als das, worauf das Modell trainiert wurde.
In dieser Bewertung wird untersucht, wie gut eine bestimmte Methode Ausgaben von einem DNN-Typ ablehnen kann, der sich auf Semantische Segmentierung konzentriert. Diese Methode nutzt eine statistische Berechnung namens Mahalanobis-Distanz (MD), um zu messen, wie weit eine Vorhersage von dem abweicht, was erwartet wird. Einfach gesagt, wird geprüft, wie ungewöhnlich ein Pixel (oder ein Teil eines Bildes) im Vergleich zu dem ist, was das Modell während seines Trainings gelernt hat. In der Studie wurden drei verschiedene DNNs untersucht, die mit einem Datensatz namens Cityscapes trainiert wurden und in vier anderen automatisierten Datensätzen getestet wurden. Die Ergebnisse zeigen, dass es möglich ist, Fehler in der Klassifizierung zu reduzieren, während auch die Anzahl der genau gekennzeichneten Pixel verringert wird, selbst beim Testen auf neuen Datensätzen.
Einleitung
Datengetriebene Algorithmen, besonders DNNs, haben bedeutende Fortschritte gemacht, um komplexe Herausforderungen in verschiedenen Bereichen zu bewältigen. Im autonomen Fahren haben diese Algorithmen die Wahrnehmung der Umgebung stark verbessert. Eine Hauptaufgabe in diesem Bereich ist die semantische Segmentierung, bei der das Ziel darin besteht, jedes Pixel in einem Bild basierend auf dem, was es darstellt, zu kennzeichnen, wie zum Beispiel Autos, Fussgänger oder Verkehrsschilder. Der Cityscapes-Datensatz ist über die Jahre ein wichtiges Benchmark für die Testeffektivität verschiedener DNN-Architekturen geworden.
Aber DNNs können schwer zu verstehen und zu analysieren sein. In der Automobilindustrie gibt es etablierte Standards wie ISO 26262, die die Bedeutung der Risikominderung durch verschiedene Methoden betonen. Leider funktionieren viele dieser Methoden nicht gut mit der DNN-Entwicklung, was zur Schaffung zusätzlicher Standards wie ISO 21448 führte, die sich auf Sicherheit konzentrieren.
Eine der Herausforderungen bei der Verifizierung von Wahrnehmungssystemen ist die Schwierigkeit, klar zu definieren, was eine bestimmte Klasse innerhalb der riesigen Menge an Eingabedaten ist. Es ist zum Beispiel fast unmöglich, eine vollständige Definition dessen zu erstellen, wie ein Fussgänger in jeder Situation aussieht. Die hohe Dimensionalität von Bilddaten kann die Dinge komplizieren und zu Problemen bei der Anomalieerkennung führen.
Dieser Artikel zeigt, dass es einen Kompromiss zwischen der Reduzierung von Fehlklassifikationen und der Anzahl der genau identifizierten Pixel gibt. Einfach gesagt, wenn wir die Anzahl der Fehlklassifikationen reduzieren, bekommen wir vielleicht weniger Gesamtvorhersagen für Pixel. Dieser Kompromiss basiert auf einem allgemein akzeptierten Distanzmass, das für OOD-Erkennung verwendet wird. Durch die Anwendung der MD-Methode auf Pixel-Ebene versucht diese Arbeit, die Sicherheitsargumentation für DNNs, die in automatisierten Wahrnehmungsaufgaben eingesetzt werden, zu verbessern.
Verwandte Arbeiten
Es wurde viel Forschung betrieben, um herauszufinden, wie man OOD-Eingaben im Kontext der Automobilsoftwaretechnik erkennt. Unbekannte oder unsichere Bedingungen zu erkennen, ist entscheidend für die Entwicklung sicherer autonomer Fahrzeuge. Die bestehende Literatur beschreibt verschiedene Strategien zur Verifizierung und Validierung von Wahrnehmungssystemen und deren OOD-Erkennung.
OOD-Erkennungsmethoden können in mehrere Typen kategorisiert werden, darunter klassifikationsbasierte, dichtebasierte, distanzbasierte und rekonstruktionsbasierte Methoden. Dieses Papier konzentriert sich auf die distanzbasierte OOD-Erkennung.
Einige frühere Forschungen haben untersucht, wie man OOD-Erkennung mit Bildern umsetzen kann. Zum Beispiel wurde ein Ansatz verwendet, der die wahrscheinlichste Vorhersage aus der Verteilung eines Klassifizierers als Distanzmass nutzt. Andere Studien schlugen vor, interne Merkmale von DNNs zu verwenden, um zu identifizieren, wann etwas nicht stimmt. Diese Methoden erfordern jedoch oft ein tiefes Verständnis der internen Struktur des DNNs, was sie in der Praxis kompliziert macht.
Eine weitere prominente Methode zur OOD-Erkennung nutzt eine klassenbedingte Gaussian-Verteilung, die aus Trainingsdaten erstellt wurde. Dieser Ansatz erlaubt die Berechnung der Mahalanobis-Distanz, die misst, wie unterschiedlich eine Probe von der erwarteten Verteilung ist. Unsere Arbeit baut auf dieser Methode auf und wendet sie auf eine breitere Palette von Bildtypen und auf Pixelebene an, anstatt nur auf Bildebene.
Im Automobilsektor hat die OOD-Erkennung an Bedeutung gewonnen, um DNNs zuverlässiger zu machen. Viele Forscher betonen die Wichtigkeit einer Überwachungsschicht neben dem DNN, um Anomalien zu erkennen. Neueste Studien haben gezeigt, dass semantische Segmentierungsnetzwerke effektiv zur OOD-Erkennung eingesetzt werden können.
Unsere Forschung zielt darauf ab zu bewerten, wie der Ort, an dem die Daten gesammelt werden, die OOD-Erkennungsleistung beeinflusst und wie zuverlässig die Mahalanobis-Distanzmethode ist, wenn das DNN ausserhalb seiner vorgesehenen Grenzen arbeitet.
Methodologie
In diesem Abschnitt wird erklärt, wie der Risiko-Coverage-Kompromiss bei DNNs, die auf semantische Segmentierung fokussiert sind, bewertet wird. Folgende Aspekte werden behandelt: A) die verwendeten Datensätze, B) die für die Studie ausgewählten Modelle, C) die verwendeten Evaluationsmetriken und D) wie all diese Elemente zur Bewertung kombiniert wurden.
Datensätze
Zu verstehen, wie gut DNNs auf Daten performen können, die nicht genau so sind wie die, auf denen sie trainiert wurden, ist entscheidend. Um dies zu evaluieren, haben wir nach anderen Datensätzen mit ähnlichen Labels und Bildern wie Cityscapes gesucht. Diese Datensätze mussten sicherstellen, dass die Bilder aus verschiedenen Orten aufgenommen wurden, um zu bewerten, wie gut die Modelle ihre Leistung verallgemeinern konnten.
Der Cityscapes-Datensatz ist einzigartig in seiner Verteilung der Daten basierend auf Städten. Einige andere Datensätze wurden gefunden, die ebenfalls Standortdaten aus GPS-Koordinaten bereitstellen konnten. Letztendlich wurden vier Datensätze für diese Studie ausgewählt: Cityscapes, KITTI-360, Audi Autonomous Driving Dataset (A2D2) und Berkeley Deep Drive (BDD100K).
Jeder dieser Datensätze bietet verschiedene Klassen und Definitionen. Zum Beispiel enthält BDD100K 19 Klassen, während die anderen 30 oder mehr haben. Die relevante Bewertung für diese Studie bezieht sich jedoch auf einen Satz von 19 gemeinsamen Klassen, die in allen Datensätzen zu finden sind. Das bedeutet, dass wir uns nur darauf konzentrieren mussten, wie wir Klassen konsistent benennen.
Zusammenfassend decken die vier Datensätze Gebiete in Deutschland, der Schweiz, den Vereinigten Staaten und Israel ab, was sechs verschiedene Bewertungssets schafft.
Modellauswahl
Die Experimente verwendeten vortrainierte Modelle, die auf dem Cityscapes-Datensatz trainiert wurden, ohne die Labels zu verändern. Drei Modelle wurden ausgewählt: zwei von DeepLab v3+ und eines von Pyramid Scene Parsing (PSPNet). Diese Modelle sind im Encoder-Decoder-Format strukturiert, was bedeutet, dass der Encoder das Eingabebild verarbeitet und komprimiert, während der Decoder das Ausgangsergebnis basierend auf den komprimierten Informationen rekonstruiert.
DeepLab-v3 bietet zwei Versionen, die entweder ResNet101 oder Mobilenet-v2 als Backbone verwenden. Unsere Bewertung zeigte, dass alle Modelle ähnliche Leistungen im Cityscapes Validierungsset hatten.
Evaluationsmetriken
Evaluationsmetriken wurden verwendet, um die OOD-Messung, das Risiko, die Pixelabdeckung und andere Bewertungsfaktoren auszudrücken. Die MD-Methode misst, wie distanziert eine Probe von ihrer erwarteten Verteilung ist. Im Vergleich zu einfacheren Distanzmetriken berücksichtigt die MD sowohl Durchschnittswerte als auch Variationen in den Daten und ermöglicht so ein nuancierteres Verständnis dafür, wie gut ein Modell leistungsfähig ist.
Coverage definiert den Prozentsatz der gekennzeichneten Pixel, die vom Modell vorhergesagt wurden. Wenn alle Pixel eine Vorhersage erhalten, ist die Coverage 100%. Wenn das Modell jedoch keine dominante Klassenvorhersage liefert, kann die anfängliche Coverage unter 100% fallen.
Durch die Kombination von Risiko- und Coverage-Metriken drücken wir den Kompromiss zwischen beiden aus, was es uns ermöglicht, zu visualisieren, wie sich die Leistung je nach Akzeptanzschwelle für OOD-Erkennungen ändert.
Evaluationsmethode
Das Hauptziel dieser Studie war es, die durchschnittliche Leistung durch die Fläche unter der ROC-Kurve (AUC) zu bewerten, mit der Hypothese, dass die Leistung sinken würde, wenn sie mit Daten aus unterschiedlichen Orten, Kamerasetups oder Kennzeichnungspraktiken getestet werden. Wir haben untersucht, wie Risiko- und Coverage-Niveaus sich ändern, wenn die Sicherheitsakzeptanzschwelle steigt.
Ergebnisse
Die Ergebnisse sind in zwei Teile unterteilt: Der erste überprüft die Ergebnisse, wenn das Sicherheitsmass auf verschiedene Bewertungssets angewandt wird, und der zweite bewertet, wie das Sicherheitsmass zu dem Gesamtsicherheitsargument für die Verwendung von DNNs beiträgt.
Metrikbewertung
Um die Bewertung zu starten, haben wir klassenbedingte Gaussian-Verteilungen für die drei DNN-Modelle extrahiert. Nachdem wir Pixel-Daten aus Trainingsproben gesammelt hatten, berechneten wir Mittelwerte und Kovarianzmatrizen, was uns ermöglichte, Distanzen effektiv zu messen.
Die Bewertung einzelner Distanzen war online unpraktisch, aber diese Methode zeigte die optimale Leistung für Sicherheitsmassnahmen. Risiko-Coverage-Diagramme veranschaulichen die möglichen Kompromisse, während wichtige Leistungsmetriken zusammengefasst werden.
In den Cityscapes-Datensätzen schnitten alle drei Modelle während des Trainings gut ab und hatten ähnliche AUC-Werte, was ihre Fähigkeit zeigt, Klassifizierungsaufgaben effektiv zu trennen. Ihre Spitzenleistung blieb bei den Trainingsdaten intakt, obwohl einige Leistungseinbussen in der Validierungsphase festgestellt wurden.
Beim Blick auf andere Bewertungssets wie BDD100K zeigten die Modelle einen drastischen Rückgang der Leistung, wobei die IoU-Werte erheblich sanken. Diese niedrige Leistung zeigt, dass die Unterschiede in den Datensatzmerkmalen – einschliesslich Faktoren wie der Zusammensetzung der Szenen, der Vielfalt der Objekte und dem Kamerasetup – eine grosse Rolle bei der Erkennungsfähigkeit spielen.
Ergebnisse von KITTI zeigen, dass die Modelle trotz eines Rückgangs der Werte immer noch eine angemessene Leistung bieten. Alle drei Modelle zeigten ähnliche Leistungswerte, obwohl sie in mehreren Fällen deutlich niedriger waren als die Benchmarks von Cityscapes.
Für A2D2 und BDD100K lagen die Leistungsniveaus weit unter den Erwartungen, was zeigt, dass bestimmte Klassen und Kennzeichnungsstrategien die Ergebnisse erheblich beeinflussten.
Anwendbarkeit auf Sicherheitsanforderungen
Die Sicherheitsanforderungen wurden untersucht, indem beobachtet wurde, wie Risiko- und Coverage-Metriken unter verschiedenen Schwellen während der Experimente schwanken. Ein hypothetisches Ziel von mindestens 50% Coverage mit einem Risiko von 15% wurde festgelegt, um zu bestimmen, ob Modelle ausserhalb ihres Trainingsbereichs funktionieren konnten.
Alle Modelle waren bei den Cityscapes Trainings- und Validierungssets erfolgreich. Allerdings erfüllten sie die Sicherheitsanforderungen für BDD100K und A2D2 nicht, was darauf hindeutet, dass Anpassungen der angenommenen Risikoniveaus notwendig sein könnten, um akzeptable Abdeckungsraten zu erreichen.
Diskussion
Die Aufgabe, OOD-Szenarien zu erkennen, ist im Bereich der automobilen Wahrnehmung von grösster Bedeutung. Die Community erkennt an, dass vollständige Beschreibungen spezifischer Objekterkennungsszenarien unmöglich sind. Das Ziel bleibt, die Genauigkeit zu maximieren und gleichzeitig Sicherheitsmassnahmen umzusetzen, um das Risiko von Fehlalarmen zu minimieren.
Diese Forschung hebt hervor, wie man ein Sicherheitsmass effektiv für Netzwerke zur semantischen Segmentierung in autonomen Fahrszenarien anwenden kann. Durch die Analyse verschiedener Datensätze und wie Modelle performen, wenn sie auf ungewöhnliche Situationen stossen, erhalten wir ein klareres Bild davon, wie robust diese Systeme sind.
Obwohl die Modelle in vertrauter Umgebung gut abschnitten, hatten sie in unterschiedlichen Datensätzen signifikante Schwierigkeiten. Die Ergebnisse zeigen die Bedeutung konsistenter Klassendefinitionen und Kennzeichnungsstrategien über verschiedene Datensätze hinweg, da Inkonsistenzen zu schlechter Leistung führen können.
Um die Effektivität von Wahrnehmungssystemen zu verbessern, wird vorgeschlagen, einen iterativen Prozess anzunehmen, um Schwächen zu identifizieren und die Qualität der Vorhersagen zu verbessern. Wenn Verbesserungen nicht möglich sind, könnte das System seinen Umfang einschränken müssen, um sicherzustellen, dass es unter bestimmten Parametern korrekt funktioniert.
Allein auf das Ablehnen unsicherer Vorhersagen zu setzen, eliminiert keine Risiken; stattdessen zeigt es, dass Vorsicht geboten ist, wenn Entscheidungen auf unsicheren Vorhersagen basieren.
Bedrohungen für die Validität
Es ist wichtig zu erkennen, dass die Datensätze in der Kameraaufstellung, der Szenenkomposition und der Qualität variieren, was direkte Vergleiche erschwert, da die Modelle nur auf einem Typ von Datensatz trainiert wurden. Trotz dieser Variationen wurden Muster in der Leistung bei verschiedenen Modellen beobachtet.
Die MD-Methode ist eine von mehreren Sicherheitsmassnahmen, die in einen umfassenderen Verifizierungsprozess integriert werden sollten, um die Vorhersagen von DNNs zu verbessern. Diese Studie betont die Bedeutung, den Risiko-Coverage-Kompromiss in Bezug auf die Pixelabdeckung und die Möglichkeit, dass Modelle mit unbekannten Daten unzureichend arbeiten, zu verstehen.
Die Ergebnisse zeigen, dass Risiken minimiert werden können, indem nur Vorhersagen akzeptiert werden, die einen bestimmten Distanzschwellenwert überschreiten. Die Verwendung der Mahalanobis-Distanz als Sicherheitsmass über verschiedene Automobil-Datensätze hinweg zeigt, wie Datenmerkmale die Modellleistung erheblich beeinflussen. Zukünftige Forschungen könnten darin bestehen, diese Modelle mit einer Vielzahl von Datensätzen neu zu trainieren, um eine ausgewogenere Bewertung ihrer Effektivität zu erreichen.
Titel: Evaluation of Out-of-Distribution Detection Performance on Autonomous Driving Datasets
Zusammenfassung: Safety measures need to be systemically investigated to what extent they evaluate the intended performance of Deep Neural Networks (DNNs) for critical applications. Due to a lack of verification methods for high-dimensional DNNs, a trade-off is needed between accepted performance and handling of out-of-distribution (OOD) samples. This work evaluates rejecting outputs from semantic segmentation DNNs by applying a Mahalanobis distance (MD) based on the most probable class-conditional Gaussian distribution for the predicted class as an OOD score. The evaluation follows three DNNs trained on the Cityscapes dataset and tested on four automotive datasets and finds that classification risk can drastically be reduced at the cost of pixel coverage, even when applied on unseen datasets. The applicability of our findings will support legitimizing safety measures and motivate their usage when arguing for safe usage of DNNs in automotive perception.
Autoren: Jens Henriksson, Christian Berger, Stig Ursing, Markus Borg
Letzte Aktualisierung: 2024-01-30 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2401.17013
Quell-PDF: https://arxiv.org/pdf/2401.17013
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.