Bench2Drive: Ein neuer Standard für das Testen von autonomen Fahrsystemen
Bench2Drive bietet eine faire Bewertungsmethode für Technologien im autonomen Fahren.
― 6 min Lesedauer
Inhaltsverzeichnis
Autonomes Fahren ist ein Bereich, der darauf abzielt, Autos zu entwickeln, die selbstständig ohne menschliches Eingreifen fahren können. Diese Technologie soll die Verkehrssicherheit verbessern, Staus reduzieren und bessere Transportmöglichkeiten bieten. Mit dem Fortschritt der Technologie haben Forscher Systeme entwickelt, die auf grossen Datenmengen basieren, um zu lernen, wie man Strassen navigiert und Entscheidungen beim Fahren trifft.
Die Herausforderung beim Testen autonomer Fahrsysteme
Das Testen dieser autonomen Systeme ist entscheidend, um sicherzustellen, dass sie in realen Situationen sicher arbeiten können. Traditionell wurde das Testen entweder in offenen oder geschlossenen Umgebungen durchgeführt.
Open-Loop-Testing besteht darin, aufgezeichnete Daten zu verwenden, um zu simulieren, wie sich ein Auto in verschiedenen Situationen verhalten würde. Obwohl diese Methode einige Informationen liefern kann, gibt sie kein vollständiges Bild davon, wie gut das Auto sich an neue oder komplexe Szenarien anpassen kann.
Closed-Loop-Testing hingegen beinhaltet das tatsächliche Fahren in einer kontrollierten Umgebung, in der das Auto mit seiner Umgebung interagieren kann. Diese Methode hilft, zu bewerten, wie gut das Auto auf verschiedene Fahrbedingungen und Hindernisse reagieren kann.
Trotz Fortschritten bei den Evaluierungsmethoden gibt es immer noch erhebliche Lücken darin, wie autonome Fahrsysteme getestet werden. Bestehende Benchmarks bieten oft keine realistische Einschätzung der Fahrfähigkeiten eines Autos in verschiedenen Situationen.
Einführung von Bench2Drive
Um diese Herausforderungen anzugehen, wurde ein neuer Benchmark namens Bench2Drive entwickelt. Dieser Benchmark soll eine umfassende Möglichkeit bieten, autonome Fahrsysteme in einer kontrollierten und realistischen Umgebung zu bewerten.
Was ist Bench2Drive?
Bench2Drive ist eine strukturierte Testumgebung, die umfasst:
- Einen grossen Satz von Trainingsdaten, die aus einer Vielzahl von Fahr-Szenarien gesammelt wurden.
- Ein Testprotokoll, das bewertet, wie gut autonome Systeme in verschiedenen Bedingungen abschneiden.
- Ein Fokus auf die Bewertung mehrerer Fahrfähigkeiten in verschiedenen Situationen.
Das Ziel von Bench2Drive ist es, sicherzustellen, dass alle autonomen Fahrsysteme fair und effektiv getestet werden können, um ein klareres Verständnis ihrer Fähigkeiten zu vermitteln.
Merkmale von Bench2Drive
Bench2Drive hebt sich durch mehrere Schlüsselmerkmale ab:
Umfassende Szenario-Abdeckung
Eine der Hauptstärken von Bench2Drive ist die umfangreiche Palette an Szenarien. Der Benchmark umfasst 44 verschiedene Fahrsituationen, wie zum Beispiel:
- In den Verkehr einfahren
- Andere Fahrzeuge überholen
- Durch Baustellen navigieren
- Auf Fussgänger, die die Strasse überqueren, reagieren
Diese Vielfalt ermöglicht es den Forschern zu bewerten, wie gut ein autonomes Fahrzeug mit verschiedenen Herausforderungen beim Fahren umgehen kann.
Detaillierte Fähigkeitsbewertung
Bench2Drive bewertet Fahrfähigkeiten anhand kurzer Strecken, die typischerweise etwa 150 Meter lang sind. Jede Strecke konzentriert sich auf ein spezifisches Fahr-Szenario, was eine detaillierte Analyse darüber ermöglicht, wie verschiedene Systeme bei einzelnen Aufgaben abschneiden.
Durch die Isolation von Fähigkeiten können Forscher die Stärken und Schwächen verschiedener autonomer Fahrmethoden effektiv vergleichen.
Closed-Loop-Bewertungsprotokoll
Das Closed-Loop-Bewertungsprotokoll bedeutet, dass die Aktionen des autonomen Fahrzeugs direkt seine Umgebung beeinflussen. Diese Anordnung ermöglicht eine realistischere und genauere Einschätzung, wie gut ein autonomes System fahren kann.
Vielfältige Trainingsdaten
Bench2Drive enthält einen grossen Datensatz mit 2 Millionen vollständig annotierten Frames, die aus 10.000 Clips gesammelt wurden. Diese Clips umfassen eine Vielzahl von Szenarien, Wetterbedingungen und Standorten, was sicherstellt, dass die Trainingsumgebung reichhaltig und vielfältig ist.
Diese Vielfalt ist entscheidend für die Erstellung von Modellen, die sich gut auf reale Fahrsituationen verallgemeinern lassen.
Bedeutung fairer Tests
Eine faire Testumgebung ist entscheidend für die Entwicklung zuverlässiger autonomer Fahrsysteme. Bench2Drive ermöglicht es Forschern sicherzustellen, dass jedes System denselben Bedingungen ausgesetzt ist. Diese Standardisierung ist wichtig für den Vergleich verschiedener Methoden und das Verständnis ihrer Leistung.
Herausforderungen in aktuellen Testumgebungen
Viele bestehende Benchmarks haben Einschränkungen, die deren Effektivität beeinträchtigen. Zum Beispiel:
- Einige Testmethoden basieren stark auf Open-Loop-Bewertungen, die die realen Fahrbedingungen nicht genau widerspiegeln.
- Andere Benchmarks konzentrieren sich möglicherweise ausschliesslich auf grundlegende Fahrfähigkeiten und bewerten nicht, wie gut ein Fahrzeug mit komplexen Verkehrssituationen interagiert.
Indem diese Mängel angesprochen werden, bietet Bench2Drive eine geeignetere Umgebung zur Bewertung fortschrittlicher autonomer Fahrsysteme.
Evaluierungsmetriken
Um zu bestimmen, wie gut autonome Fahrsysteme abschneiden, verwendet Bench2Drive spezifische Evaluierungsmetriken:
Erfolgsquote (SR)
Die Erfolgsquote misst, wie viele Strecken erfolgreich ohne Verkehrsverstösse abgeschlossen wurden. Wenn ein Auto sein Ziel erreicht und dabei die Regeln befolgt, zählt dies als erfolgreiche Strecke.
Fahrbewertung (DS)
Die Fahrbewertung kombiniert zwei Faktoren: den Prozentsatz der zurückgelegten Strecke und Strafen für Verstösse. Diese Bewertung hilft, ein klareres Bild davon zu erhalten, wie gut ein System insgesamt funktioniert.
Testen autonomer Fahrsysteme mit Bench2Drive
Forscher haben mehrere hochmoderne Modelle mit dem Bench2Drive-Benchmark implementiert. Diese Modelle umfassen verschiedene Ansätze für autonomes Fahren, von denen jeder seine eigenen Stärken und Schwächen hat.
Ergebnisse und Erkenntnisse
Bei der Vergleichung verschiedener Modelle wurden mehrere wichtige Beobachtungen gemacht:
Open-Loop-Metriken können auf die Konvergenz von Modellen hinweisen, sind aber nicht zuverlässig für fortgeschrittene Vergleiche. Einige Modelle scheinen auf Basis von L2-Fehlermetriken gut abzuschneiden, haben jedoch Schwierigkeiten in Closed-Loop-Bewertungen. Diese Diskrepanz verdeutlicht die Notwendigkeit gründlicher Tests in realitätsnahen Umgebungen.
Die Nutzung von Expertenmerkmalen ist vorteilhaft. Die Verwendung von Merkmalen aus Experten-Systemen kann die Leistung autonomer Fahrmethoden leiten und verbessern. Modelle, die diese Anleitung integrierten, schnitten besser ab als solche, die dies nicht taten.
Interaktive Verhaltensweisen sind besonders herausfordernd. Fähigkeiten, die starke Interaktionen mit anderen Fahrzeugen oder Fussgängern erfordern, tendieren dazu, in allen Modellen niedrigere Bewertungen zu erhalten. Dies deutet darauf hin, dass viele Systeme noch lernen, komplexe Fahrszenarien effektiv zu bewältigen.
Die Rolle der Datensammlung
Ein bedeutender Teil der Erstellung von Bench2Drive bestand darin, hochwertige Daten zu sammeln, die die realen Fahrbedingungen genau widerspiegeln. Dieser Prozess umfasste:
- Den Einsatz fortschrittlicher Modelle, um durch verschiedene vordefinierte Strecken zu fahren.
- Eine ausgewogene Darstellung verschiedener Wetterbedingungen und Fahrszenarien sicherzustellen.
- Das Sammeln von Annotationen, um Kontext und Details für jeden Clip bereitzustellen.
Durch den Fokus auf Datenvielfalt und Qualität hilft Bench2Drive sicherzustellen, dass alle Modelle unter ähnlichen, aber vielfältigen Bedingungen trainiert werden.
Zukünftige Richtungen
Obwohl Bench2Drive einen bedeutenden Fortschritt in der Bewertung autonomer Fahrsysteme darstellt, gibt es immer Möglichkeiten zur Verbesserung. Zukünftige Bemühungen könnten Folgendes umfassen:
- Die Kombination von Simulationswerkzeugen mit authentischem Rendering, um die Kluft zwischen virtuellen Tests und realem Fahren zu überbrücken.
- Die Erforschung fortschrittlicherer Trainingsmethoden zur Verbesserung der Lernfähigkeit von Modellen im Umgang mit interaktiven Verhaltensweisen.
- Die kontinuierliche Aktualisierung des Datensatzes zur Korrektur von Fehlern und zur Einbeziehung neuer Szenarien nach Bedarf.
Fazit
Bench2Drive ist ein wichtiger Schritt nach vorn bei der Bewertung autonomer Fahrsysteme. Es bietet eine strukturierte, faire und umfassende Möglichkeit zu beurteilen, wie gut verschiedene Modelle in verschiedenen Fahrsituationen abschneiden.
Während sich die Technologie des autonomen Fahrens weiterentwickelt, werden Benchmarks wie Bench2Drive eine wichtige Rolle dabei spielen, sicherzustellen, dass diese Systeme sicher und effektiv in der realen Welt arbeiten können. Durch die Investition in bessere Testumgebungen können Forscher dazu beitragen, den Weg für eine Zukunft zu ebnen, in der selbstfahrende Autos ein alltäglicher und vertrauenswürdiger Teil des Lebens sind.
Titel: Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving
Zusammenfassung: In an era marked by the rapid scaling of foundation models, autonomous driving technologies are approaching a transformative threshold where end-to-end autonomous driving (E2E-AD) emerges due to its potential of scaling up in the data-driven manner. However, existing E2E-AD methods are mostly evaluated under the open-loop log-replay manner with L2 errors and collision rate as metrics (e.g., in nuScenes), which could not fully reflect the driving performance of algorithms as recently acknowledged in the community. For those E2E-AD methods evaluated under the closed-loop protocol, they are tested in fixed routes (e.g., Town05Long and Longest6 in CARLA) with the driving score as metrics, which is known for high variance due to the unsmoothed metric function and large randomness in the long route. Besides, these methods usually collect their own data for training, which makes algorithm-level fair comparison infeasible. To fulfill the paramount need of comprehensive, realistic, and fair testing environments for Full Self-Driving (FSD), we present Bench2Drive, the first benchmark for evaluating E2E-AD systems' multiple abilities in a closed-loop manner. Bench2Drive's official training data consists of 2 million fully annotated frames, collected from 10000 short clips uniformly distributed under 44 interactive scenarios (cut-in, overtaking, detour, etc), 23 weathers (sunny, foggy, rainy, etc), and 12 towns (urban, village, university, etc) in CARLA v2. Its evaluation protocol requires E2E-AD models to pass 44 interactive scenarios under different locations and weathers which sums up to 220 routes and thus provides a comprehensive and disentangled assessment about their driving capability under different situations. We implement state-of-the-art E2E-AD models and evaluate them in Bench2Drive, providing insights regarding current status and future directions.
Autoren: Xiaosong Jia, Zhenjie Yang, Qifeng Li, Zhiyuan Zhang, Junchi Yan
Letzte Aktualisierung: 2024-06-11 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2406.03877
Quell-PDF: https://arxiv.org/pdf/2406.03877
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://thinklab-sjtu.github.io/Bench2Drive/
- https://eval.ai/web/challenges/challenge-page/2098/leaderboard/4942
- https://neurips.cc/Conferences/2024/PaperInformation/FundingDisclosure
- https://carla.readthedocs.io/en/latest/catalogue_vehicles/
- https://leaderboard.carla.org/
- https://github.com/Thinklab-SJTU/Bench2Drive
- https://huggingface.co/datasets/rethinlab/Bench2Drive