Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

CycleCrash: Ein neuer Datensatz für die Sicherheit von Radfahrern

Das CycleCrash-Dataset hat das Ziel, die Sicherheit von Radfahrern durch Videoanalyse zu verbessern.

Nishq Poorav Desai, Ali Etemad, Michael Greenspan

― 9 min Lesedauer


Revolution derRevolution derFahrradsicherheitsdatenVerständnis von Risiken für Radfahrer.Neuer Datensatz verbessert das
Inhaltsverzeichnis

Radfahren wird immer beliebter, um sich in Städten fortzubewegen. Es ist nicht nur eine tolle Möglichkeit, fit zu bleiben und die Umwelt zu unterstützen, sondern das Radfahren birgt auch Risiken. Leider verletzen sich jedes Jahr viele Radfahrer, und die Zahl der tödlichen Unfälle ist erheblich gestiegen. Die meisten Forschungen zu autonomem Fahren konzentrieren sich nicht wirklich auf Radfahrer, was die Gefahr erhöht. Um das zu ändern, wurde ein neuer Datensatz namens CycleCrash erstellt. Dieser Datensatz umfasst 3.000 Videos von radbezogenen Vorfällen und deckt alles ab, von Unfällen bis hin zu sicheren Interaktionen mit Autos. Das Ziel ist, die Sicherheit der Radfahrer zu verbessern, indem bessere Technologien entwickelt werden, die Kollisionen vorhersagen und analysieren können.

Der Bedarf an Daten

Studien zeigen, dass jedes Jahr mehr als 130.000 Radfahrer bei Unfällen verletzt werden. Die Zahl der tödlichen Unfälle mit Radfahrern ist in den letzten zehn Jahren um über 50 % gestiegen. Obwohl maschinelles Lernen dabei geholfen hat, die Technologie für autonomes Fahren zu verbessern, fehlt es an spezifischen Daten zur Sicherheit von Radfahrern. Bestehende Datensätze enthalten oft Informationen über Fahrräder, bieten jedoch nicht die nötigen Informationen, um die Probleme zu lösen, mit denen Radfahrer auf der Strasse konfrontiert sind.

Einige Datensätze, die für autonom fahrende Fahrzeuge verwendet werden, enthalten auch radbezogene Daten. Allerdings ist die Zahl der Fälle mit Radfahrern ziemlich gering. Zum Beispiel hat ein beliebter Datensatz nur etwas mehr als 1.000 Bilder mit Radfahrern. Diese begrenzte Darstellung liefert nicht genug Informationen, um gezielte Sicherheitslösungen für Radfahrer zu entwickeln.

Die aktuellen Datensätze bieten auch keine umfassenden Annotationen, die für eine detaillierte Analyse erforderlich sind. Sie zeigen beispielsweise nicht immer, wie riskant das Verhalten eines Radfahrers ist oder wie schwerwiegend ein potenzieller Unfall sein könnte. Dieser Mangel an Informationen erschwert es, wirksame Sicherheitsmassnahmen für Radfahrer zu schaffen.

Einführung von CycleCrash

Um diese Probleme anzugehen, bietet CycleCrash eine Lösung, indem es eine grosse Sammlung von Videos präsentiert, die sich auf Radfahrer in verschiedenen Situationen konzentriert. Der Datensatz umfasst 3.000 Videos und ist damit eine der umfangreichsten Sammlungen für diesen Zweck. Diese Videos zeigen eine Vielzahl von Interaktionen, die Radfahrer mit anderen Fahrzeugen und Fussgängern haben.

Der Datensatz enthält 13 Arten von Informationen (oder Annotationen), die in drei Hauptgruppen organisiert sind: kollisionbezogene, radfahrerbezogene und szenenbezogene Faktoren. Dieser strukturierte Ansatz ermöglicht es Forschern, die Herausforderungen, mit denen Radfahrer auf der Strasse konfrontiert sind, besser zu verstehen. Darüber hinaus ermöglicht CycleCrash neun spezifische Aufgaben, die sich auf die Vorhersage von Kollisionen und die Sicherheit von Radfahrern beziehen, und ist somit eine wichtige Ressource für die Entwicklung neuer Sicherheitstechnologien.

Datenbeschaffungsprozess

CycleCrash sammelt Videos von verschiedenen Online-Plattformen wie YouTube und Facebook und konzentriert sich auf Clips, die Radfahrer zeigen. Die Auswahlkriterien für die Einbeziehung von Videos sind spezifisch:

  1. Videos, die eine Kollision oder einen Beinahe-Unfall zwischen einem Radfahrer und einem motorisierten Fahrzeug zeigen.
  2. Videos, die einen Radfahrer zeigen, der mit einem anderen Radfahrer oder Fussgänger kollidiert.
  3. Videos, in denen ein Radfahrer aufgrund von Hindernissen wie Schlaglöchern oder mechanischen Problemen stürzt.
  4. Clips, die riskantes Verhalten von Radfahrern zeigen und potenzielle Kollisionsrisiken hervorheben.
  5. Videos, die Radfahrer zeigen, die sicher im Stadtverkehr navigieren, ohne riskantes Verhalten.

Insgesamt enthält der Datensatz 2.000 Videos, die unfallfrei sind, und 1.000, die verschiedene Stufen potenzieller Unfälle zeigen. Die Verwendung von Dashcam-Videos aus Fahrzeugen bietet eine realistischere Sicht auf die Radfahrbedingungen im Vergleich zu fest positionierten Kameras wie CCTV.

Struktur des Datensatzes

Der CycleCrash-Datensatz ist als Liste von Videolinks organisiert, zusammen mit spezifischen Start- und Endzeiten für wichtige Ereignisse innerhalb dieser Videos. Die Videos stammen aus öffentlichen Posts, um sicherzustellen, dass sie niemandes Privatsphäre verletzen. Der Datensatz enthält auch ein Toolkit, das Benutzern hilft, diese Videos konsistent herunterzuladen und zu verarbeiten.

Die Videos durchlaufen mehrere Verarbeitungsschritte:

  1. Temporales Zuschneiden: Jedes Video wird so bearbeitet, dass nur die relevanten Clips fokussiert werden.
  2. Dateikonvertierung: Alle Videos werden in ein einheitliches Format konvertiert.
  3. Räumliches Zuschneiden und Skalierung: Videos werden auf eine Standardauflösung skaliert.
  4. Anpassung der Bildrate: Videos werden angepasst, um sicherzustellen, dass sie mit einer konsistenten Geschwindigkeit abgespielt werden.
  5. Farbnormalisierung: Videos durchlaufen einen Prozess zur Standardisierung der Farbeigenschaften.

Die umfassenden Details im Datensatz ermöglichen verschiedene Aufgaben im Zusammenhang mit der Sicherheit von Radfahrern.

Annotationen

Die Annotationen in CycleCrash helfen, das Geschehen in jedem Video zu klassifizieren und zu beschreiben. Sie fallen in drei Kategorien:

Kollisionbezogene Annotationen

Diese Annotationen beziehen sich auf Elemente, die spezifisch mit Unfällen oder Beinahe-Unfällen verbunden sind. Sie umfassen:

  • Rechts-vor-Links: Gibt an, welche Partei in der Interaktion Vorrang hatte.
  • Zeit bis zur Kollision: Misst die verbleibende Zeit bis zu einer potenziellen Kollision.
  • Art des beteiligten Objekts: Identifiziert, welches Fahrzeug oder Objekt mit dem Radfahrer interagiert.
  • Fehler: Legt fest, wer im Falle einer Kollision schuld ist.
  • Schwere: Bewertet, wie schwerwiegend die Verletzung oder die potenzielle Kollision sein könnte.

Radfahrerbezogene Annotationen

Diese bieten Details über den Radfahrer im Video:

  • Risikoindex für das Verhalten des Radfahrers: Misst, wie riskant die Aktionen eines Radfahrers sind.
  • Alter des Radfahrers: Schätzt das Alter des Radfahrers basierend auf dem äusseren Erscheinungsbild.
  • Typ des Radfahrers: Unterscheidet zwischen Wettkampf- und Freizeitradfahrern.
  • Umgrenzungsbox des Radfahrers: Markiert den Bereich, in dem sich der Radfahrer befindet.
  • Richtung des Radfahrers: Gibt an, wo der Radfahrer hinfährt.

Szenenbezogene Annotationen

Diese enthalten Informationen zur Umgebung und zu anderen Fahrzeugen:

  • Richtung des beteiligten Objekts: Zeigt, in welche Richtung das Fahrzeug fährt.
  • Kameraposition: Erfasst den Winkel, aus dem das Video aufgenommen wurde.
  • Beteiligtes Ego-Fahrzeug: Identifiziert das Fahrzeug, das die Dashcam trägt.

Dieses strukturierte Set von Annotationen erleichtert die Beurteilung verschiedener Faktoren, die die Sicherheit von Radfahrern betreffen.

Qualitätskontrolle

Um die Qualität des Datensatzes zu gewährleisten, wurden Videos mit spezifischen Suchbegriffen im Zusammenhang mit Fahrradunfällen und Kollisionen ausgewählt. Automatisierte Checks sorgten dafür, dass die Videos die Mindestanforderungen an Bildrate und Auflösung erfüllten. Danach überprüften menschliche Prüfer die Videos, um sicherzustellen, dass sie die Auswahlkriterien erfüllten.

Die Labeler, die die Videos annotierten, wurden geschult, um detaillierte Richtlinien zu befolgen, und legten besonderen Wert auf Verkehrsregeln und das Verhalten von Radfahrern. Dieser gründliche Ansatz zielte darauf ab, Vorurteile zu minimieren und eine genaue Kennzeichnung sicherzustellen, was die Zuverlässigkeit des Datensatzes insgesamt erhöht.

Aufgaben und Metriken

CycleCrash definiert neun wichtige Aufgaben auf der Grundlage der gesammelten Daten. Hier ist eine Zusammenfassung davon:

  1. Vorhersage des Risikoindex für Radfahrerverhalten: Einschätzung des Risikograds eines Radfahrers und Kategorisierung in Klassen wie niedriges oder hohes Risiko.
  2. Klassifizierung des Rechts-vor-Links: Bestimmung, ob der Radfahrer Vorrang hatte.
  3. Vorhersage von Radfahrer-Kollisionen: Vorhersage, ob ein Ereignis innerhalb eines bestimmten Zeitrahmens zu einer Kollision führen wird.
  4. Vorhersage der Zeit bis zur Kollision: Schätzung des genauen Zeitpunkts, an dem eine Kollision stattfinden wird.
  5. Schwereklassifizierung: Klassifizierung der Schwere eines potenziellen Unfalls in Kategorien wie sicher oder hochgradig.
  6. Fehlerklassifizierung: Bestimmung, wer im Falle eines Unfalls schuld war.
  7. Alter des Radfahrers klassifizieren: Klassifizierung des Alters des Radfahrers in Gruppen wie jung, erwachsen oder alt.
  8. Richtung des Radfahrers erkennen: Identifizierung der Richtung, in die der Radfahrer fährt.
  9. Richtung des beteiligten Objekts erkennen: Identifizierung der Richtung anderer Fahrzeuge, die mit dem Radfahrer interagieren.

Diese Aufgaben konzentrieren sich darauf, die Sicherheit zu verbessern und zu verstehen, wie Radfahrer mit ihrer Umgebung interagieren.

VidNeXt-Methode

Um die Daten effektiv zu analysieren, wurde eine neue Methode namens VidNeXt vorgeschlagen. Dieser Ansatz nutzt moderne Deep-Learning-Techniken zur Verbesserung der Videoanalyse. VidNeXt kombiniert einen Merkmals-Extraktor und einen Transformer, um den Fluss von Informationen über die Zeit besser zu erfassen.

Die Architektur umfasst:

  • ConvNeXt: Ein Bestandteil, der die Video-Frames verarbeitet, um visuelle Merkmale zu extrahieren.
  • Transformer-Blöcke: Diese helfen dabei, zu verstehen, wie die Frames über die Zeit hinweg miteinander in Beziehung stehen. Ein besonderer Fokus liegt auf sowohl stationären als auch nicht-stationären Elementen, was eine bessere Interpretation dynamischer Szenen ermöglicht.

Diese Methode zielt darauf ab, die Komplexität von Videodaten effizienter zu lernen und die Vorhersagegenauigkeit in den innerhalb des CycleCrash-Datensatzes definierten Aufgaben zu verbessern.

Experimente und Ergebnisse

Das Team führte Experimente mit dem CycleCrash-Datensatz durch, um die Effektivität von VidNeXt im Vergleich zu bestehenden Modellen zu bewerten. Die Videos wurden in Trainings- und Testsätze aufgeteilt, um faire Vergleiche zu gewährleisten.

In der Community weit verbreitete Modelle wurden als Baselines einbezogen. Diese Modelle haben zuvor vielversprechende Ergebnisse in verschiedenen Aufgaben im Zusammenhang mit der Videoanalyse gezeigt. Zudem wurden zwei Variationen von VidNeXt getestet, um den Einfluss seiner Komponenten separat zu isolieren.

Die Ergebnisse zeigten, dass VidNeXt die meisten anderen Modelle in verschiedenen Aufgaben übertraf. Besonders hervorzuheben ist, dass es bei der Vorhersage des Risikoindex für Radfahrerverhalten, der Klassifizierung des Rechts-vor-Links und der Vorhersage von Kollisionen herausragte. Die Ergebnisse unterstrichen die Effektivität von VidNeXt bei der Verarbeitung von Videodaten und bewiesen, dass es bessere Einblicke in die Sicherheit von Radfahrern bietet als frühere Methoden.

Cross-Dataset-Evaluation

Um zu testen, wie gut die Modelle mit Daten aus verschiedenen Quellen abschneiden, wurde eine Cross-Dataset-Evaluation durchgeführt. Dabei wurde auf CycleCrash trainiert und auf anderen Datensätzen wie CCD und DoTA getestet, die hauptsächlich mit Autokollisionen zu tun haben. Die Ergebnisse zeigten, dass das Training auf CycleCrash zu einer besseren Leistung führte, wenn es auf andere Datensätze getestet wurde, im Vergleich zum umgekehrten Ansatz. Dies deutet darauf hin, dass CycleCrash einzigartige und wertvolle Informationen liefert, die anderen Datensätzen fehlen.

Fazit

CycleCrash ist ein bahnbrechender Datensatz, der darauf abzielt, die Sicherheit von Radfahrern durch ein besseres Verständnis und die Vorhersage von Kollisionsrisiken zu verbessern. Mit einer breiten Palette von Videos und detaillierten Annotationen dient CycleCrash als wichtige Ressource für Forscher, die Technologien zur Förderung der Sicherheit von Radfahrern entwickeln. Die vorgeschlagene Methode VidNeXt zeigt vielversprechende Ergebnisse bei der effektiven Analyse dieser Videos und ebnet den Weg für zukünftige Fortschritte im Schutz von Radfahrern.

Angesichts des zunehmenden Radverkehrs in städtischen Gebieten ist es entscheidend, weiterhin Technologien zu verbessern, die Risiken für Radfahrer vorhersagen und mindern können. Die Arbeit mit CycleCrash hebt nicht nur den Bedarf an mehr Daten in diesem Bereich hervor, sondern legt auch den Grundstein für weitere Forschungen zur Verbesserung der Sicherheit beim Radfahren für alle.

Originalquelle

Titel: CycleCrash: A Dataset of Bicycle Collision Videos for Collision Prediction and Analysis

Zusammenfassung: Self-driving research often underrepresents cyclist collisions and safety. To address this, we present CycleCrash, a novel dataset consisting of 3,000 dashcam videos with 436,347 frames that capture cyclists in a range of critical situations, from collisions to safe interactions. This dataset enables 9 different cyclist collision prediction and classification tasks focusing on potentially hazardous conditions for cyclists and is annotated with collision-related, cyclist-related, and scene-related labels. Next, we propose VidNeXt, a novel method that leverages a ConvNeXt spatial encoder and a non-stationary transformer to capture the temporal dynamics of videos for the tasks defined in our dataset. To demonstrate the effectiveness of our method and create additional baselines on CycleCrash, we apply and compare 7 models along with a detailed ablation. We release the dataset and code at https://github.com/DeSinister/CycleCrash/ .

Autoren: Nishq Poorav Desai, Ali Etemad, Michael Greenspan

Letzte Aktualisierung: 2024-10-30 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2409.19942

Quell-PDF: https://arxiv.org/pdf/2409.19942

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel