Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften # Computer Vision und Mustererkennung # Künstliche Intelligenz

Anerkennung von ablenkendem Fahrverhalten mit KI

Ein System, das ablenkende Fahraktionen mit fortschrittlicher Videoanalyse erkennt.

Quang Vinh Nguyen, Vo Hoang Thanh Son, Chau Truong Vinh Hoang, Duc Duy Nguyen, Nhat Huy Nguyen Minh, Soo-Hyung Kim

― 9 min Lesedauer


KI zur Erkennung von KI zur Erkennung von abgelenkten Fahrern Videoanalyse. ablenkenden Fahrverhalten mit Ein System zur Identifizierung von
Inhaltsverzeichnis

Ablenkung beim Fahren ist wie jonglieren auf einem Einrad – nicht die beste Idee. In den USA verlieren jedes Jahr über 3.500 Menschen ihr Leben, weil Fahrer den Blick von der Strasse abwenden, um auf ihr Handy zu schauen, Burger zu essen oder mit dem GPS zu streiten. Das klingt nach einer Menge Unfälle, die durch Ablenkung verursacht werden, und da habt ihr recht. Deshalb tauchen Forscher in die Welt der natürlichen Fahrvideos ein, um zu sehen, wie sich Fahrer verhalten, wenn sie nicht voll konzentriert sind. Sie haben herausgefunden, dass Deep Learning helfen kann, riskantes Verhalten in Echtzeit zu identifizieren.

Ein spannender Wettbewerb da draussen ist die AI City Challenge 2024, wo schlau Köpfe zusammenkommen, um ablenkendes Fahrverhalten zu erkennen. Die Herausforderung nutzt synthetische Videos, die von drei verschiedenen Kameras im Auto aufgenommen wurden. Das Ziel? Ablenkende Verhaltensweisen wie das Tippen auf dem Handy oder das Greifen nach etwas auf dem Rücksitz zu erkennen, bevor es schiefgeht.

Herausforderungen bei der Aktionsanerkennung

Leider ist es nicht so einfach, ablenkendes Fahren zu erkennen. Es gibt eine Menge Forschung zu diesem Thema, und während viele Methoden ziemlich gut funktionieren, sind sie nicht perfekt. Das erste Problem ist, dass der Datensatz nur 16 Verhaltenskategorien hat, was nicht gerade vielfältig ist. Es ist wie ein Smoothie, der nur aus einer Obstsorte besteht – ein bisschen langweilig, oder? Das zweite Problem ist, dass die Modelle lernen müssen, Aktionen aus verschiedenen Kamerawinkeln zu erkennen, was knifflig sein kann. Manchmal ist es schwer, den Unterschied zwischen ähnlichen, aber nicht identischen Aktionen zu erkennen.

Ausserdem haben Modelle manchmal Schwierigkeiten, wenn sie versuchen, Ähnlichkeiten in der Visualisierung von Aktionen zu nutzen. Sie werden verwirrt und können die Aktionen durcheinanderbringen, wie wenn man versehentlich Salz statt Zucker für den Kaffee greift.

Zuletzt verlassen sich die meisten Modelle zu sehr auf das, was sie für die richtige Antwort halten, basierend auf Wahrscheinlichkeitswerten, was zu falschen Entscheidungen führen kann, wenn die Werte nah beieinander liegen. Es ist wie die Wahl zwischen zwei identischen Zwillingen – sie sehen so ähnlich aus, dass es verwirrend ist.

Unser Ansatz

Um diese Herausforderungen anzugehen, haben wir ein dreiteiliges System entwickelt, um ablenkendes Fahrverhalten zu erkennen. Zuerst haben wir ein selbstüberwachtes Lernmodell verwendet, das sich fancy anhört, aber im Grunde bedeutet, dass es Muster aus den Daten selbst lernt, ohne einen Lehrer zu brauchen. Dieses Modell kann ablenkendes Verhalten aus Videos erkennen, die Fahrer unter natürlichen Bedingungen zeigen.

Als Nächstes haben wir eine Ensemble-Strategie entwickelt, die Informationen aus den drei Kameraperspektiven kombiniert, um genauere Vorhersagen zu treffen. Denkt daran wie ein Puzzle – jede Kameraperspektive gibt ein anderes Puzzlestück und wenn man sie alle zusammenfügt, hat man ein klareres Bild davon, was passiert.

Schliesslich haben wir einen bedingten Nachbearbeitungsschritt hinzugefügt, um die Ergebnisse weiter zu verfeinern. Dieser Teil überprüft die Vorhersagen genauer und hilft uns, die Aktionen und deren Zeitrahmen präziser zu finden.

Aktionsanerkennung: So funktioniert's

Aktionsanerkennung dreht sich darum, herauszufinden, was in einem Video passiert. Man kann es sich vorstellen, als würde man jedem Clip basierend auf den Aktivitäten, die wir sehen, Labels zuordnen. Forscher haben hart gearbeitet, um die Methoden für diese Aufgabe im Laufe der Jahre zu verbessern. Sie konzentrieren sich hauptsächlich darauf, Deep Learning-Tools zu verwenden, um Videos zu klassifizieren, was viel damit zu tun hat, einem Computer beizubringen, zu verstehen und zu kategorisieren, was er sieht.

Im Laufe der Zeit kamen verschiedene Ansätze ins Spiel. Einige Methoden konzentrieren sich auf die Analyse einzelner Frames, während andere versuchen, festzuhalten, wie sich Dinge über die Zeit ändern. Kürzlich haben fortschrittliche Modelle, die etwas namens Transformers verwenden, an Beliebtheit gewonnen, da sie Videodaten auf intelligente Weise verarbeiten können.

Den zeitlichen Aktionslokalisierungsaspekt kennenlernen

Kommen wir zu einem weiteren wichtigen Aspekt: der zeitlichen Aktionslokalisierung. Dieser coole Begriff bezieht sich darauf, herauszufinden, wann eine Aktion in einem Video passiert und wie lange sie dauert. Man könnte es sich vorstellen, als wäre man in der Lage, den genauen Moment in einem Film zu bestimmen, wenn jemand sein Getränk verschüttet – das macht die zeitliche Aktionslokalisierung.

Traditionell schlug eine Methode vor, zuerst Aktionssegmente zu definieren und dann zu identifizieren, zu welcher Kategorie jedes Segment gehörte. Aber das kann einschränkend sein, da es davon ausgeht, dass die Grenzen der Aktion während der Klassifizierung unverändert bleiben.

Neuere Methoden kombinieren die Identifizierung und die Lokalisierung in einem einzigen Schritt. Das beseitigt das Problem mit festen Grenzen und bietet einen flüssigeren Prozess. Mehrere Studien haben diese Methode kürzlich übernommen und verwenden fortschrittlichere Technologien wie Transformers, um Videodarstellungen zu extrahieren.

Das System zur Erkennung von abgelenkten Fahrern

Unser System zur Erkennung von abgelenktem Fahrverhalten hat drei Hauptkomponenten: Aktionsanerkennung, Ensemble-Strategie und bedingte Nachbearbeitung.

Aktionsanerkennung

Um loszulegen, verwenden wir ein Aktionsanerkennungsmodell, das auf selbstüberwachtem Lernen basiert. Dieses Modell analysiert kurze Videos von Fahrern und identifiziert ablenkende Verhaltensweisen. Wir sammeln Videomaterial mit Fahrern, die verschiedene ablenkende Aktivitäten ausführen, wie zum Beispiel ein Selfie machen, Snacks essen oder nach etwas auf dem Rücksitz greifen, was zu Problemen führen kann.

Multi-View Ensemble-Strategie

Der nächste Teil unseres Systems beschäftigt sich mit der Kombination von Vorhersagen aus verschiedenen Kameraperspektiven. Das ist entscheidend, da unterschiedliche Winkel unterschiedliche Einsichten bieten können. Zum Beispiel erfasst die Armaturenbrettkamera das Gesicht des Fahrers, während die Rück- und rechte Seitenkamera andere Winkel anbieten und unterschiedliche Aktionen zeigen.

Durch die Kombination der Vorhersagen können wir ein vollständigeres Bild davon bekommen, was vor sich geht, was die Genauigkeit verbessert. Es ist wie wenn ein paar Freunde dir helfen, einen Prominenten in einem überfüllten Raum zu erkennen – jeder von ihnen könnte etwas sehen, das du verpasst hast!

Bedingte Nachbearbeitung

Schliesslich haben wir unsere Schritte zur bedingten Nachbearbeitung. Dieser Teil sorgt dafür, dass wir Aktionen genau identifizieren und bestimmen, wann sie in den Videos auftreten. So funktioniert es:

  1. Bedingtes Merging: Dieser Schritt schaut sich die wahrscheinlichsten Aktionsklassen an und fasst ähnliche zusammen, um das Rauschen durch falsche Vorhersagen herauszufiltern. Es ist, als wäre es ein cooler Türsteher im Club, der entscheidet, wer rein darf und wer nicht, basierend auf dem Outfit – nur die besten Vorhersagen kommen rein.

  2. Bedingte Entscheidung: Dieser Schritt dreht sich darum, die zuverlässigsten Zeitsegmente aus verschiedenen Vorhersagen der gleichen Klasse auszuwählen. Wenn zum Beispiel zwei Segmente darauf hinweisen, dass jemand nach hinten greift, werden ihre Stärken kombiniert, um den genauesten Zeitrahmen zu erstellen.

  3. Wiederherstellung fehlender Labels: Manchmal werden einige Aktionen nicht ausreichend erkannt. Dieser Schritt sucht nach den fehlenden Labels und versucht, sie wiederherzustellen, damit wir eine vollständige Vorhersage über alle 16 Aktionsklassen haben.

Datensätze und Evaluation

Unser Evaluierungsprozess basiert auf einem Datensatz voller Aufnahmen von 99 verschiedenen Fahrern. Jeder Fahrer wird dabei gefilmt, wie er 16 ablenkende Aktivitäten ausführt, wobei die Aufnahmen sowohl abgelenktes als auch nicht abgelenktes Fahren festhalten. Die Verwendung mehrerer Kameraperspektiven bietet einen umfassenden Blick auf jede Fahrstunde und hilft den Forschern, verschiedene ablenkende Faktoren zu erkennen.

Die AI City Challenge teilt die Daten in zwei Teile: ein Trainingsset und ein Testset. Das Trainingsset enthält "A1" mit den tatsächlichen Labels, während das Testset "A2" zur Leistungsbewertung dient.

Genauigkeitsmessungen

Um zu bestimmen, wie gut unsere Modelle funktionieren, verwenden wir verschiedene Metriken. Bei der Aktionsanerkennung überprüfen wir die Genauigkeit, indem wir die vorhergesagten Labels mit den tatsächlichen Labels vergleichen. Höhere Genauigkeit bedeutet, dass wir bessere Arbeit geleistet haben.

Für die zeitliche Aktionslokalisierung messen wir, wie gut die vorhergesagten Zeitsegmente mit den tatsächlichen Segmenten übereinstimmen, was uns ein Gefühl dafür gibt, wie genau wir die Aktionen lokalisieren.

Implementierungsdetails

Wir haben das PyTorch-Framework verwendet, um unsere Modelle zu erstellen. Dieses Open-Source-Tool ist bei Forschern wegen seiner Flexibilität und Benutzerfreundlichkeit beliebt. Für unsere Experimente benötigten wir ernsthafte Hardware mit zwei leistungsstarken RTX 3090 Grafikkarten.

Während des Trainings haben wir unser Modell angepasst und optimiert, um die bestmöglichen Ergebnisse zu erzielen. Indem wir jedes Eingabevideo auf eine Serie von kurzen 64-Frame-Clips gekürzt haben, speisten wir sie in unser Modell und optimierten über 20 Epochen für jede Kameraperspektive.

Ergebnisse

Als wir die Daten analysierten, entdeckten wir, dass unterschiedliche Kameraperspektiven verschiedene Vorteile für verschiedene Klassen bieten. Zum Beispiel hatte die rechte Seitenansicht grosse Erfolge beim Erkennen von Aktionen wie "Panel steuern" oder "vom Boden aufheben". Die Armaturenbrettansicht war grossartig, um Aktionen wie "trinken" und "essen" zu identifizieren, während die Rückansicht auch für einige Aktionen gut war.

Durch die Kombination all dieser Informationen sahen wir Verbesserungen in der Erkennungsgenauigkeit, die Modelle, die nur eine Kameraperspektive verwendeten, hinter sich liessen. Die Kombination ist entscheidend, da wir festgestellt haben, dass selbst die besten individuellen Kameraperspektiven alleine nicht ausreichten.

In der öffentlichen Rangliste der AI City Challenge belegte unsere Methode den sechsten Platz für die zeitliche Aktionslokalisierung mit beeindruckenden Ergebnissen. Wir konnten viele Wettbewerber übertreffen und blieben den besten Methoden nahe.

Fazit

Zusammengefasst haben wir ein bedingtes Erkennungssystem geschaffen, um die Lokalisierung von ablenktem Fahrverhalten anzugehen. Durch die Verwendung eines Modells, das aus den Daten selbst lernt, das Kombinieren von Einsichten aus mehreren Kameraperspektiven und das Verfeinern unserer Vorhersagen über Schritte zur bedingten Nachbearbeitung, haben wir solide Ergebnisse erzielt. Unser Ansatz hat nicht nur die Genauigkeit verbessert, sondern auch einen bedeutenden Schritt im Verständnis von ablenkendem Fahren markiert.

Am Ende könnten wir auf dem richtigen Weg sein, um sicherere Strassen zu gewährleisten, indem wir die Anzeichen ablenkenden Fahrens erkennen, bevor es zu Problemen kommt. Wenn es um Technologie geht, sind wir immer bereit für die nächste Herausforderung, und wer weiss, was wir als Nächstes in der Welt der Fahrzeugsicherheit entdecken werden!

Originalquelle

Titel: Rethinking Top Probability from Multi-view for Distracted Driver Behaviour Localization

Zusammenfassung: Naturalistic driving action localization task aims to recognize and comprehend human behaviors and actions from video data captured during real-world driving scenarios. Previous studies have shown great action localization performance by applying a recognition model followed by probability-based post-processing. Nevertheless, the probabilities provided by the recognition model frequently contain confused information causing challenge for post-processing. In this work, we adopt an action recognition model based on self-supervise learning to detect distracted activities and give potential action probabilities. Subsequently, a constraint ensemble strategy takes advantages of multi-camera views to provide robust predictions. Finally, we introduce a conditional post-processing operation to locate distracted behaviours and action temporal boundaries precisely. Experimenting on test set A2, our method obtains the sixth position on the public leaderboard of track 3 of the 2024 AI City Challenge.

Autoren: Quang Vinh Nguyen, Vo Hoang Thanh Son, Chau Truong Vinh Hoang, Duc Duy Nguyen, Nhat Huy Nguyen Minh, Soo-Hyung Kim

Letzte Aktualisierung: 2024-11-19 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2411.12525

Quell-PDF: https://arxiv.org/pdf/2411.12525

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel