Selbstfahrende Autos mit menschenähnlicher Entscheidungsfindung voranbringen
Ein neuer Ansatz verbessert selbstfahrende Autos, indem er menschliche Denkweisen nachahmt.
― 8 min Lesedauer
Inhaltsverzeichnis
Selbstfahrende Autos machen grosse Fortschritte in der Technologie dank Verbesserungen bei Sensoren und maschinellem Lernen. Allerdings haben die aktuellen Methoden Probleme, wenn es darum geht, komplexe Situationen zu bewältigen und Ursache und Wirkung zu verstehen. Das kann es diesen Autos schwer machen, sich anzupassen und klare Entscheidungen in verschiedenen Umgebungen zu treffen.
Um diese Herausforderungen anzugehen, wurde eine neue Methode entwickelt, die sich daran orientiert, wie Menschen denken. Dieser Ansatz konzentriert sich darauf, wichtige Objekte herauszufiltern, die für Fahrentscheidungen entscheidend sind. Das hilft, die Umgebung besser zu verstehen und die Komplexität bei der Entscheidungsfindung zu reduzieren.
Dieses System hat auch einen einzigartigen Entscheidungsprozess, der zwei Denkmodi kombiniert. Ein Modus ist schnell und instinktiv, er reagiert auf unmittelbare Situationen. Der andere ist langsamer und nachdenklicher, was eine tiefere Analyse und Argumentation ermöglicht. Durch die Nutzung beider Modi kann das System aus Erfahrungen lernen und sich im Laufe der Zeit kontinuierlich verbessern.
In Tests hat sich dieser neue Ansatz als effektiver erwiesen als andere, die nur auf Kameradaten angewiesen sind. Es benötigt viel weniger markierte Daten, um zu funktionieren, was es einfacher und effizienter macht. Zudem kann das System, je mehr Erinnerungen an vergangene Erfahrungen wachsen, kontinuierlich lernen und sich anpassen, selbst bei kleinerer Modellgrösse.
Seit den frühen 2000er-Jahren gab es Bemühungen, menschliche Fahrer durch Computersysteme zu ersetzen. Im Laufe der Jahre, als die Sensortechnologie und künstliche Intelligenz besser wurden, haben selbstfahrende Fahrzeuge begonnen, auf den Markt zu kommen. Neue Erfindungen führten zu Autos mit smarten Fahrassistenzsystemen und Robotertaxis, die in Städten fahren.
Allerdings verlassen sich bestehende Methoden oft stark auf vielfältige Trainingsdaten. Diese Abhängigkeit kann zu einem Mangel an Tiefe im Verständnis komplexer Situationen führen, was zu Fehlern führt. Viele Ansätze funktionieren, indem sie Muster identifizieren, können aber keine Situationen über das hinaus deduzieren, was sie in den Trainingsdaten gesehen haben. Daher besteht ein dringender Bedarf an Systemen, die wie ein menschlicher Fahrer denken und sich anpassen können.
Jüngste Fortschritte bei grossen Sprachmodellen (LLMs) und visuell-sprachlichen Modellen (VLMs) haben das Interesse von Forschern geweckt. Diese Modelle wurden mit grossen Datensätzen trainiert, was ihnen ein gutes Verständnis der Welt und starke Argumentationsfähigkeiten gibt. Im Bereich der selbstfahrenden Autos nutzen einige Methoden diese Modelle als Fahragenten.
Allerdings testen viele dieser Systeme nur unter stabilen Bedingungen, die nicht die realen Interaktionen zwischen einem Auto und seiner Umgebung widerspiegeln. Das führt oft zu Problemen mit Reaktionsfähigkeit und Anpassungsfähigkeit.
Im Gegensatz dazu beinhaltet das Lernen zu fahren für Menschen eine kontinuierliche Interaktion mit ihrer Umgebung. Sie lernen aus Fehlern und passen ihr Verhalten basierend auf Feedback an. Menschliches Denken kann in zwei Arten unterteilt werden: Die erste ist schnell und instinktiv, sie behandelt einfache Aufgaben, während die zweite langsamer ist und tiefere Überlegungen beinhaltet, um komplexe Probleme zu lösen. Dieses duale Denkmodell ist entscheidend, um ein erfahrener Fahrer zu werden.
Um ein System zu entwickeln, das dieses menschliche Denken nachahmt, haben Forscher ein duales, geschlossenes autonomes Fahrzeugsystem geschaffen. Dieses System lernt kontinuierlich und verbessert sich, ähnlich wie Menschen sich auf kritische Elemente konzentrieren, wenn sie fahren.
Das System hat ein Modul zur Szenenverständnis, das wichtige Objekte identifiziert, die die Fahrentscheidungen beeinflussen. Basierend auf diesen Beobachtungen nutzt es einen Entscheidungsprozess mit zwei Modi, der menschliche Gedankenmuster nachahmt. Es baut auch eine Erinnerungsbank vergangener Erfahrungen auf, die auf andere Modelle übertragen werden kann und schnelles Entscheiden in verschiedenen Situationen ermöglicht.
Wenn ein Unfall passiert, kann das System analysieren, was geschehen ist und daraus lernen, um seine zukünftigen Reaktionen zu verbessern. Die Hauptinnovationen dieser Forschung umfassen:
- Einen geschlossenen Ansatz für autonomes Fahren, der menschliche Aufmerksamkeit auf entscheidende Fahrfaktoren widerspiegelt.
- Ein duales Entscheidungsfindungssystem, das schnelle, instinktive Reaktionen und sorgfältiges Denken erlaubt, wobei der schnellere Prozess vom langsameren lernen kann.
- Eine Erinnerungsbank, die dem System hilft, hochwertige Fahrerlebnisse im Laufe der Zeit zu sammeln und zu nutzen.
Umfangreiche Tests in einem Fahrsimulator zeigen, dass dieses neue System andere Methoden übertrifft, die nur auf Kameradaten basieren, und das mit viel weniger markierten Daten.
Verwandte Arbeiten im autonomen Fahren
Jüngste Entwicklungen bei visuell-sprachlichen Modellen (VLMs) haben neue Werkzeuge für das Verständnis von Fahrumgebungen bereitgestellt. Diese VLMs helfen Maschinen, Szenen besser zu verstehen, was wiederum das autonome Fahren unterstützt.
Darüber hinaus haben sich grosse Basis-Modelle als vielversprechend für die Verbesserung der Technologien für autonomes Fahren erwiesen. Sie sind in der Lage, grosse Datenmengen zu verarbeiten und durch komplexe Szenarien zu argumentieren. Verschiedene Benchmarks wurden erstellt, um zu bewerten, wie gut diese Systeme Fahrbedingungen verstehen.
Einige Ansätze nutzen LLMs, um Entscheidungen basierend auf menschlichen Anweisungen in einer simulierten Umgebung zu generieren. Andere kombinieren Modelle mit Planungssystemen. Dennoch kommen viele Methoden immer noch nicht gut damit zurecht, zu bewerten, wie gut ein System sich an reale Bedingungen anpassen kann.
Menschliche Fahrer lernen natürlicherweise, ihr Verhalten basierend auf ihren Erfahrungen anzupassen, was aktuelle Modelle nicht effektiv tun. Das hebt die Notwendigkeit hervor, wissensbasierte Systeme zu entwickeln, die mehr wie menschliche Fahrer handeln können.
Da Basis-Modelle fortschrittlicher geworden sind, haben sie grosses Potenzial in Aufgaben gezeigt, die Verständnis und Entscheidungsfindung erfordern. Das hat das Interesse an der Entwicklung von Systemen geweckt, die menschliche Denkprozesse nachahmen, um die Leistung in selbstfahrenden Autos zu verbessern.
Unser vorgeschlagener Ansatz besteht aus drei Hauptkomponenten: dem VLM, das Szenen versteht, dem dualen Entscheidungsfindungssystem und dem Aktionsausführer, der das Fahrzeug steuert. Diese Komponenten arbeiten zusammen in einem Simulator, um auf Fahrsituationen zu reagieren.
Das VLM verarbeitet Bilder aus der Umgebung und identifiziert wichtige Objekte. Diese Informationen werden dann vom Entscheidungsmodul verwendet, um Fahrentscheidungen zu generieren. Die aus diesen Entscheidungen abgeleiteten Aktionen werden in Steuersignale umgewandelt, die das Fahrzeug leiten.
In geschlossenen Umgebungen wird das leichte Modell für schnelle Entscheidungen genutzt, während das System bei Unfällen reflektiert, um sich im Laufe der Zeit zu verbessern. Wenn ein Unfall passiert, analysiert das System, was schiefgelaufen ist, und aktualisiert seine Erinnerungsbank mit den korrigierten Erfahrungen, was ein kontinuierliches Lernen ermöglicht.
Szenenverständnis
Um die Fahrzeugsicherheit zu erhöhen, muss ein System sich auf kritische Informationen konzentrieren, um den Fahrer nicht mit Daten zu überfluten. Durch die Konzentration auf wichtige Objekte rund um ein Fahrzeug kann es effektiver reagieren und die Wahrscheinlichkeit von Unfällen reduzieren.
Das Modul zum Szenenverständnis ist darauf ausgelegt, wichtige Objekte zu identifizieren, die die Fahrentscheidungen beeinflussen könnten. Diese Objekte werden nach ihren Merkmalen beschrieben, wie Kategorie, Position, Bewegung und möglichen Risiken. Das hilft dem System, ein klareres Bild davon zu bekommen, was in der Umgebung passiert, was zu sichererem Fahren führt.
Für jede Fahrszene umfassen die Beschreibungen der wichtigen Objekte:
- Kategorie - Klassifiziert Objekte wie Fahrzeuge und Verkehrsschilder.
- Position - Gibt an, wo sich das Objekt im Verhältnis zum Fahrzeug befindet.
- Bewegung - Beschreibt die Richtung, in die sich das Objekt bewegt.
- Begründung - Erklärt, warum das Objekt für Fahrentscheidungen wichtig ist.
Durch die Konzentration auf diese Beschreibungen kann das System ein besseres Verständnis seiner Umgebung erreichen und angemessen reagieren.
Reflexionsmechanismus
Wenn das System auf einen Unfall trifft, nutzt es einen Reflexionsmechanismus, um aus vergangenen Fehlern zu lernen. Durch die Analyse von Daten aus früheren Bildern kann es Fehler identifizieren und seine zukünftige Entscheidungsfindung verbessern.
Während dieses Reflexionsprozesses bewertet das System sein früheres Denken und seine Entscheidungen und bestimmt, wo es möglicherweise falsch lag. Diese Feedbackschleife hilft dem System, im Laufe der Zeit zu lernen und sich anzupassen.
Experimente in einer geschlossenen Umgebung zeigen, dass diese Reflexionsfähigkeit die Leistung verbessert, sodass das System effektiver in verschiedenen Fahrsituationen wird.
Implementierung
Das System verwendet mehrere fortschrittliche Modelle für das Szenenverständnis und die Entscheidungsfindung. Durch die Kombination dieser Modelle kann es ein hohes Leistungsniveau erreichen und gleichzeitig kontinuierlich aus Erfahrungen lernen.
Die implementierten Modelle verwenden verschiedene Trainingstechniken, um ihre Fähigkeit zur genauen Reaktion auf Fahrszenarien zu verfeinern. Während des Trainings nutzt das System mehrere Datensätze, die Details über kritische Objekte enthalten, um sein Verständnis der Fahrumgebungen zu verbessern.
Ergebnisse der Tests
Der vorgeschlagene Ansatz wurde umfassend in einem Fahrsimulator getestet, um seine Effektivität zu bewerten. Wichtige Kennzahlen wie Fahrwertung, Routenabschluss und Sicherheit werden verwendet, um die Leistung zu beurteilen. Die Ergebnisse zeigen, dass das System andere Methoden übertrifft, die ausschliesslich auf Kameraeingaben angewiesen sind, und beweist damit seine Effizienz.
Darüber hinaus zeigt das System Anpassungsfähigkeit in verschiedenen Fahrsituationen, selbst wenn es mit unbekannten Umgebungen konfrontiert wird. Durch die Nutzung einer Erinnerungsbank vergangener Erfahrungen kann es schnelle und relevante Entscheidungen treffen.
Fazit
Zusammenfassend zeigt dieses duale, geschlossene autonome Fahrzeugsystem grosses Potenzial für die Zukunft der selbstfahrenden Technologie. Indem es menschliche Aufmerksamkeit und kognitive Prozesse spiegelt, gelingt es, kritische Elemente zu identifizieren, die Fahrentscheidungen beeinflussen, und den Entscheidungsfindungsprozess zu vereinfachen.
Dieses System lernt kontinuierlich aus seinen Erfahrungen und speichert wertvolles Wissen in einer Erinnerungsbank. Der Reflexionsmechanismus verbessert weiter seine Fähigkeit, sich im Laufe der Zeit zu entwickeln und ein robustes Rahmenwerk für sichere und effektive selbstfahrende Autos zu schaffen.
Da die Technologie weiterhin fortschreitet, könnte die Integration solcher Systeme in intelligente Fahrzeuge alltäglich werden und das Fahren für alle sicherer und effizienter machen.
Titel: Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving
Zusammenfassung: Autonomous driving has advanced significantly due to sensors, machine learning, and artificial intelligence improvements. However, prevailing methods struggle with intricate scenarios and causal relationships, hindering adaptability and interpretability in varied environments. To address the above problems, we introduce LeapAD, a novel paradigm for autonomous driving inspired by the human cognitive process. Specifically, LeapAD emulates human attention by selecting critical objects relevant to driving decisions, simplifying environmental interpretation, and mitigating decision-making complexities. Additionally, LeapAD incorporates an innovative dual-process decision-making module, which consists of an Analytic Process (System-II) for thorough analysis and reasoning, along with a Heuristic Process (System-I) for swift and empirical processing. The Analytic Process leverages its logical reasoning to accumulate linguistic driving experience, which is then transferred to the Heuristic Process by supervised fine-tuning. Through reflection mechanisms and a growing memory bank, LeapAD continuously improves itself from past mistakes in a closed-loop environment. Closed-loop testing in CARLA shows that LeapAD outperforms all methods relying solely on camera input, requiring 1-2 orders of magnitude less labeled data. Experiments also demonstrate that as the memory bank expands, the Heuristic Process with only 1.8B parameters can inherit the knowledge from a GPT-4 powered Analytic Process and achieve continuous performance improvement. Project page: https://pjlab-adg.github.io/LeapAD.
Autoren: Jianbiao Mei, Yukai Ma, Xuemeng Yang, Licheng Wen, Xinyu Cai, Xin Li, Daocheng Fu, Bo Zhang, Pinlong Cai, Min Dou, Botian Shi, Liang He, Yong Liu, Yu Qiao
Letzte Aktualisierung: 2024-10-25 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2405.15324
Quell-PDF: https://arxiv.org/pdf/2405.15324
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.