Bewertung von KI in der Sicherheit autonomer Fahrzeuge
Die Bewertung grosser Sprachmodelle zur Verbesserung der Verkehrssicherheit in selbstfahrenden Autos.
― 5 min Lesedauer
Inhaltsverzeichnis
Strassensicherheit ist weltweit ein grosses Thema. Jedes Jahr sterben eine Million Menschen bei Verkehrsunfällen, und viele erleiden schwere Verletzungen. Autonome Fahrzeuge (AVs) gelten als eine Möglichkeit, die Sicherheit auf den Strassen zu verbessern. In den letzten Jahren gab es viele Fortschritte in der Technologie hinter selbstfahrenden Autos. Einige Städte testen sogar Robotaxi-Dienste. Trotzdem stehen AVs noch vor vielen Herausforderungen, wie dem Umgang mit unerwarteten Situationen und komplexen Fahrbedingungen.
Die Rolle von grossen Sprachmodellen
Grosse Sprachmodelle (LLMs) sind Computerprogramme, die menschlichen Text verstehen und generieren können. Sie haben das Potenzial, die Entscheidungsfindung von AVs auf der Strasse zu verbessern. Mithilfe von LLMs können AVs besser mit kniffligen Situationen umgehen, die nicht alltäglich sind. Das ist wichtig, weil AVs zuverlässig und sicher sein müssen.
Die Idee ist, LLMs an entfernten Orten zu nutzen, wie etwa Cloud-Servern, und nicht nur im Auto selbst. So kann ein vernetztes autonomes Fahrzeug (CAV), wenn es Hilfe braucht, eine Nachricht an ein LLM senden, das dann Informationen oder Vorschläge gibt. Diese Unterstützung könnte entscheidend sein, um schnelle und sichere Entscheidungen unter schwierigen Fahrbedingungen zu treffen.
Testen des Fahrwissens
Ein grosses Anliegen ist, ob LLMs die Verkehrsregeln und -konzepte wirklich verstehen. Genau wie menschliche Fahrer eine theoretische Prüfung bestehen müssen, um sicher fahren zu können, sollten auch LLMs auf ihr Wissen über Fahrtheorien und -fähigkeiten getestet werden. In diesem Papier wird eine Methode vorgestellt, um LLMs basierend auf dem britischen Fahrtheorie-Test zu testen.
Indem Fragen ausgewählt werden, die den in offiziellen Fahrprüfungen vorkommenden ähnlich sind, können Forscher beurteilen, wie gut die LLMs abschneiden. Die Tests umfassen Multiple-Choice-Fragen zu verschiedenen Themen wie Verkehrsschildern, Regeln und sicherem Fahrverhalten. Die Ergebnisse dieser Tests helfen zu bestimmen, ob LLMs bereit sind, CAVs in realen Situationen zu unterstützen.
Experimentaufbau
Um das Wissen verschiedener LLMs zu prüfen, sammelten Forscher über 500 fahrzeugbezogene Fragen. Diese Fragen wurden in zwei Gruppen unterteilt: eine mit Bildern, wie Fotos von Verkehrsschildern, und eine ohne Bilder.
Es wurden mehrere LLMs getestet:
- OpenAI's GPT-3.5
- OpenAI's GPT-4
- Baidu's Ernie
- Alibaba’s Qwen
- Zwei Open-Source-Modelle: MiniCPM-2B und MiniCPM-Llama3-V2.5
Das Hauptziel war herauszufinden, welche Modelle die Fragen korrekt beantworten konnten und Unterschiede in Leistung und Kosten zu notieren.
Ergebnisse der Tests
Die Ergebnisse zeigten, dass nicht alle Modelle gleich gut abschnitten.
- GPT-4: Dieses Modell erzielte eine hohe Genauigkeit von 95% im Fahrtheorie-Test. Es bestand die Prüfung und zeigte ein starkes Verständnis für Fahrkonzepte.
- GPT-3.5: Dieses Modell erreichte nur 79% der richtigen Antworten, was unter der Bestehensgrenze von 86% liegt.
- Ernie: Dieses Modell schnitt besser ab als GPT-3.5 mit 85%, fiel aber trotzdem durch.
- Qwen: Es erzielte 60%, und MiniCPM-2B schnitt noch schlechter mit nur 57%.
- Bei Fragen mit Bildern erzielte GPT-4o 96% und zeigte ein ausgezeichnetes Verständnis für visuelle Informationen. Währenddessen erreichte MiniCPM-Llama3-V2.5 72%.
Diese Ergebnisse zeigen, dass einige LLMs in der Lage sind, Fragen zur Fahrtheorie gut zu beantworten, während andere nicht die notwendigen Standards erfüllen, um CAVs sicher zu unterstützen.
Kosten der Nutzung von LLMs
Ein weiterer wichtiger Faktor sind die Kosten für die Nutzung dieser Modelle. GPT-4 ist erheblich teurer als GPT-3.5. Das bedeutet, dass während GPT-4 bessere Genauigkeit bietet, es möglicherweise nicht die beste Wahl für alle Anwendungen ist, besonders wenn man das Budget berücksichtigt.
Die durchschnittliche Zeit, die jedes Modell benötigt, um eine Frage zu beantworten, variiert ebenfalls. Zum Beispiel benötigte GPT-3.5 etwa 0,7 Sekunden pro Frage, während GPT-4 0,9 Sekunden dauerte und GPT-4o etwa 3,4 Sekunden benötigte. Modelle wie MiniCPM-2B benötigten weniger als 0,4 Sekunden, was sie für Echtzeitanwendungen viel schneller macht.
Herausforderungen und Risiken
Während die Nutzung von LLMs für CAVs viele Vorteile bieten kann, müssen einige Herausforderungen angegangen werden. Die Technologie entwickelt sich noch und es müssen verschiedene Risiken gemanagt werden.
Zuerst, CAVs arbeiten in sicherheitssensitiven Umgebungen. Die Zeit, die ein LLM benötigt, um eine Anfrage zu verarbeiten, könnte die Fähigkeit des Fahrzeugs beeinflussen, schnell auf Notfälle zu reagieren. Wenn ein AV in einer gefährlichen Situation ist, zählt jede Sekunde.
Zweitens produzieren LLMs manchmal falsche oder irreführende Informationen, bekannt als "Halluzinationen". Dies kann Sicherheitsrisiken darstellen, da ein Fahrer oder das Fahrzeug selbst auf fehlerhaften Informationen reagieren könnte.
Schliesslich müssen menschliche Fahrer strenge Tests bestehen, um ihre Fahrerlaubnis zu erhalten. Ähnliche Standards sollten auch auf LLMs angewendet werden, bevor sie beim Fahren unterstützen dürfen. Es ist wichtig sicherzustellen, dass diese Modelle zuverlässig genaue und sichere Anleitungen geben können.
Zukünftige Richtungen
Die laufende Forschung zielt darauf ab, LLMs zu verbessern und ihr Wissen über das Fahren weiter zu bewerten. Durch kontinuierliches Testen mehrerer Modelle und Verbesserung ihrer Fähigkeiten hoffen wir, eine sicherere Umgebung für CAVs zu schaffen.
Zukünftige Studien werden bewerten, wie gut LLMs mit realen Fahrszenarien umgehen können, einschliesslich theoretischer und praktischer Tests. Durch das Sammeln weiterer Daten und das Verfeinern dieser Modelle können wir darauf hinarbeiten, sicherzustellen, dass sie so zuverlässig und sicher sind wie menschliche Fahrer.
Fazit
LLMs haben das Potenzial, vernetzten autonomen Fahrzeugen erheblich bei der Verbesserung der Strassensicherheit zu helfen. Sie können Fahrzeugen helfen, in komplizierten Situationen bessere Entscheidungen zu treffen. Es ist jedoch entscheidend sicherzustellen, dass diese Modelle gut getestet und genau in ihrem Verständnis von Fahrprinzipien sind.
Während einige Modelle, wie GPT-4, vielversprechende Ergebnisse zeigen, gibt es immer noch viele Herausforderungen zu bewältigen. Ein ausgewogenes Verhältnis zwischen Kosten und Leistung dieser Modelle wird entscheidend sein, um sie zu einer praktikablen Option für die Unterstützung beim Fahren in der realen Welt zu machen.
Insgesamt wird die laufende Forschung dazu beitragen, die Rolle von LLMs bei der Gestaltung der Zukunft des autonomen Fahrens zu klären und die Strassen für alle sicherer zu machen.
Titel: Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles
Zusammenfassung: Handling long tail corner cases is a major challenge faced by autonomous vehicles (AVs). While large language models (LLMs) hold great potentials to handle the corner cases with excellent generalization and explanation capabilities and received increasing research interest on application to autonomous driving, there are still technical barriers to be tackled, such as strict model performance and huge computing resource requirements of LLMs. In this paper, we investigate a new approach of applying remote or edge LLMs to support autonomous driving. A key issue for such LLM assisted driving system is the assessment of LLMs on their understanding of driving theory and skills, ensuring they are qualified to undertake safety critical driving assistance tasks for CAVs. We design and run driving theory tests for several proprietary LLM models (OpenAI GPT models, Baidu Ernie and Ali QWen) and open-source LLM models (Tsinghua MiniCPM-2B and MiniCPM-Llama3-V2.5) with more than 500 multiple-choices theory test questions. Model accuracy, cost and processing latency are measured from the experiments. Experiment results show that while model GPT-4 passes the test with improved domain knowledge and Ernie has an accuracy of 85% (just below the 86% passing threshold), other LLM models including GPT-3.5 fail the test. For the test questions with images, the multimodal model GPT4-o has an excellent accuracy result of 96%, and the MiniCPM-Llama3-V2.5 achieves an accuracy of 76%. While GPT-4 holds stronger potential for CAV driving assistance applications, the cost of using model GPT4 is much higher, almost 50 times of that of using GPT3.5. The results can help make decision on the use of the existing LLMs for CAV applications and balancing on the model performance and cost.
Autoren: Zuoyin Tang, Jianhua He, Dashuai Pei, Kezhong Liu, Tao Gao
Letzte Aktualisierung: 2024-07-24 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.17211
Quell-PDF: https://arxiv.org/pdf/2407.17211
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://openai.com/
- https://www.drivinginstructorwebsites.co.uk/uk-driving-theory-test-practice-questions-and-answers
- https://openai.com/api/pricing/
- https://github.com/QwenLM/Qwen
- https://www.alibabacloud.com/en/solutions/generative-ai/qwen
- https://research.baidu.com/Blog/index-view?id=183
- https://github.com/OpenBMB/MiniCPM/blob/main/README-en.md