Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle# Architecture des réseaux et de l'Internet# Robotique

Évaluer l'IA dans la sécurité des véhicules autonomes

Évaluer de grands modèles de langage pour améliorer la sécurité routière des voitures autonomes.

― 7 min lire


Évaluer l'IA pour laÉvaluer l'IA pour lasécurité routièrela sécurité des voitures autonomes.Tester des modèles d'IA pour améliorer
Table des matières

La sécurité routière est un gros sujet partout dans le monde. Chaque année, un million de personnes meurent dans des accidents de la route, et beaucoup d'autres souffrent de blessures graves. Les véhicules autonomes (VA) sont vus comme une solution pour améliorer la sécurité sur les routes. Au cours des dernières années, il y a eu beaucoup de progrès dans la technologie des voitures autonomes. Certaines villes testent même des services de robotaxi. Pourtant, les VA doivent encore faire face à pas mal de défis, comme gérer des situations imprévues et des scénarios de conduite complexes.

Le Rôle des Grands Modèles de Langue

Les grands modèles de langue (GML) sont des programmes informatiques capables de comprendre et de générer un texte semblable à celui des humains. Ils ont le potentiel d'améliorer la manière dont les VA prennent des décisions sur la route. En utilisant des GML, les VA peuvent mieux gérer des situations délicates qui ne sont pas courantes. C'est important parce que les VA doivent être fiables et sûrs.

L'idée est d'utiliser des GML dans des endroits éloignés, comme des serveurs cloud, plutôt que juste dans la voiture elle-même. Ainsi, quand un véhicule autonome connecté (VAC) a besoin d'aide, il peut envoyer un message à un GML qui fournit ensuite des infos ou des conseils. Ce soutien pourrait être crucial pour prendre des décisions rapides et sûres dans des conditions de conduite difficiles.

Tester les Connaissances en Conduite

Une grande préoccupation est de savoir si les GML comprennent vraiment les règles et concepts de conduite. Tout comme les conducteurs humains doivent passer un test théorique pour conduire en toute sécurité, les GML devraient aussi être testés sur leurs connaissances des théories et compétences de conduite. Cet article discute d'une méthode pour tester les GML basée sur le test théorique de conduite au Royaume-Uni.

En choisissant des questions similaires à celles des tests de conduite officiels, les chercheurs peuvent évaluer la performance des GML. Les tests comprennent des questions à choix multiples couvrant divers sujets comme les panneaux de signalisation, les règles et les pratiques de conduite sécuritaire. Les résultats de ces tests aident à déterminer si les GML sont prêts à assister les VAC dans des situations réelles.

Mise en Place de l'Expérience

Pour examiner les connaissances de différents GML, les chercheurs ont collecté plus de 500 questions liées à la conduite. Ces questions ont été divisées en deux groupes : un ensemble avec des images, comme des photos de panneaux, et un autre sans images.

Plusieurs GML ont été testés :

  1. GPT-3.5 d’OpenAI
  2. GPT-4 d’OpenAI
  3. Ernie de Baidu
  4. Qwen d’Alibaba
  5. Deux modèles open-source : MiniCPM-2B et MiniCPM-Llama3-V2.5

L'objectif principal était de voir quels modèles pouvaient répondre correctement aux questions et de noter les différences de performance et de coût.

Résultats des Tests

Les résultats ont montré que tous les modèles n'ont pas performé de la même manière.

  1. GPT-4 : Ce modèle a obtenu une haute précision de 95% au test théorique de conduite. Il a réussi l'examen, montrant une bonne compréhension des concepts de conduite.
  2. GPT-3.5 : Ce modèle n'a eu que 79% de bonnes réponses, ce qui est en dessous de la note minimale de 86%.
  3. Ernie : Ce modèle a mieux performé que GPT-3.5, avec 85%, mais n'a toujours pas passé.
  4. Qwen : Il a obtenu 60%, et MiniCPM-2B a fait encore plus mal avec seulement 57%.
  5. Pour les questions avec images, GPT-4o a eu 96%, montrant une excellente compréhension de l'information visuelle. Pendant ce temps, MiniCPM-Llama3-V2.5 a eu 72%.

Ces résultats indiquent que bien que certains GML soient capables de bien gérer des questions de théorie de conduite, d'autres ne répondent pas aux standards nécessaires pour aider les VAC en toute sécurité.

Coût d'Utilisation des GML

Un autre facteur clé est le coût de l'utilisation de ces modèles. GPT-4 est beaucoup plus cher que GPT-3.5. Cela signifie que même si GPT-4 offre une meilleure précision, ce n'est peut-être pas le meilleur choix pour toutes les applications, surtout en prenant en compte les contraintes budgétaires.

Le temps moyen pris par chaque modèle pour répondre à une question varie aussi. Par exemple, GPT-3.5 a pris environ 0.7 secondes par question, tandis que GPT-4 a pris 0.9 secondes, et GPT-4o environ 3.4 secondes par question. Des modèles comme MiniCPM-2B prenaient moins de 0.4 secondes, ce qui les rend beaucoup plus rapides pour des applications en temps réel.

Défis et Risques

Bien que l’utilisation des GML pour les VAC puisse offrir de nombreux avantages, certains défis doivent être abordés. La technologie est encore en développement, et plusieurs risques doivent être gérés.

D'abord, les VAC opèrent dans des environnements sensibles à la sécurité. Le temps qu'un GML prend pour traiter une demande pourrait impacter la capacité du véhicule à réagir rapidement en cas d'urgence. Si un VA se trouve dans une situation dangereuse, chaque seconde compte.

Ensuite, les GML produisent parfois des informations incorrectes ou trompeuses, connues sous le nom de “Hallucinations.” Cela peut poser des risques pour la sécurité, car un conducteur ou le véhicule lui-même pourrait agir sur des informations erronées.

Enfin, les conducteurs humains doivent passer des tests rigoureux pour obtenir leur permis de conduire. Des standards similaires devraient être appliqués aux GML avant qu'ils ne soient dignes de confiance pour aider à la conduite. Il est important de s'assurer que ces modèles peuvent être fiables pour fournir des conseils précis et sûrs.

Directions Futures

La recherche en cours vise à améliorer les GML et à évaluer davantage leur connaissance de la conduite. En testant continuellement plus de modèles et en améliorant leurs capacités, on espère créer un environnement plus sûr pour les VAC.

Les études futures évalueront combien bien les GML peuvent gérer des scénarios de conduite réels, y compris des tests théoriques et pratiques. En rassemblant plus de données et en affinant ces modèles, on peut travailler à garantir qu'ils sont aussi fiables et sûrs que les conducteurs humains.

Conclusion

Les GML ont le potentiel d'assister considérablement les Véhicules autonomes connectés dans l'amélioration de la sécurité routière. Ils peuvent aider les véhicules à prendre de meilleures décisions dans des situations compliquées. Cependant, il est crucial de s'assurer que ces modèles sont bien testés et précis dans leur compréhension des principes de conduite.

Bien que certains modèles, comme GPT-4, montrent des résultats prometteurs, il reste encore de nombreux défis à surmonter. Trouver le bon équilibre entre coût et performance de ces modèles sera essentiel pour en faire une option viable pour l'assistance à la conduite dans le monde réel.

Dans l'ensemble, la recherche continue aidera à clarifier le rôle des GML dans la façon dont nous envisageons l'avenir de la conduite autonome et à rendre les routes plus sûres pour tous.

Source originale

Titre: Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles

Résumé: Handling long tail corner cases is a major challenge faced by autonomous vehicles (AVs). While large language models (LLMs) hold great potentials to handle the corner cases with excellent generalization and explanation capabilities and received increasing research interest on application to autonomous driving, there are still technical barriers to be tackled, such as strict model performance and huge computing resource requirements of LLMs. In this paper, we investigate a new approach of applying remote or edge LLMs to support autonomous driving. A key issue for such LLM assisted driving system is the assessment of LLMs on their understanding of driving theory and skills, ensuring they are qualified to undertake safety critical driving assistance tasks for CAVs. We design and run driving theory tests for several proprietary LLM models (OpenAI GPT models, Baidu Ernie and Ali QWen) and open-source LLM models (Tsinghua MiniCPM-2B and MiniCPM-Llama3-V2.5) with more than 500 multiple-choices theory test questions. Model accuracy, cost and processing latency are measured from the experiments. Experiment results show that while model GPT-4 passes the test with improved domain knowledge and Ernie has an accuracy of 85% (just below the 86% passing threshold), other LLM models including GPT-3.5 fail the test. For the test questions with images, the multimodal model GPT4-o has an excellent accuracy result of 96%, and the MiniCPM-Llama3-V2.5 achieves an accuracy of 76%. While GPT-4 holds stronger potential for CAV driving assistance applications, the cost of using model GPT4 is much higher, almost 50 times of that of using GPT3.5. The results can help make decision on the use of the existing LLMs for CAV applications and balancing on the model performance and cost.

Auteurs: Zuoyin Tang, Jianhua He, Dashuai Pei, Kezhong Liu, Tao Gao

Dernière mise à jour: 2024-07-24 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.17211

Source PDF: https://arxiv.org/pdf/2407.17211

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires