Simple Science

La science de pointe expliquée simplement

# Informatique# Robotique# Intelligence artificielle# Vision par ordinateur et reconnaissance des formes

Faire avancer les voitures autonomes avec une prise de décision comme les humains

Une nouvelle approche améliore les voitures autonomes en imitant les schémas de pensée humains.

― 11 min lire


Voitures autonomes deVoitures autonomes denouvelle générationperformance des voitures autonomes.La réflexion humaine améliore la
Table des matières

Les voitures autonomes font de gros progrès en technologie grâce aux avancées dans les capteurs et l'apprentissage automatique. Mais les méthodes actuelles ont des problèmes quand il s’agit de gérer des situations complexes et de comprendre les causes et les effets. Ça peut rendre difficile l'adaptation de ces voitures et la prise de décisions claires dans différents environnements.

Pour relever ces défis, une nouvelle méthode a été créée en s’inspirant de la façon dont les humains pensent. Cette approche se concentre sur l'identification des objets clés importants pour prendre des décisions de conduite. Cela aide à comprendre l'environnement tout en réduisant la complexité de la prise de décision.

Ce système a aussi un processus de décision unique qui combine deux modes de pensée. Un mode est rapide et instinctif, gérant les réactions immédiates. L'autre est plus lent et réfléchi, permettant une analyse et un raisonnement plus profonds. En utilisant ces deux modes, le système peut apprendre de l'expérience et s'améliorer continuellement avec le temps.

Dans les tests, cette nouvelle approche s'est révélée plus efficace que d'autres qui se basent uniquement sur les données des caméras. Elle nécessite beaucoup moins de données étiquetées pour fonctionner, ce qui la rend plus simple et plus efficace. De plus, à mesure que la mémoire des expériences passées grandit, le système peut apprendre et s'adapter en continu, même avec une taille de modèle plus petite.

Depuis le début des années 2000, des efforts ont été faits pour remplacer les conducteurs humains par des systèmes informatiques. Au fil des ans, avec l'amélioration des technologies de capteurs et de l'intelligence artificielle, les véhicules autonomes ont commencé à entrer sur le marché. De nouvelles inventions ont conduit à des voitures équipées d'assistance à la conduite intelligente et des taxis robots opérant dans les villes.

Cependant, les méthodes existantes s'appuient souvent fortement sur des ensembles diversifiés de données d'entraînement. Cette dépendance peut entraîner un manque de profondeur dans la compréhension des situations complexes, conduisant à des erreurs. Beaucoup d'approches fonctionnent en identifiant des motifs mais ne peuvent pas raisonner ou déduire des situations au-delà de ce qu'elles ont vu dans les données d'entraînement. Donc, il y a un besoin urgent de systèmes qui peuvent penser et s'adapter comme un conducteur humain.

Les avancées récentes dans les modèles de langage de grande taille (LLM) et les modèles de vision et de langage (VLM) ont attiré l'attention des chercheurs. Ces modèles ont été formés sur de grands ensembles de données, leur donnant une bonne compréhension du monde et de fortes capacités de raisonnement. Dans le domaine des voitures autonomes, certaines méthodes utilisent ces modèles comme agents de conduite.

Cependant, beaucoup de ces systèmes ne testent que dans des conditions stables, qui ne reflètent pas les interactions réelles entre une voiture et son environnement. Cela conduit souvent à des problèmes de réactivité et d'adaptabilité.

À l'inverse, apprendre à conduire pour les humains implique une interaction continue avec leur environnement. Ils apprennent de leurs erreurs et changent leur comportement en fonction des retours. La pensée humaine peut être décomposée en deux types : le premier est rapide et instinctif, gérant des tâches simples, tandis que le second est plus lent et implique un raisonnement plus profond, résolvant des problèmes complexes. Ce mode de pensée dual est crucial pour devenir un conducteur expérimenté.

Pour développer un système qui imite cette pensée humaine, les chercheurs ont créé un système de conduite autonome en boucle fermée à double mode. Ce système apprend et s'améliore continuellement, similaire à la façon dont les humains se concentrent sur des éléments critiques lors de la conduite.

Le système a un module de Compréhension de la scène qui identifie les objets importants influençant les décisions de conduite. En se basant sur ces observations, il utilise un processus de prise de décision à deux modes, imitant les schémas de pensée humaine. Il construit aussi une banque de mémoire d'expériences passées, qui peut être transférée à d'autres modèles, permettant une prise de décision rapide dans diverses situations.

Lorsqu'un accident se produit, le système peut analyser ce qui s'est passé et en tirer des leçons, améliorant ses réponses futures. Les principales innovations de ce travail incluent :

  1. Une approche en boucle fermée pour la conduite autonome qui reflète l'attention humaine aux facteurs de conduite cruciaux.
  2. Un système de prise de décision à double mode qui permet des réactions rapides et instinctives ainsi qu’un raisonnement attentif, laissant le processus plus rapide apprendre du plus lent.
  3. Une banque de mémoire qui aide le système à collecter et utiliser des expériences de conduite de haute qualité au fil du temps.

Des tests approfondis dans un simulateur de conduite montrent que ce nouveau système surpasse d'autres méthodes ne s'appuyant que sur des données de caméra et le fait avec beaucoup moins de données étiquetées.

Travaux Connexes en Conduite Autonome

Les développements récents dans les modèles de vision et de langage (VLM) ont fourni de nouveaux outils pour comprendre les environnements de conduite. Ces VLM aident les machines à mieux comprendre les scènes, ce qui aide à la conduite autonome.

De plus, les grands modèles de base ont montré un potentiel prometteur pour améliorer les technologies de conduite autonome. Ils sont capables de traiter de grandes quantités de données et de raisonner à travers des scénarios complexes. Divers benchmarks ont été créés pour évaluer à quel point ces systèmes comprennent les situations de conduite.

Certaines approches utilisent des LLM pour générer des décisions basées sur des instructions humaines dans un environnement simulé. D'autres combinent des modèles avec des systèmes de planification. Néanmoins, beaucoup de méthodes échouent encore à évaluer à quel point un système peut s'adapter aux conditions réelles.

Les conducteurs humains apprennent naturellement à adapter leur comportement en fonction de leurs expériences, ce qui n'est pas quelque chose que les modèles actuels font efficacement. Cela souligne la nécessité de développer des systèmes basés sur des connaissances qui peuvent agir davantage comme des conducteurs humains.

Alors que les modèles de base sont devenus plus avancés, ils ont montré un grand potentiel dans des tâches nécessitant compréhension et prise de décision. Cela a suscité l’intérêt pour concevoir des systèmes qui imitent les processus de pensée humaine pour améliorer la performance dans les voitures autonomes.

Notre approche proposée se compose de trois composants clés : le VLM qui comprend les scènes, le système de prise de décision à double mode et l'exécuteur d'actions qui contrôle le véhicule. Ces composants travaillent ensemble dans un simulateur pour répondre aux situations de conduite.

Le VLM traite les images de l'environnement environnant et identifie les objets importants. Ces informations sont ensuite utilisées par le module de prise de décision pour générer des décisions de conduite. Les actions dérivées de ces décisions sont converties en signaux de contrôle qui guident le véhicule.

Dans des environnements en boucle fermée, le modèle léger est utilisé pour une prise de décision rapide, tandis que le système réfléchit sur les accidents pour s'améliorer avec le temps. Lorsqu'un accident se produit, le système analyse ce qui s'est mal passé et met à jour sa banque de mémoire avec les expériences corrigées, permettant un apprentissage continu.

Compréhension de la Scène

Pour améliorer la sécurité de conduite, un système doit se concentrer sur des informations critiques pour éviter de submerger le conducteur avec des données. En se concentrant sur des objets clés autour d'un véhicule, il peut répondre plus efficacement et réduire les chances d'accidents.

Le module de compréhension de la scène est construit pour identifier des objets importants qui pourraient affecter les décisions de conduite. Ces objets sont décrits par leurs caractéristiques telles que la catégorie, la position, le mouvement et les risques possibles. Cela aide le système à créer une image plus claire de ce qui se passe dans l'environnement, conduisant à une conduite plus sûre.

Pour chaque scène de conduite, les descriptions des objets importants incluent :

  1. Catégorie - Classe les objets comme les véhicules et les feux de circulation.
  2. Position - Indique où l'objet est situé par rapport au véhicule.
  3. Mouvement - Décrit la direction du mouvement de l'objet.
  4. Raisonnement - Explique pourquoi l'objet est significatif pour les décisions de conduite.

En se concentrant sur ces descriptions, le système peut obtenir une meilleure compréhension de son environnement et réagir de manière appropriée.

Mécanisme de réflexion

Lorsque le système rencontre un accident, il utilise un mécanisme de réflexion pour apprendre de ses erreurs passées. En analysant les données des images précédentes, il peut identifier des erreurs et améliorer sa prise de décision future.

Pendant ce processus de réflexion, le système évalue son raisonnement et ses décisions antérieures, déterminant où il a pu se tromper. Ce cycle de feedback aide le système à apprendre et à s'adapter au fil du temps.

Des expériences menées dans un environnement en boucle fermée montrent que cette capacité de réflexion améliore la performance, permettant au système de devenir plus efficace dans diverses situations de conduite.

Mise en Œuvre

Le système utilise plusieurs modèles avancés pour la compréhension de la scène et la prise de décision. En combinant ces modèles, il peut atteindre un haut niveau de performance tout en apprenant continuellement des expériences.

Les modèles implémentés utilisent diverses techniques d'entraînement pour affiner leur capacité à répondre avec précision aux scénarios de conduite. Pendant l'entraînement, le système utilise plusieurs ensembles de données qui incluent des détails sur des objets critiques, améliorant ainsi sa compréhension des environnements de conduite.

Résultats des Tests

L'approche proposée a été testée de manière approfondie dans un simulateur de conduite pour évaluer son efficacité. Des métriques clés telles que le score de conduite, l'achèvement du parcours et la sécurité sont utilisées pour évaluer sa performance. Les résultats indiquent que le système surpasse d'autres méthodes qui reposent uniquement sur des entrées de caméra, prouvant son efficacité.

De plus, le système démontre une adaptabilité à travers différentes situations de conduite, même lorsqu'il est confronté à des environnements inconnus. En s'appuyant sur une banque de mémoire d'expériences passées, il peut prendre des décisions rapides et pertinentes.

Conclusion

En conclusion, ce système autonome en boucle fermée à double mode montre un potentiel significatif pour l'avenir de la technologie de conduite autonome. En réfléchissant l'attention humaine et les processus cognitifs, il réussit à identifier des éléments critiques affectant les décisions de conduite et à simplifier le processus de prise de décision.

Ce système apprend continuellement de ses expériences, stockant des connaissances précieuses dans une banque de mémoire. Le mécanisme de réflexion améliore encore sa capacité à s'améliorer avec le temps, créant un cadre robuste pour des voitures autonomes sûres et efficaces.

Alors que la technologie continue d'avancer, l'intégration de tels systèmes dans des véhicules intelligents pourrait devenir courante, rendant la conduite plus sûre et plus efficace pour tout le monde.

Source originale

Titre: Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving

Résumé: Autonomous driving has advanced significantly due to sensors, machine learning, and artificial intelligence improvements. However, prevailing methods struggle with intricate scenarios and causal relationships, hindering adaptability and interpretability in varied environments. To address the above problems, we introduce LeapAD, a novel paradigm for autonomous driving inspired by the human cognitive process. Specifically, LeapAD emulates human attention by selecting critical objects relevant to driving decisions, simplifying environmental interpretation, and mitigating decision-making complexities. Additionally, LeapAD incorporates an innovative dual-process decision-making module, which consists of an Analytic Process (System-II) for thorough analysis and reasoning, along with a Heuristic Process (System-I) for swift and empirical processing. The Analytic Process leverages its logical reasoning to accumulate linguistic driving experience, which is then transferred to the Heuristic Process by supervised fine-tuning. Through reflection mechanisms and a growing memory bank, LeapAD continuously improves itself from past mistakes in a closed-loop environment. Closed-loop testing in CARLA shows that LeapAD outperforms all methods relying solely on camera input, requiring 1-2 orders of magnitude less labeled data. Experiments also demonstrate that as the memory bank expands, the Heuristic Process with only 1.8B parameters can inherit the knowledge from a GPT-4 powered Analytic Process and achieve continuous performance improvement. Project page: https://pjlab-adg.github.io/LeapAD.

Auteurs: Jianbiao Mei, Yukai Ma, Xuemeng Yang, Licheng Wen, Xinyu Cai, Xin Li, Daocheng Fu, Bo Zhang, Pinlong Cai, Min Dou, Botian Shi, Liang He, Yong Liu, Yu Qiao

Dernière mise à jour: 2024-10-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.15324

Source PDF: https://arxiv.org/pdf/2405.15324

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires