Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Reconnaissance améliorée des voies et des éléments de circulation pour les voitures autonomes

Un nouveau système qui améliore la compréhension des trajets pour les véhicules autonomes.

― 12 min lire


Compréhension routière deCompréhension routière denouvelle génération pourl'autonomiesignalisation dans les voituresreconnaissance des voies et des feux deUn système qui révolutionne la
Table des matières

Comprendre la disposition et les connexions des routes est super important pour les voitures autonomes. Ça implique de comprendre comment les voies sont reliées entre elles et comment les panneaux de signalisation et les feux sont liés à ces voies. Il y a encore des problèmes pour créer des méthodes qui réussissent à faire ça de manière complète.

Beaucoup de techniques existantes ont du mal à connecter les voies avec précision. Certaines méthodes utilisent des lignes ou des segments de voie, mais ça ne fonctionne souvent pas trop bien. D'autres approches se concentrent seulement sur la détection de la ligne centrale des voies, négligeant comment les voies interagissent entre elles et avec les éléments de circulation. De plus, lier les feux de circulation aux voies utilise principalement des images, ce qui rend difficile de voir l'ensemble.

Pour surmonter ces défis, on propose un nouveau système qui peut saisir la scène de conduite de manière complète. Notre approche met en avant trois caractéristiques importantes :

  1. Un module qui intègre les connaissances des aspects 2D de la scène dans un espace de caractéristiques unifié.
  2. Un réseau de neurones de graphe spécialisé qui modélise les connexions et permet aux caractéristiques d'interagir au sein du réseau.
  3. Un graphe de connaissances structuré qui gère les informations provenant de différents types d'éléments routiers au lieu d'envoyer des messages au hasard.

On a testé notre système sur une référence difficile pour comprendre les scènes de conduite et on a découvert qu'il surpassait largement les méthodes précédentes en termes de perception et de métriques de disposition. Le code source sera mis à disposition pour d'autres.

Motivation derrière le raisonnement topologique

Quand un véhicule autonome approche d'une intersection, il doit déterminer correctement quelle voie prendre et quels feux respecter. Les techniques traditionnelles d'apprentissage de cartes se concentrent sur les caractéristiques physiques des routes, ce qui complique la génération de signaux de navigation utiles sans règles compliquées. Notre approche peut directement améliorer la compréhension des voies et des feux.

Quand un véhicule s'approche d'une intersection complexe, il doit reconnaître quelle voie prendre et quels feux suivre. Ça nécessite non seulement de savoir où sont les voies, mais aussi de comprendre leurs connexions. La scène de conduite se compose de deux éléments principaux :

  1. Un graphe de topologie des voies qui inclut les lignes centrales des voies et leurs connexions.
  2. La relation entre les voies et les feux de circulation comme les lumières, les panneaux et les marquages.

Les systèmes de véhicules autonomes standard s'appuient souvent sur des cartes haute définition (HD) préexistantes, qui incluent à la fois les lignes de voie et la disposition des routes. Cependant, ces cartes HD peuvent être coûteuses à créer et nécessitent des systèmes de localisation précis.

Beaucoup de méthodes ont été développées pour percevoir l'environnement en temps réel comme alternative aux cartes HD. Cela inclut la détection des lignes de voie par des techniques 2D et 3D, mais elles ont encore du mal à capturer comment les voies se connectent. Les méthodes simplistes qui font une moyenne des lignes de voie pour trouver les lignes centrales nécessitent souvent des règles complexes et un post-traitement extensif, rendant la situation encore plus compliquée, surtout dans les intersections urbaines.

Certaines approches récentes ont essayé d'utiliser des cadres avancés pour prédire les lignes centrales et leurs connexions. Cependant, celles-ci échouent souvent à identifier efficacement les lignes centrales qui se chevauchent aux intersections, ce qui les rend moins utiles.

Bien qu'il y ait des recherches sur la façon dont les éléments de circulation se rapportent aux voies, beaucoup de cela reste limité aux données d'image, manquant complètement le contexte plus large.

Pour résoudre ces problèmes, nous introduisons un nouveau cadre qui capture la disposition complète de la scène de conduite. Il fonctionne par deux voies partageant un extracteur de caractéristiques, une pour les éléments de circulation et une autre pour les lignes centrales.

Les méthodes de détection contemporaines s'appuient souvent sur des requêtes d'instance pour extraire des caractéristiques utiles, mais elles peuvent devenir trop focalisées sur des éléments de fond comme les bâtiments ou la végétation. Ce manque de modélisation des connexions entraîne des temps d'entraînement plus longs et un possible surajustement.

Notre nouveau système vise à prédire la disposition de la scène de conduite de manière fluide. Il inclut une méthode pour un échange de caractéristiques affiné entre les instances et un graphe structuré qui collecte des connaissances antérieures provenant de différentes sources.

Composants clés de notre système

Le nouveau système que nous proposons pour comprendre les scènes de conduite fonctionne comme suit :

Comprendre la structure de la scène

Il est crucial de reconnaître la disposition des voies et des éléments de circulation, ce qui est essentiel pour la navigation. Les systèmes conventionnels construisent des cartes HD des routes, mais manquent d'adaptabilité. Notre approche offre un moyen d'intégrer des données en temps réel tout en s'assurant que tous les éléments sont connectés correctement, ce qui est vital pour une navigation sécurisée.

Structure à double branche

La structure de notre système comprend deux branches, l'une axée sur les éléments de circulation et l'autre sur les lignes centrales. Cette division permet de mieux analyser les informations provenant d'entités distinctes tout en fournissant une vue d'ensemble complète de la scène de conduite.

Utilisation des réseaux de neurones de graphe

Le réseau de neurones de graphe (GNN) est utilisé pour relayer des informations entre différentes caractéristiques et améliorer la compréhension de leurs relations. Il renforce les connexions entre les entités d'une scène, affinant ainsi notre perception globale des dispositions routières.

Graphe de connaissances sur la scène

De plus, nous mettons en œuvre un graphe de connaissances sur la scène qui représente avec précision les divers éléments sur la route, y compris les feux de circulation et leurs catégories respectives. Ce graphe veille à ce que différents types d'éléments de circulation soient traités correctement en fonction de leur importance et de leur relation avec les données de voie.

Tests par rapport à des références connues

Nous avons soumis notre nouveau système à des tests rigoureux en utilisant des références existantes. Les résultats étaient prometteurs, montrant que notre méthode surpassait les systèmes précédents de manière considérable en ce qui concerne la perception précise des lignes centrales et le raisonnement sur la topologie globale.

Nous avons également constaté que notre approche fait preuve d'une grande robustesse dans des environnements urbains complexes, gérant avec succès les divers défis présentés.

Analyse des résultats

Dans une analyse plus approfondie, nous avons observé que bien que notre système ait bien fonctionné, il reste encore des défis à relever. Par exemple, les occlusions causées par des véhicules ou une végétation dense peuvent conduire à des interprétations erronées des dispositions des voies. Les scénarios longs, où les structures routières sont moins conventionnelles, donnent également des résultats incohérents.

Continuer à affiner notre modèle tout en incorporant des données plus diverses peut entraîner des améliorations dans ces situations délicates.

Travaux connexes

Apprentissage des graphes de voie

L'apprentissage des graphes de voie a suscité beaucoup d'attention en raison de son rôle central dans la navigation des véhicules autonomes. Certaines recherches visent à créer des graphes routiers à partir d'images aériennes, mais des inexactitudes surviennent à cause des occlusions causées par des arbres et des bâtiments. Des travaux plus récents se concentrent sur la dérivation de graphes de voie en utilisant des capteurs montés sur véhicule.

Perception et segmentation de cartes

Il y a eu une montée d'intérêt pour l'utilisation de la perception en vue de dessus (BEV) pour aider à l'apprentissage des cartes HD. Beaucoup de ces techniques se concentrent sur la segmentation de la carte et des informations en aval, ce qui est crucial pour des applications en temps réel. Bien que certaines méthodes donnent une bonne compréhension des voies et des intersections, elles ont du mal à transmettre des relations complexes.

Compréhension de la scène

Comprendre les scènes de conduite repose en grande partie sur le résumé de la position des éléments par rapport les uns aux autres. Ce domaine continue d'évoluer alors que l'industrie et la recherche académique collaborent pour améliorer les mises en œuvre concrètes.

Réseaux de neurones de graphe

Les réseaux de neurones de graphe ont émergé dans divers domaines, allant des recommandations à la compréhension vidéo. En conduite autonome, ils sont de plus en plus utilisés pour modéliser les relations entre les éléments, améliorant les prédictions et renforçant la sécurité de la navigation.

Architecture détaillée du système

La disposition de notre système se compose d'une série d'étapes travaillant ensemble :

  1. Extraction de caractéristiques : Le système collecte des caractéristiques à partir d'images capturées par des caméras multi-vues qui fournissent un riche ensemble de données pour l'analyse.
  2. Déchiffrage déformable : Chaque branche utilise sa couche de déchiffrage conçue pour extraire des caractéristiques pertinentes pour son composant, éléments de circulation ou lignes centrales.
  3. Propagation de messages : Les requêtes échangent des messages pour affiner les caractéristiques et comprendre les connexions de disposition.
  4. Prédictions finales : Les prédictions générées sont basées sur une combinaison des requêtes affinées à travers différentes têtes spécifiques à la tâche.

Formulation du problème

En essence, le but de notre système est de reconnaître les éléments de conduite et de raisonner sur la manière dont ils se rapportent les uns aux autres avec précision. Cela inclut la perception des voies comme des lignes dirigées et des éléments de circulation comme des boîtes englobantes 2D. Les relations entre ces éléments et les voies créent un graphe structuré, qui fournit un moyen d'interpréter comment les véhicules devraient naviguer dans la zone.

Détails de mise en œuvre

Le système a été construit en utilisant des modèles et des techniques bien connus, y compris ResNet-50 pour l'extraction des caractéristiques. Une architecture détaillée a été développée avec des couches spécifiquement conçues pour améliorer les performances tout en permettant une flexibilité pour s'adapter à de nouvelles informations.

L'entraînement a impliqué plusieurs époques pour garantir que le modèle converge sur des métriques de performance optimales. Nous avons utilisé une fonction de perte robuste pour minimiser les écarts entre les résultats prédits et réels tout en assurant une évaluation équilibrée.

Métriques de performance

Nous avons visé à fournir une évaluation complète de notre méthode à travers des métriques standards, mesurant la performance au niveau des instances pour les voies et les éléments de circulation. Les résultats indiquent une avancée significative par rapport aux approches existantes, confirmant l'efficacité de notre modèle dans des scénarios pratiques.

D'autres métriques ont été mesurées pour évaluer le succès global du raisonnement topologique, prenant en compte des facteurs tels que la connectivité et l'exactitude des relations entre les voies et les éléments de circulation.

Aperçu des résultats

En résumé, notre système a montré des améliorations substantielles dans les tâches de perception et de raisonnement topologique. Les évaluations indiquent que notre méthode dépasse non seulement les algorithmes existants mais démontre également une remarquable résilience dans des paysages urbains difficiles.

L'examen approfondi des résultats illustre l'efficacité élevée de notre approche, suggérant des pistes pour de futures améliorations, surtout en ce qui concerne des scénarios rares.

Conclusion et futures directions

En résumé, nous avons abordé le problème de la compréhension des scènes de conduite en proposant un cadre complet pour le raisonnement topologique. Notre système intègre efficacement à la fois les données des voies et des éléments de circulation en utilisant des méthodologies avancées comme les réseaux de neurones de graphe.

Malgré les succès, des domaines pour des explorations futures demeurent. Trouver des manières de fusionner les capacités pour un output plus fluide et explorer des types supplémentaires d'éléments de circulation peut conduire à des avancées futures.

En fin de compte, notre espoir est que ce travail devienne un tremplin pour un meilleur apprentissage des cartes en ligne, contribuant à des technologies de conduite autonome plus sûres et plus efficaces.

Source originale

Titre: Graph-based Topology Reasoning for Driving Scenes

Résumé: Understanding the road genome is essential to realize autonomous driving. This highly intelligent problem contains two aspects - the connection relationship of lanes, and the assignment relationship between lanes and traffic elements, where a comprehensive topology reasoning method is vacant. On one hand, previous map learning techniques struggle in deriving lane connectivity with segmentation or laneline paradigms; or prior lane topology-oriented approaches focus on centerline detection and neglect the interaction modeling. On the other hand, the traffic element to lane assignment problem is limited in the image domain, leaving how to construct the correspondence from two views an unexplored challenge. To address these issues, we present TopoNet, the first end-to-end framework capable of abstracting traffic knowledge beyond conventional perception tasks. To capture the driving scene topology, we introduce three key designs: (1) an embedding module to incorporate semantic knowledge from 2D elements into a unified feature space; (2) a curated scene graph neural network to model relationships and enable feature interaction inside the network; (3) instead of transmitting messages arbitrarily, a scene knowledge graph is devised to differentiate prior knowledge from various types of the road genome. We evaluate TopoNet on the challenging scene understanding benchmark, OpenLane-V2, where our approach outperforms all previous works by a great margin on all perceptual and topological metrics. The code is released at https://github.com/OpenDriveLab/TopoNet

Auteurs: Tianyu Li, Li Chen, Huijie Wang, Yang Li, Jiazhi Yang, Xiangwei Geng, Shengyin Jiang, Yuting Wang, Hang Xu, Chunjing Xu, Junchi Yan, Ping Luo, Hongyang Li

Dernière mise à jour: 2023-08-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.05277

Source PDF: https://arxiv.org/pdf/2304.05277

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires