Faire progresser l'apprentissage des véhicules autonomes avec ASAP-RL
Une nouvelle méthode améliore les performances de conduite des véhicules autonomes en utilisant des connaissances d'experts.
― 12 min lire
Table des matières
- Le défi de la conduite autonome
- L'importance des compétences de haut niveau
- Les compétences de mouvement en conduite
- Utilisation des connaissances d'experts
- Aperçu d'ASAP-RL
- Génération de compétences de mouvement
- Récupération des paramètres de compétence
- Préentraînement de l'Acteur et du Critique
- Apprentissage avec des compétences de mouvement et des a priori d'experts
- Configuration de l'expérience et évaluation
- Résultats et découvertes
- Conclusion
- Source originale
- Liens de référence
Les véhicules autonomes (VA) sont des véhicules qui peuvent se conduire tout seuls sans intervention humaine. Ces véhicules vont rencontrer plein de situations différentes sur la route. Cependant, les règles et méthodes que les humains utilisent pour conduire peuvent être compliquées à appliquer dans la réalité. Heureusement, un processus appelé Apprentissage par renforcement permet aux machines d'apprendre de leurs expériences par essais et erreurs.
L'apprentissage par renforcement (AR) a été utile dans diverses tâches, mais ça peut être difficile quand les VA doivent conduire dans un trafic chargé avec plein d'autres véhicules. Souvent, les agents AR ont du mal à bien apprendre à conduire ou ont besoin de beaucoup de données pour obtenir des résultats corrects. Un point clé est que les humains apprennent à conduire en réfléchissant à des compétences de haut niveau, plutôt qu'en se concentrant uniquement sur des actions de contrôle spécifiques. De plus, ils bénéficient des conseils d'experts, au lieu d'apprendre tout depuis le début.
Cet article parle d'une méthode appelée ASAP-RL, qui combine l'utilisation des compétences de mouvement et des Connaissances d'experts pour aider les VA à apprendre à conduire plus efficacement. L'objectif est d'améliorer la vitesse d'apprentissage et la performance de conduite. En utilisant des compétences de mouvement et des contributions d'experts, nous visons à créer une meilleure expérience de conduite pour les VA dans des environnements complexes.
Le défi de la conduite autonome
Quand les VA circulent sur des routes publiques, ils doivent interagir avec différents autres véhicules et faire face à des scénarios de conduite variés, comme le trafic dense, les formes de routes et les règles de la route. Beaucoup de méthodes existantes pour aider les VA à prendre des décisions reposent sur des règles créées manuellement, qui peuvent être compliquées et pas adaptées à chaque situation. Ces règles peuvent devenir difficiles à appliquer à mesure que le nombre de véhicules augmente, et il est ardu de concevoir des règles qui couvrent tous les risques et situations potentiels.
L'apprentissage par renforcement a montré des promesses parce qu'il nécessite peu d'efforts humains. Il peut apprendre en interagissant avec son environnement, ce qui le rend utile pour de nombreuses applications. Cependant, dans les situations où plusieurs véhicules interagissent activement, les algorithmes AR rencontrent souvent des défis significatifs pour apprendre efficacement. Ils peuvent ne pas apprendre de bonnes Stratégies de conduite ou nécessiter trop de données et de temps pour progresser.
L'importance des compétences de haut niveau
Un point important pour améliorer l'AR dans la conduite est de comprendre qu'il existe différents espaces d'action pour les agents AR. Choisir le bon espace d'action peut grandement simplifier le processus d'apprentissage. La plupart des méthodes AR actuelles apprennent directement à partir d'actions de contrôle de base comme la direction et l'accélération. Apprendre à partir de ces actions résulte souvent en des schémas de conduite erratiques et des signaux de rétroaction pas très utiles.
Par exemple, un véhicule pourrait conduire de manière erratique et échouer à réaliser des manœuvres typiques comme doubler un autre véhicule. Sans rétroaction cohérente d'actions réussies, il devient difficile pour l'agent d'apprendre efficacement. La science du comportement montre que les humains ont tendance à prendre des décisions basées sur des ensembles de compétences plus larges, qu'on peut considérer comme des compétences de mouvement. Ces compétences de haut niveau guident les actions de contrôle de niveau inférieur nécessaires pour atteindre des objectifs de conduite spécifiques.
Les compétences de mouvement en conduite
Pour améliorer l'apprentissage des stratégies de conduite, nous devons définir et apprendre les compétences de mouvement de manière pratique pour les VA. Il existe quelques approches pour définir les compétences de mouvement en conduite :
Création manuelle de compétences spécifiques : Cette méthode consiste à développer des compétences pour des tâches de conduite spécifiques, comme changer de voie au bon moment. Cependant, créer des compétences manuellement peut être complexe et ne pas couvrir la variété de situations que les VA peuvent rencontrer sur la route.
Apprendre des compétences à partir de données existantes : La deuxième approche consiste à apprendre à partir de données de mouvement collectées auparavant, ce qui pourrait inclure des segments de comportements de conduite. Bien que cette méthode puisse faire gagner du temps et des efforts par rapport à la conception manuelle, les données peuvent manquer de diversité et être déséquilibrées, rendant difficile la couverture de toutes les compétences nécessaires.
Ces approches ont souvent du mal à donner aux VA la capacité d'adapter à divers scénarios de conduite. Pour y remédier, nous voulons utiliser les compétences de mouvement du point de vue du véhicule égo, permettant ainsi aux VA d'apprendre un ensemble diversifié de manœuvres de conduite tout en étant moins compliqué à concevoir.
Utilisation des connaissances d'experts
Une autre façon reconnue d'améliorer l'efficacité de l'apprentissage est d'utiliser les connaissances d'experts d'autres conducteurs expérimentés. Les experts peuvent fournir des informations précieuses sur les actions susceptibles d'être productives, aidant les nouveaux conducteurs à éviter des actions peu utiles.
Les méthodes actuelles peuvent utiliser des démonstrations d'experts de différentes manières, comme pour initier l'apprentissage ou guider le développement de politiques. Cependant, ces méthodes peuvent toujours souffrir de problèmes comme de mauvaises performances durant les phases initiales de formation ou un apprentissage ralenti à cause de performances sous-optimales des experts.
Pour traiter ces problèmes, nous proposons une méthode combinée appelée technique de double initialisation. Cette méthode efficace et simple aide à utiliser les connaissances d'experts de manière beaucoup plus intégrée, conduisant à de meilleurs résultats.
Aperçu d'ASAP-RL
La méthode ASAP-RL se concentre sur deux aspects principaux :
Paramétrage des compétences de mouvement : Cela signifie définir les compétences de mouvement de manière à ce qu'elles soient générales et puissent s'adapter à différentes situations de conduite. Au lieu d'avoir une structure rigide, les compétences de mouvement peuvent être modifiées pour convenir au contexte de l'environnement de conduite.
Incorporation de connaissances d'experts : En convertissant les démonstrations d'experts d'actions de contrôle en compétences, nous pouvons tirer parti à la fois des compétences de mouvement et des connaissances d'experts pour permettre un meilleur apprentissage et une meilleure performance.
Notre méthode vise à aider les VA à apprendre à conduire à travers une exploration structurée tout en recevant une meilleure rétroaction durant le processus d'apprentissage. Cette combinaison devrait mener à une expérience d'apprentissage beaucoup plus efficace et performante.
Génération de compétences de mouvement
Créer une compétence de mouvement implique plusieurs processus différents :
Génération de chemin : Cela se fait en reliant un point de départ à un point d'arrivée sur la route, créant un chemin que le véhicule peut suivre. Le point d'arrivée est déterminé par certains paramètres, ce qui donne au VA de la flexibilité pour décider comment naviguer.
Génération de profil de vitesse : Cela établit comment le véhicule changera de vitesse durant la tâche de conduite. Partant de son état actuel, le VA planifie sa vitesse et son accélération pour répondre aux besoins du scénario de conduite.
Génération de trajectoire : La véritable compétence de mouvement se forme en intégrant le profil de vitesse le long du chemin généré, permettant au VA d'exécuter son mouvement planifié en douceur.
Tous ces étapes fonctionnent ensemble pour créer une compétence de conduite qui peut être adaptée et utilisée par le VA.
Récupération des paramètres de compétence
En utilisant les connaissances d'experts, nous faisons face à un problème : la plupart des démonstrations d'experts sont composées d'actions de contrôle et manquent d'informations sur les compétences et les récompenses. Pour résoudre cela, nous proposons une méthode pour récupérer les paramètres de compétence à partir des démonstrations d'experts.
Cela se fait en décomposant la conduite de l'expert en segments pour identifier les compétences utilisées durant chaque action. Ce faisant, le VA peut apprendre quelles compétences correspondent à certains comportements de conduite réussis. À travers ce processus de récupération, nous pouvons étiqueter les données d'experts avec des informations sur les compétences, rendant le processus d'apprentissage plus efficace.
Préentraînement de l'Acteur et du Critique
Dans l'AR, il y a généralement deux composants principaux : l'acteur et le critique. L'acteur décide quelle action prendre en fonction de l'état actuel, tandis que le critique évalue à quel point cette action est bonne.
Pour tirer le meilleur parti des informations d'experts, nous pouvons préentraîner ces composants. L'acteur est d'abord entraîné à comprendre les compétences des démonstrations d'experts, tandis que le critique est entraîné en utilisant des informations qui incluent à la fois les compétences et les points de récompense collectés grâce aux actions de l'acteur.
Cette approche de préentraînement double aide les deux composants à mieux s'aligner, permettant au VA d'apprendre des experts tout en évitant les pièges de la dépendance exclusive aux performances des experts.
Apprentissage avec des compétences de mouvement et des a priori d'experts
L'objectif final est de faire en sorte que les VA apprennent rapidement et performent bien dans des conditions réelles. Avec notre méthode, nous pouvons efficacement combiner des compétences avec des connaissances d'experts, simplifiant ainsi le processus d'apprentissage tout en l'accélérant.
L'objectif de l'agent AR est donc de maximiser à la fois les récompenses qu'il reçoit et les informations qu'il obtient de l'exploration des compétences. Au lieu de se concentrer uniquement sur les actions de contrôle immédiates, l'agent apprend une politique qui peut produire des compétences de mouvement complexes, entraînant une conduite plus fluide et efficace.
Configuration de l'expérience et évaluation
Pour tester notre méthode ASAP-RL, nous avons utilisé un simulateur qui modélise des situations de conduite complexes. La simulation comprend diverses conditions de trafic et des obstacles, permettant au VA d'apprendre à naviguer à travers des environnements difficiles.
Système de récompense
Le système de récompense pour notre VA est basé sur l'atteinte d'objectifs spécifiques :
- Le VA gagne une récompense à mesure qu'il parcourt des distances.
- Il reçoit des récompenses supplémentaires pour atteindre une destination en toute sécurité.
- Des récompenses négatives sont données pour les collisions avec d'autres véhicules ou des obstacles sur la route.
Ce système de récompenses clair et éparse permet au VA de recevoir des retours sur ses performances, simplifiant ainsi la conception des récompenses et rendant plus clair comment optimiser le comportement de conduite.
Comparaison avec d'autres méthodes
Pour voir à quel point notre ASAP-RL fonctionne bien, nous avons comparé ses performances à d'autres méthodes courantes. Celles-ci incluent des approches comme l'Optimisation de Politique Proximale (PPO) et les méthodes classiques de Soft Actor-Critic (SAC), qui se concentrent sur l'apprentissage à travers des actions de contrôle individuelles.
ASAP-RL a montré de meilleures performances car il a efficacement utilisé à la fois des compétences de mouvement et des a priori d'experts, se démarquant des méthodes qui reposent uniquement sur des actions de contrôle ou intègrent de manière inefficace des compétences dans des espaces de dimensions inférieures.
Résultats et découvertes
Nos expériences ont montré qu'ASAP-RL surpassait significativement les autres méthodes. À travers différents scénarios de conduite, il apprenait de meilleures stratégies de conduite plus efficacement et s'adaptait efficacement à des environnements complexes.
Impact de la durée des compétences
Nous avons exploré comment la longueur des compétences de mouvement utilisées influençait la performance du VA. Nos résultats ont suggéré qu'à mesure que la longueur des compétences augmentait, le VA pouvait prendre des décisions plus réfléchies au fil du temps. Cependant, si la longueur des compétences devenait trop longue, cela pouvait entraver la réactivité.
Une longueur de compétence d'environ dix s'est avérée être un bon équilibre, permettant au VA de réagir efficacement tout en maintenant un niveau de performance élevé.
Influence des connaissances d'experts
L'impact des a priori d'experts a également été évalué. Lorsque nous avons comparé différentes méthodes d'incorporation des connaissances antérieures, ASAP-RL a systématiquement surpassé les alternatives, montrant de bonnes performances initiales sans les pénalités typiques observées en début d'entraînement.
En revanche, les méthodes standards avaient soit du mal à apprendre depuis le début, soit faisaient face à des problèmes de chute de performance lorsqu'elles utilisaient des connaissances d'experts. Ces résultats confirment que tirer parti à la fois des compétences de mouvement et des connaissances démonstratives d'experts conduit à de meilleurs résultats de conduite.
Conclusion
En résumé, la méthode ASAP-RL représente une avancée significative pour aider les véhicules autonomes à apprendre à conduire dans des situations de trafic complexes. En intégrant des compétences de mouvement avec des connaissances d'experts, nous rationalisons le processus d'apprentissage et améliorons la performance.
La combinaison de compétences paramétrées et de connaissances d'experts montre un grand potentiel pour améliorer les capacités des VA, conduisant à une conduite plus sûre et plus efficace dans des environnements réels. Les recherches futures peuvent encore repousser les limites de la conduite autonome, avec l'objectif d'intégrer des méthodes d'apprentissage encore plus avancées.
Titre: Efficient Reinforcement Learning for Autonomous Driving with Parameterized Skills and Priors
Résumé: When autonomous vehicles are deployed on public roads, they will encounter countless and diverse driving situations. Many manually designed driving policies are difficult to scale to the real world. Fortunately, reinforcement learning has shown great success in many tasks by automatic trial and error. However, when it comes to autonomous driving in interactive dense traffic, RL agents either fail to learn reasonable performance or necessitate a large amount of data. Our insight is that when humans learn to drive, they will 1) make decisions over the high-level skill space instead of the low-level control space and 2) leverage expert prior knowledge rather than learning from scratch. Inspired by this, we propose ASAP-RL, an efficient reinforcement learning algorithm for autonomous driving that simultaneously leverages motion skills and expert priors. We first parameterized motion skills, which are diverse enough to cover various complex driving scenarios and situations. A skill parameter inverse recovery method is proposed to convert expert demonstrations from control space to skill space. A simple but effective double initialization technique is proposed to leverage expert priors while bypassing the issue of expert suboptimality and early performance degradation. We validate our proposed method on interactive dense-traffic driving tasks given simple and sparse rewards. Experimental results show that our method can lead to higher learning efficiency and better driving performance relative to previous methods that exploit skills and priors differently. Code is open-sourced to facilitate further research.
Auteurs: Letian Wang, Jie Liu, Hao Shao, Wenshuo Wang, Ruobing Chen, Yu Liu, Steven L. Waslander
Dernière mise à jour: 2023-05-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.04412
Source PDF: https://arxiv.org/pdf/2305.04412
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.