Améliorer le mouvement des robots à pattes sur des pierres d'équilibre
Une nouvelle méthode améliore les capacités des robots à se déplacer efficacement sur des surfaces inégales.
― 10 min lire
Table des matières
Les robots à pattes se sont beaucoup améliorés dans leur capacité à effectuer des mouvements dynamiques. Cependant, se déplacer dans des espaces étroits, comme sur des pierres à franchir, reste un sacré défi. Ce papier discute d'une nouvelle méthode qui combine contrôle, techniques de recherche et apprentissage pour aider les robots à se déplacer efficacement sur des pierres à franchir.
L'idée principale est d'utiliser un système appelé Contrôle Prédictif Non Linéaire (NMPC) pour créer des mouvements en fonction d'un contact prévu avec la surface. Pour trouver le meilleur moyen de toucher les pierres, on utilise une technique appelée recherche d'arbre Monte Carlo (MCTS). Bien que MCTS et NMPC puissent trouver un plan valide rapidement, ils ne sont pas encore efficaces pour des réponses en temps réel aux conditions changeantes. Donc, on crée un jeu de données pour former une politique qui apprend les meilleures actions pour le robot dans diverses situations.
Dans nos tests, on applique cette méthode à un robot quadrupède appelé Solo12. Ce robot réussit à sauter d'un but à l'autre sur des pierres à franchir dans des environnements délicats.
Défis dans le contrôle des robots à pattes
Contrôler des robots à pattes peut être compliqué parce que ça implique de gérer à la fois des décisions continues et discrètes. Les décisions continues concernent des choses comme la force à exercer lors d'un pas, tandis que les décisions discrètes portent sur quelle pierre choisir ensuite. Les avancées récentes se sont concentrées sur les aspects continus, mais fusionner ces deux types de décisions reste complexe et difficile à calculer.
Beaucoup d'approches existantes ont essayé de gérer les mouvements du corps entier des robots en utilisant des techniques avancées. Bien qu'elles fonctionnent bien dans des simulations, elles échouent souvent dans des situations en temps réel à cause des lourdes demandes de calcul et de la sensibilité aux conditions de départ.
Pour gérer les mouvements en temps réel, de nombreux systèmes actuels divisent le problème en deux parties : planifier où le robot va mettre le pied et déterminer sa trajectoire de mouvement. Le planificateur de contact décide où chaque partie du robot ira, ce qui est la partie discrète du processus de décision. Les méthodes traditionnelles utilisent des algorithmes ou des types spécifiques de programmation pour gérer ces décisions. Cependant, à mesure que le nombre de pas augmente, ces méthodes ne fonctionnent souvent pas bien et peuvent négliger la dynamique impliquée dans le mouvement du robot.
Des travaux antérieurs ont tenté de simplifier les calculs pour la prise de décision en intégrant la dynamique de la momentum dans leurs modèles. Bien que cela puisse fonctionner pour des problèmes plus petits, cela devient rapidement ingérable avec un plus grand nombre de points de contact.
D'autre part, l'Apprentissage par renforcement profond (DRL) a montré d'excellents résultats dans les mouvements agiles des quadrupèdes, mais son application à des terrains difficiles comme les pierres à franchir a été limitée. Certaines recherches ont montré des mouvements dans des environnements risqués, mais en raison de la nature éparse des pierres à franchir, elles avaient souvent besoin d'une formation préalable sur des tâches plus simples avant de pouvoir s'adapter à de nouveaux scénarios. Cependant, notre méthode ne nécessite pas de systèmes de récompense compliqués ni de multiples phases de formation.
Notre approche
Le but de cette étude est de développer une méthode efficace pour planifier les contacts des robots à pattes qui traversent des pierres à franchir. On utilise MCTS, qui a prouvé qu'il gérait bien la prise de décision complexe, en association avec NMPC pour s'assurer que tout mouvement effectué est faisable en temps réel. Contrairement aux algorithmes précédents qui utilisent des modèles simplifiés du mouvement du robot, notre méthode évalue les mouvements dynamiques réels impliqués.
En utilisant MCTS pour la planification et NMPC pour l'exécution, on peut créer un cadre qui permet au robot de réagir et d'adapter ses mouvements en fonction des conditions en temps réel. Cette approche permet aussi au robot d'apprendre de ses expériences passées et des données recueillies lors de mouvements précédents.
Planification de contact avec MCTS
On encadre notre problème de planification de contact comme un processus de prise de décision où l'état reflète le contact du robot avec les pierres à franchir. L'objectif est de choisir le meilleur point de contact suivant, ce qui aide le robot à avancer vers son but. MCTS crée une structure d'arbre où les nœuds représentent des états possibles. Le processus inclut la sélection d'un chemin, son expansion en ajoutant des transitions possibles, la simulation de mouvements et la mise à jour des valeurs en fonction des récompenses reçues pour avoir atteint l'état désiré.
Le processus MCTS se compose de plusieurs étapes :
Sélection : On part de la racine (état initial) et on traverse l'arbre jusqu'à atteindre un nœud feuille, qui n'a pas été totalement étendu.
Expansion : Si le nœud sélectionné n'est pas terminal, on ajoute tous les états successeurs à l'arbre en fonction des actions possibles.
Simulation : On effectue des actions aléatoires à partir d'un des nouveaux états pour créer une simulation. La récompense est ensuite calculée à la fin de cette simulation.
Rétropropagation : On met à jour les valeurs des états le long du chemin emprunté en fonction de la récompense reçue pour guider les sélections futures.
Améliorations à MCTS
Pour améliorer l'efficacité de MCTS, on implémente plusieurs techniques :
- Éviter de considérer les transitions de retour vers le même état pour réduire les recherches redondantes.
- Vérifier la faisabilité des mouvements pendant la phase d'expansion pour éliminer les options qui ne sont pas accessibles ou qui peuvent causer des collisions.
- Choisir le prochain état basé sur une stratégie mixte d'exploration et d'exploitation, permettant des choix aléatoires ainsi que des sélections dirigées basées sur des succès antérieurs.
Cette approche garantit que MCTS peut trouver des séquences prometteuses de points de contact tout en permettant à NMPC de valider la faisabilité dynamique de ces mouvements.
NMPC dans notre cadre
Le composant NMPC fonctionne aux côtés de MCTS, prenant un plan de contact donné et l'optimisant dynamiquement pour produire des mouvements faisables. Le NMPC calcule les forces nécessaires et les Trajectoires pour que le robot maintienne son équilibre tout en sautant entre les points de contact. Cette optimisation se fait à haute fréquence, permettant des ajustements en temps réel pendant les mouvements.
On place initialement les points de contact au centre des pierres à franchir, ce qui simplifie les calculs. Cependant, comme travail futur, on prévoit de peaufiner cela en permettant le positionnement des pieds au sein des zones de pierres.
Apprentissage d'un planificateur de contact
Bien que le cadre MCTS et NMPC soit efficace, il peut ne pas fonctionner en temps réel lors du mouvement effectif. Pour y remédier, on entraîne un réseau neuronal pour imiter la politique de MCTS. Cet apprentissage permet au robot de réagir rapidement aux changements dans son environnement.
On collecte des données sur les plans de contact réussis générés par MCTS et les emplacements associés. Ces données sont ensuite utilisées pour former le réseau neuronal à prédire les meilleurs points de contact en fonction de l'état actuel du robot et des objectifs prévus.
Pour rendre ce réseau robuste, on s'assure que les données d'entrée sont indépendantes de la position globale du robot, en se concentrant plutôt sur les placements relatifs. La tâche du réseau est de prédire les emplacements de contact pour chacune des pattes du robot en fonction des entrées données.
Variations dans la conception du réseau
On explore plusieurs architectures de réseau pour trouver la meilleure solution. Étant donné la nature multi-modale de nos données, on considère des architectures spécialisées capables de gérer cette complexité.
Une approche prometteuse consiste à utiliser des réseaux de pointeurs, qui sont adaptés pour sélectionner des éléments à partir de séquences d'entrées. Une autre méthode implique des modèles de diffusion, qui sont conçus pour gérer efficacement des distributions multi-modales. Les deux méthodes visent à tirer parti des divers résultats de MCTS pour améliorer la prise de décision dans les mouvements du robot.
Résultats et performance
En testant le cadre proposé dans un environnement de simulation, on démontre que MCTS combiné avec NMPC génère des mouvements de saut faisables sur des pierres à franchir. Les paramètres et la performance sont évalués sur plusieurs essais, et les résultats montrent une forte corrélation entre une planification efficace et des mouvements réussis réels.
La performance du système est mesurée à travers différentes configurations et environnements, indiquant qu'il peut s'adapter et trouver des solutions même lorsque des pierres à franchir sont retirées ou changées.
Directions futures
Bien que nos résultats soient prometteurs, les travaux futurs se concentreront sur l'amélioration de l'architecture de nos modèles. Nous intégrerons également notre planificateur de contact appris avec du matériel réel pour tester dans des conditions réelles. Réduire les temps de calcul pour des applications dans le monde réel est une priorité, et nous visons à remplacer NMPC par une politique basse niveau apprise pour rationaliser le contrôle.
En outre, nous souhaitons étendre notre cadre pour optimiser la démarche et les placements des pieds du robot en cartographiant efficacement les environnements locaux. Apprendre à partir des caméras embarquées du robot est un autre objectif, améliorant la capacité du robot à prendre des décisions éclairées basées sur des données visuelles.
Conclusion
La recherche présente un cadre qui permet aux robots à pattes de planifier et d'adapter leurs mouvements efficacement dans des environnements restreints comme les pierres à franchir. En intégrant MCTS avec NMPC, on peut créer des solutions dynamiques à des défis de mouvement complexes. L'approche ne repose pas lourdement sur des systèmes de récompense compliqués ou des étapes de formation extensives, ce qui la rend plus efficace pour des applications réelles.
En apprenant et en optimisant des plans de contact, on démontre le potentiel des robots à s'engager dans des mouvements avancés dans divers environnements. Alors que nous continuons à peaufiner et à améliorer nos méthodes, nous sommes impatients de voir l'avenir de la locomotion agile en robotique.
Titre: Diffusion-based learning of contact plans for agile locomotion
Résumé: Legged robots have become capable of performing highly dynamic maneuvers in the past few years. However, agile locomotion in highly constrained environments such as stepping stones is still a challenge. In this paper, we propose a combination of model-based control, search, and learning to design efficient control policies for agile locomotion on stepping stones. In our framework, we use nonlinear model predictive control (NMPC) to generate whole-body motions for a given contact plan. To efficiently search for an optimal contact plan, we propose to use Monte Carlo tree search (MCTS). While the combination of MCTS and NMPC can quickly find a feasible plan for a given environment (a few seconds), it is not yet suitable to be used as a reactive policy. Hence, we generate a dataset for optimal goal-conditioned policy for a given scene and learn it through supervised learning. In particular, we leverage the power of diffusion models in handling multi-modality in the dataset. We test our proposed framework on a scenario where our quadruped robot Solo12 successfully jumps to different goals in a highly constrained environment.
Auteurs: Victor Dhédin, Adithya Kumar Chinnakkonda Ravi, Armand Jordana, Huaijiang Zhu, Avadesh Meduri, Ludovic Righetti, Bernhard Schölkopf, Majid Khadiv
Dernière mise à jour: 2024-10-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.03639
Source PDF: https://arxiv.org/pdf/2403.03639
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.