Simple Science

La science de pointe expliquée simplement

# Informatique# Robotique

Avancées dans la technologie de marche des robots bipèdes

Explorer de nouvelles méthodes pour améliorer les capacités de marche des robots bipèdes.

― 6 min lire


Robots bipèdes : UneRobots bipèdes : Unenouvelle approchemarche des robots.Un nouveau regard sur les techniques de
Table des matières

Les Robots bipèdes sont des machines conçues pour marcher sur deux jambes, un peu comme les humains. Ils sont importants en robotique parce qu'ils peuvent naviguer dans des environnements complexes et accomplir des tâches d'une manière que les robots à roues ne peuvent pas. Mais faire marcher ces robots de manière efficace et stable, c'est pas simple.

Le défi de la marche bipède

Marcher implique plein de défis, comme garder l'équilibre, s'adapter à différents terrains et changer de vitesse. Les robots bipèdes doivent gérer des mouvements complexes et différentes forces qui agissent sur eux. Ils ne peuvent pas être contrôlés aussi facilement que des machines simples parce que leurs mouvements dépendent de leur posture et de leur dynamique.

Apprendre à marcher

Traditionnellement, la marche robotique était programmée à l'aide de modèles mathématiques détaillés. Les ingénieurs créaient ces modèles pour prédire comment le robot réagirait à différentes actions et conditions. Mais cette approche peut être très complexe et souvent pas adaptée aux opérations en temps réel.

Au lieu de se fier uniquement à ces modèles, les chercheurs se sont tournés vers l'apprentissage machine, qui permet aux robots d'apprendre par l'expérience. En s'entraînant sur une variété de scénarios de marche, les robots peuvent développer des stratégies pour gérer la marche qui sont plus flexibles et adaptables aux conditions changeantes.

Cadre hiérarchique pour la marche

Une approche prometteuse pour les robots marchants est un cadre hiérarchique. Cette structure comporte deux niveaux principaux : un Planificateur de haut niveau et un contrôleur de bas niveau.

  1. Planificateur de haut niveau : Cette partie génère des commandes pour le robot en tenant compte de diverses tâches de marche comme la vitesse et la direction. Il apprend à ajuster les mouvements du robot en fonction de son état actuel.

  2. Contrôleur de bas niveau : Cette partie fait en sorte que le robot suive les commandes générées par le planificateur de haut niveau. Il s'assure que les actions du robot restent sur la bonne voie et réagissent aux perturbations inattendues.

En séparant ces deux fonctions, le système gagne en flexibilité et en robustesse. Le planificateur de haut niveau peut se concentrer sur la stratégie globale de marche, tandis que le contrôleur de bas niveau gère les ajustements immédiats nécessaires pour maintenir l'équilibre et la stabilité.

Utilisation de l'Apprentissage par renforcement

L'apprentissage par renforcement (RL) est une partie clé de ce cadre. Il permet aux robots d'apprendre par essai et erreur. Quand le robot accomplit bien une tâche, il reçoit une récompense. S'il fait une erreur, il apprend de cette expérience et essaie de s'améliorer à l'avenir.

Dans ce contexte, le planificateur de haut niveau utilise le RL pour déterminer les meilleures commandes de marche. Il est entraîné sur divers scénarios, ce qui lui permet de développer une compréhension de la manière de marcher efficacement.

Le rôle du modèle basé sur le moment angulaire

Un modèle spécifique appelé le Pendule Inversé Linéaire basé sur le Moment Angulaire (ALIP) est utilisé pour aider à l'apprentissage. Ce modèle simplifie certains calculs en se concentrant sur le moment angulaire du robot. En faisant cela, le robot peut mieux prédire ses mouvements et gérer son équilibre.

En utilisant le modèle ALIP, le planificateur de haut niveau peut déterminer des commandes qui permettent au robot de marcher en douceur. Cette approche est plus efficace que la modélisation mathématique complète, qui peut être lourde et lente.

Travailler avec différents robots

Le cadre d'apprentissage hiérarchique a été testé sur divers robots, chacun avec des designs et des capacités différentes :

  • Lapin : Un robot simple à deux jambes qui sert de modèle de base pour comprendre la locomotion bipède.
  • Walker2D : Un robot plus complexe avec des articulations supplémentaires, lui permettant d'effectuer un plus large éventail de mouvements.
  • Digit : Un robot humanoïde avec de nombreuses articulations et degrés de liberté, permettant des stratégies de marche avancées.

Chaque robot montre l'efficacité du cadre hiérarchique de différentes manières, illustrant la flexibilité de l'approche d'apprentissage.

Tester le cadre

Le cadre a été testé dans diverses conditions pour déterminer son efficacité. Les tests comprenaient :

  • Variations de vitesse : Les robots ont été commandés à marcher à différentes vitesses et directions pour voir comment ils pouvaient s'ajuster.
  • Terrains difficiles : Les robots ont également été testés sur des pentes et des surfaces inégales pour évaluer leur stabilité et leur adaptabilité.
  • Perturbations externes : Les robots ont été poussés ou tirés pour voir comment ils pouvaient maintenir leur équilibre.

Les résultats ont montré que les robots pouvaient ajuster efficacement leurs motifs de marche. Ils ont maintenu un bon niveau de stabilité même face à des perturbations ou en traversant un terrain difficile.

Avantages de l'approche hiérarchique

  1. Flexibilité : La séparation de la planification de haut niveau et du contrôle de bas niveau permet des adaptations plus faciles aux différentes tâches sans redesign complet.

  2. Robustesse : La capacité d'apprendre de divers scénarios signifie que les robots peuvent gérer des changements inattendus pendant leur utilisation.

  3. Efficacité des données : Entraîner les robots à marcher sans avoir besoin de vastes quantités de données de mouvement préenregistrées accélère le processus d'apprentissage.

  4. Mouvement naturel : Les politiques apprises ont abouti à des comportements de marche plus humains, améliorant l'utilité du robot dans des applications réelles.

Conclusion et perspectives d'avenir

Le cadre d'apprentissage hiérarchique montre beaucoup de promesses pour créer des robots bipèdes efficaces. La combinaison de la planification de haut niveau via l'apprentissage par renforcement et du contrôle de bas niveau utilisant des techniques basées sur des modèles crée un système robuste.

Les recherches futures se concentreront sur des tests supplémentaires avec des robots physiques et l'expansion de leurs capacités pour gérer des tâches supplémentaires, comme grimper et naviguer dans des environnements complexes.

Au fur et à mesure que les développements avancent, l'objectif ultime est de créer des robots bipèdes capables d'effectuer un large éventail d'actions dans divers cadres, des maisons aux lieux de travail, rapprochant les robots d'un fonctionnement aux côtés des humains.

Source originale

Titre: Template Model Inspired Task Space Learning for Robust Bipedal Locomotion

Résumé: This work presents a hierarchical framework for bipedal locomotion that combines a Reinforcement Learning (RL)-based high-level (HL) planner policy for the online generation of task space commands with a model-based low-level (LL) controller to track the desired task space trajectories. Different from traditional end-to-end learning approaches, our HL policy takes insights from the angular momentum-based linear inverted pendulum (ALIP) to carefully design the observation and action spaces of the Markov Decision Process (MDP). This simple yet effective design creates an insightful mapping between a low-dimensional state that effectively captures the complex dynamics of bipedal locomotion and a set of task space outputs that shape the walking gait of the robot. The HL policy is agnostic to the task space LL controller, which increases the flexibility of the design and generalization of the framework to other bipedal robots. This hierarchical design results in a learning-based framework with improved performance, data efficiency, and robustness compared with the ALIP model-based approach and state-of-the-art learning-based frameworks for bipedal locomotion. The proposed hierarchical controller is tested in three different robots, Rabbit, a five-link underactuated planar biped; Walker2D, a seven-link fully-actuated planar biped; and Digit, a 3D humanoid robot with 20 actuated joints. The trained policy naturally learns human-like locomotion behaviors and is able to effectively track a wide range of walking speeds while preserving the robustness and stability of the walking gait even under adversarial conditions.

Auteurs: Guillermo A. Castillo, Bowen Weng, Shunpeng Yang, Wei Zhang, Ayonga Hereid

Dernière mise à jour: 2023-09-27 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.15442

Source PDF: https://arxiv.org/pdf/2309.15442

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires