Avancées dans la marche des robots humanoïdes
Recherche de nouvelles méthodes pour améliorer la marche bipède des robots humanoïdes.
― 7 min lire
Table des matières
- Pourquoi la marche bipède est importante
- Comprendre les défis
- Une nouvelle approche pour surmonter les difficultés
- Comment l'Entraînement est effectué
- Encourager un meilleur apprentissage grâce aux récompenses
- Tests dans le monde réel
- Résultats de l'approche
- Défis dans la mise en œuvre réelle
- Directions futures
- Conclusion
- Source originale
- Liens de référence
Des recherches récentes dans le domaine de la robotique se sont concentrées sur l'apprentissage des robots à marcher sur deux jambes. C'est un domaine super important, surtout pour les robots humanoïdes, qui sont conçus pour marcher et interagir dans des environnements similaires à ceux des humains. Un gros défi ici, c'est la différence entre la façon dont les robots se débrouillent dans un environnement simulé par rapport au monde réel. On appelle souvent ça le "sim-to-real gap."
Pourquoi la marche bipède est importante
Marcher sur deux jambes, c'est une compétence cruciale pour les robots qui doivent évoluer dans des environnements humains. Contrairement aux robots à quatre pattes qui s'en sortent mieux en simulation, les gros robots humanoïdes galèrent souvent à traduire les compétences de marche apprises dans un monde virtuel au monde réel. C'est surtout à cause de la nature complexe des dynamiques du monde réel et des limites des méthodes de contrôle existantes.
Comprendre les défis
Les robots humanoïdes, comme le HRP-5P, ont beaucoup d'articulations et un poids plus lourd par rapport aux robots plus légers. Quand ces robots marchent, ils doivent garder l'Équilibre et la stabilité, ce qui devient plus difficile quand il y a des erreurs dans le mouvement de leurs articulations. Dans de nombreux cas, les robots ne suivent pas leurs mouvements avec précision, ce qui entraîne des chutes ou des patterns de marche instables.
Un gros souci vient de la façon dont les moteurs du robot sont contrôlés. En simulation, les moteurs suivent parfaitement les commandes, mais dans la réalité, ces moteurs peuvent mal fonctionner sous des charges ou des conditions variées. Ce décalage peut provoquer des problèmes comme le robot qui se cogne lui-même en marchant.
Une nouvelle approche pour surmonter les difficultés
Pour répondre à ces défis, des chercheurs ont proposé une nouvelle méthode pour combler le sim-to-real gap. Cette approche implique deux stratégies clés :
Simuler un contrôle moteur défaillant : En entraînant intentionnellement le robot dans une simulation où les moteurs ne fonctionnent pas parfaitement, les chercheurs peuvent le préparer aux réalités de la marche dans le monde réel.
Utiliser des retours en temps réel : Le robot peut mesurer combien de courant ses moteurs utilisent à tout moment. En alimentant cette info dans les algorithmes de marche, le robot peut adapter ses mouvements en fonction du couple réel produit par ses moteurs.
Comment l'Entraînement est effectué
Pour apprendre à marcher, des simulations sont créées où le robot s'entraîne à bouger de diverses manières. Ça peut inclure marcher en avant, tourner, et rester immobile. Pendant l'entraînement, les performances du robot sont évaluées et des ajustements sont faits pour améliorer ses capacités.
Les robots sont exposés à différentes conditions pendant l'entraînement, y compris des surfaces inégales, ce qui les aide à apprendre à maintenir l'équilibre dans des situations difficiles. En introduisant des variations dans la façon dont les tâches sont présentées, les chercheurs peuvent créer une stratégie de marche plus robuste.
Encourager un meilleur apprentissage grâce aux récompenses
Une partie essentielle du processus d'entraînement consiste à donner des récompenses au robot en fonction de sa performance. Ça veut dire qu'à chaque fois que le robot marche avec succès ou maintient son équilibre, il reçoit une récompense positive. À l'inverse, s'il trébuche ou bouge mal, il subit des pénalités.
Les chercheurs ont soigneusement conçu ces récompenses pour encourager le robot à développer des patterns de marche efficaces, un peu comme ceux des humains. Les récompenses d'entraînement favorisent la symétrie dans la marche, ce qui est clé pour maintenir l'équilibre et la stabilité.
Tests dans le monde réel
Une fois l'entraînement en simulation terminé, l'étape suivante consiste à tester le robot dans des scénarios du monde réel. Cette phase est cruciale car elle permet aux chercheurs de voir si les stratégies apprises en simulation fonctionnent bien en pratique.
Lors des tests en conditions réelles, le robot marche sur des terrains inégaux et réalise des tâches qui nécessitent agilité et équilibre. Les chercheurs comparent ses performances avec des méthodes de contrôle traditionnelles pour voir quelle approche donne de meilleurs résultats. En particulier, ils examinent à quel point le robot maintient sa stabilité tout en naviguant parmi les obstacles.
Résultats de l'approche
Les premiers résultats des tests sont prometteurs. Le robot entraîné avec la nouvelle méthode de simulation d'un contrôle défaillant et d'utilisation de retours en temps réel a pu marcher au-dessus d'obstacles plus hauts que ceux gérés par des méthodes conventionnelles. Les chercheurs ont remarqué que le robot affichait un pattern de marche plus stable et était capable de gérer des tâches plus complexes sans tomber.
Une analyse plus poussée a indiqué que la combinaison de l'entraînement du robot sur un suivi imparfait du couple et de la fourniture de retours en temps réel a considérablement amélioré sa capacité à maintenir l'équilibre en marchant. Le robot a montré qu'il pouvait adapter ses mouvements, affichant une plus grande stabilité et moins de risques de collision avec lui-même pendant la marche.
Défis dans la mise en œuvre réelle
Malgré ces réussites, il y a encore des défis à relever. Par exemple, il y a des moments où le mouvement de marche du robot devient erratique ou vacillant. Ça peut arriver à cause d'un décalage entre les mouvements attendus et réels de ses articulations.
Un autre souci est la dépendance au système de retour de courant. Bien que ce retour aide le robot à ajuster ses mouvements, il n'élimine pas complètement les erreurs de suivi. Les chercheurs explorent d'autres façons d'améliorer la performance du robot, comme incorporer plus de données historiques dans le processus de prise de décision.
Directions futures
En regardant vers l'avenir, il y a plusieurs domaines de recherche qui pourraient améliorer les capacités de marche des humanoïdes. Un domaine de focus est d'apprendre au robot à marcher à reculons et à gérer des terrains encore plus difficiles avec des obstacles. Une autre amélioration possible pourrait inclure le perfectionnement des algorithmes utilisés pour donner des récompenses pendant l'entraînement, aidant le robot à apprendre plus efficacement.
L'espoir est qu'avec les progrès de la technologie, les robots humanoïdes deviendront de plus en plus fiables et capables de naviguer dans les environnements complexes que les humains occupent. À mesure que les chercheurs continuent de peaufiner les processus d'entraînement et d'améliorer les mécanismes de retour, la vision de robots capables de marcher gracieusement et en toute sécurité dans la vie réelle devient de plus en plus réalisable.
Conclusion
Le développement de la marche bipède pour les robots humanoïdes est un aspect difficile mais important de la robotique. En adressant les différences entre les simulations et les environnements réels, les chercheurs ouvrent la voie à des robots humanoïdes plus capables. Les stratégies de simulation de problèmes de contrôle moteur et d'utilisation de retours en temps réel s'avèrent bénéfiques pour apprendre aux robots à marcher de manière stable et efficace. Les améliorations continues dans ces domaines sont prometteuses pour l'avenir de la robotique dans les environnements humains.
Titre: Learning Bipedal Walking for Humanoids with Current Feedback
Résumé: Recent advances in deep reinforcement learning (RL) based techniques combined with training in simulation have offered a new approach to developing robust controllers for legged robots. However, the application of such approaches to real hardware has largely been limited to quadrupedal robots with direct-drive actuators and light-weight bipedal robots with low gear-ratio transmission systems. Application to real, life-sized humanoid robots has been less common arguably due to a large sim2real gap. In this paper, we present an approach for effectively overcoming the sim2real gap issue for humanoid robots arising from inaccurate torque-tracking at the actuator level. Our key idea is to utilize the current feedback from the actuators on the real robot, after training the policy in a simulation environment artificially degraded with poor torque-tracking. Our approach successfully trains a unified, end-to-end policy in simulation that can be deployed on a real HRP-5P humanoid robot to achieve bipedal locomotion. Through ablations, we also show that a feedforward policy architecture combined with targeted dynamics randomization is sufficient for zero-shot sim2real success, thus eliminating the need for computationally expensive, memory-based network architectures. Finally, we validate the robustness of the proposed RL policy by comparing its performance against a conventional model-based controller for walking on uneven terrain with the real robot.
Auteurs: Rohan Pratap Singh, Zhaoming Xie, Pierre Gergondet, Fumio Kanehiro
Dernière mise à jour: 2023-08-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.03724
Source PDF: https://arxiv.org/pdf/2303.03724
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.