Avancées dans les Soccer-Bots : Entraînement Robotique
Un petit robot humanoïde apprend des compétences en football grâce à l'apprentissage par renforcement profond.
― 6 min lire
Table des matières
Ces dernières années, des chercheurs ont bossé sur l'apprentissage de mouvements complexes pour les Robots, afin qu'ils puissent réaliser des tâches dans des environnements dynamiques. Un défi excitant est d'apprendre à un petit robot humanoïde à jouer au foot. Ça implique d'apprendre au robot à se déplacer vite, tourner, frapper la balle et se relever après une chute. L'objectif est de créer un robot capable d'apprendre ces Compétences via une méthode appelée apprentissage par renforcement profond (Deep RL).
Le Deep RL aide le robot à apprendre de ses expériences en le récompensant pour ses bons comportements et en le pénalisant pour ses erreurs. Dans ce projet, l'équipe voulait voir si cette méthode pouvait aider un robot humanoïde à faible coût à jouer à une version simplifiée du foot.
Entraînement du Robot
Les chercheurs se sont concentrés sur l'entraînement d'un robot humanoïde miniature avec 20 articulations mobiles pour jouer à un match de foot un contre un. Ils ont abordé l'entraînement en deux étapes. D'abord, ils ont appris au robot des compétences individuelles à l'isolement, comme se lever, marcher et frapper. Ensuite, ils ont laissé le robot pratiquer ces compétences contre lui-même, l'aidant à apprendre à les utiliser ensemble de manière fluide.
Pendant l'entraînement, le robot a appris à réagir vite au jeu, à anticiper où allait la balle, et à bloquer les tirs d'un adversaire. Cet apprentissage est venu d'un ensemble relativement simple de récompenses qui guidaient le robot dans la bonne direction.
Mise en Place Expérimentale
L'équipe a conçu à la fois un environnement de foot simulé et un setup réel pour le robot. L'environnement simulé imitait les règles physiques d'un match de foot, et une technologie de capture de mouvement était utilisée dans le setup réel pour suivre les positions du robot et de la balle.
L'entraînement s'est concentré sur une zone de jeu définie, gardée simple pour éviter d'ajouter trop de complications. Les mouvements du robot étaient contrôlés en envoyant des commandes à ses servomoteurs, qui bougent les articulations en se basant sur des angles pré-calculés. Le robot recevait aussi des retours basés sur des informations sensorielles, comme sa position et celle de la balle.
Apprentissage des Compétences
Le focus était sur l'apprentissage d'une gamme de compétences nécessaires au foot. Au début, le robot a appris à se relever du sol et à marquer des buts. Ensuite, il s'est entraîné contre un adversaire de plus en plus fort, apprenant à se défendre et à anticiper les mouvements. Le processus impliquait un peu de hasard dans les conditions d'entraînement du robot, ce qui l'a aidé à mieux s'adapter à l'imprévisibilité du monde réel.
Transfert des Apprentissages vers des Robots Réels
Les chercheurs étaient impatients de voir si le robot pouvait appliquer ce qu'il avait appris dans l'environnement simulé au monde réel sans entraînement supplémentaire. Ça nécessitait de s'assurer que l'entraînement prenait en compte les variables qui seraient différentes dans la vraie vie, comme de petites différences mécaniques entre les versions du robot.
Ils ont réussi en mettant en œuvre une combinaison de contrôle haute fréquence et de variations aléatoires pendant l'entraînement en simulation. Grâce à ces techniques, le robot pouvait transférer ses compétences efficacement vers une version physique.
Comportement du Robot
Une fois les tests commencés, le robot a montré une variété de compétences au-delà de ce qui était attendu au départ. Il était rapide à se relever après une chute, montrait une marche et un tir efficaces, et était capable de bouger fluidement entre différentes actions.
Pendant les matchs, le robot se positionnait intelligemment pour bloquer son adversaire et faisait des tirs calculés vers le but. La combinaison de compétences résultait de l'apprentissage du robot à travers l'auto-jeu et les conseils des étapes d'entraînement précédentes.
Analyse des Performances
Pour évaluer à quel point le robot a appris et performé, l'équipe a comparé ses compétences à celles d'un contrôleur scripté traditionnel conçu pour des tâches similaires. Ils se sont concentrés sur des compétences clés comme la vitesse de marche, la capacité à se relever rapidement et la puissance des tirs.
Vitesse de Marche
La politique apprise a permis au robot de marcher visiblement plus vite que le contrôleur scripté. Les mesures ont montré une amélioration significative de la vitesse maximale lors des tests, démontrant l'efficacité de l'entraînement.
Se Lever
En évaluant la compétence de se lever, le robot a pu se relever efficacement du sol comparé au contrôleur scripté. Il a appris à passer en douceur de nouveau à l'action, ce qui est crucial pour bien performer dans un match.
Puissance de Tir
Le tir était une autre compétence essentielle qui a montré une amélioration. Le robot pouvait frapper plus fort que le contrôleur scripté après avoir pris quelques pas pour prendre de l'élan. L'entraînement a mené à des techniques optimisées qui ont repoussé les limites de ce que le matériel pouvait gérer.
Mélange de Compétences
Le processus d'apprentissage a permis au robot de mélanger différentes mouvements naturellement. L'équipe a analysé les pas du robot et a découvert qu'il s'adaptait efficacement à son jeu de pieds pour exécuter des tâches particulières, comme tourner avant de frapper la balle.
Conclusion
En résumé, le robot a pu apprendre et exécuter une gamme de compétences de foot grâce à l'apprentissage par renforcement profond. En s'entraînant dans un environnement contrôlé et en appliquant ce qu'il a appris à un robot physique, l'équipe a montré que des compétences motrices sophistiquées pouvaient être développées chez des petits robots humanoïdes.
Bien qu'il y ait de la marge pour améliorer la stabilité et la perception, les résultats indiquent une promesse pour des applications futures. Les méthodes utilisées dans cette recherche pourraient ouvrir la voie à l'entraînement de plus grands robots pour réaliser des tâches pratiques dans des environnements réels.
Titre: Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning
Résumé: We investigate whether Deep Reinforcement Learning (Deep RL) is able to synthesize sophisticated and safe movement skills for a low-cost, miniature humanoid robot that can be composed into complex behavioral strategies in dynamic environments. We used Deep RL to train a humanoid robot with 20 actuated joints to play a simplified one-versus-one (1v1) soccer game. The resulting agent exhibits robust and dynamic movement skills such as rapid fall recovery, walking, turning, kicking and more; and it transitions between them in a smooth, stable, and efficient manner. The agent's locomotion and tactical behavior adapts to specific game contexts in a way that would be impractical to manually design. The agent also developed a basic strategic understanding of the game, and learned, for instance, to anticipate ball movements and to block opponent shots. Our agent was trained in simulation and transferred to real robots zero-shot. We found that a combination of sufficiently high-frequency control, targeted dynamics randomization, and perturbations during training in simulation enabled good-quality transfer. Although the robots are inherently fragile, basic regularization of the behavior during training led the robots to learn safe and effective movements while still performing in a dynamic and agile way -- well beyond what is intuitively expected from the robot. Indeed, in experiments, they walked 181% faster, turned 302% faster, took 63% less time to get up, and kicked a ball 34% faster than a scripted baseline, while efficiently combining the skills to achieve the longer term objectives.
Auteurs: Tuomas Haarnoja, Ben Moran, Guy Lever, Sandy H. Huang, Dhruva Tirumala, Jan Humplik, Markus Wulfmeier, Saran Tunyasuvunakool, Noah Y. Siegel, Roland Hafner, Michael Bloesch, Kristian Hartikainen, Arunkumar Byravan, Leonard Hasenclever, Yuval Tassa, Fereshteh Sadeghi, Nathan Batchelor, Federico Casarini, Stefano Saliceti, Charles Game, Neil Sreendra, Kushal Patel, Marlon Gwira, Andrea Huber, Nicole Hurley, Francesco Nori, Raia Hadsell, Nicolas Heess
Dernière mise à jour: 2024-04-11 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.13653
Source PDF: https://arxiv.org/pdf/2304.13653
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.