Simple Science

La science de pointe expliquée simplement

# Informatique# Robotique

Apprendre aux robots à bouger sans attraper

Une nouvelle méthode forme des robots à manipuler des objets sans avoir besoin de les tenir.

― 7 min lire


Les robots apprennent desLes robots apprennent desmouvements sans saisie.efficacement.robots de manipuler des objetsUne formation innovante permet aux
Table des matières

Les humains sont super doués pour déplacer des trucs sans avoir besoin de les tenir. On peut pousser, tirer, traîner et faire rouler des objets qui sont difficiles à saisir. En revanche, la plupart des robots galèrent avec ce genre de mouvement. Ils peuvent généralement juste soulever et poser des objets, ce qui limite leur capacité à travailler avec des choses qu’on ne peut pas saisir. Notre objectif, c'est d'apprendre aux robots à déplacer des objets de nouvelles manières, même quand ils ne peuvent pas les attraper, en utilisant un simple dispositif de préhension et une caméra. C'est un défi compliqué parce que ça demande une planification précise des mouvements du robot et de la façon dont l'objet va réagir.

Les systèmes robotiques s'appuient souvent sur des méthodes de planification complexes qui utilisent des modèles physiques détaillés pour déterminer la meilleure façon de déplacer les objets. Ces méthodes peuvent être lentes et nécessitent beaucoup d'informations précises, ce qui est difficile à obtenir dans le monde réel. Par exemple, elles dépendent souvent de savoir où se trouve le centre de masse de l'objet ou combien de friction il y a, mais obtenir ce genre d'infos à partir d'images est super compliqué.

À cause de ces limites, la plupart de ces méthodes de planification fonctionnent mieux dans des environnements contrôlés où on connaît déjà beaucoup de choses sur les objets. Pour accélérer les choses, ces méthodes font souvent des suppositions fortes sur la façon dont les objets vont entrer en contact et interagir. Cela peut inclure l'idée que le mouvement de l'objet est lent ou qu'on sait déjà où seront les points de contact.

Notre Approche

On propose une autre manière pour les robots d'apprendre ces mouvements sans préhension en utilisant l'Apprentissage par renforcement profond (RL). Plutôt que de devoir extraire des informations difficiles à obtenir sur les objets, notre approche utilise directement les données des capteurs du robot. Même si ça demande un peu de temps pour entraîner le robot au départ, une fois qu'il est formé, il peut rapidement décider quoi faire ensuite sans passer par des calculs complexes. Notre méthode n'a pas besoin de faire des suppositions sur la façon dont les objets vont interagir, ce qui lui donne plus de flexibilité que les méthodes traditionnelles.

Pour que ça fonctionne, on entraîne le robot dans un environnement simulé avant de passer au réel. Il y a deux grands défis qu'on doit relever : explorer les meilleurs mouvements et s'assurer que ce que le robot apprend en simulation fonctionne dans la réalité.

Défi d'Exploration

Quand on entraîne le robot à déplacer des objets, l'exploration est essentielle. Cependant, si le robot ne commence pas dans une bonne position, il peut ne pas être capable d'atteindre l'objet, rendant l'exploration des mouvements possible difficile. Les méthodes traditionnelles pourraient récompenser le robot pour se rapprocher de l'objet, mais ça ne conduit pas toujours aux meilleurs mouvements. Au lieu de ça, on pense que déplacer les choses peut être vu en deux parties : se préparer à entrer en contact et déplacer l'objet une fois le contact établi.

Dans la première étape, le robot doit trouver le meilleur endroit pour entrer en contact avec l'objet. Dans la deuxième étape, une fois le contact établi, il peut travailler à pousser ou à tirer l'objet pour le déplacer où il le veut. Sur cette base, on a mis en place deux plans différents pour chaque étape, permettant au robot d'apprendre à mieux trouver et utiliser les points de contact sur les objets qu'il essaie de déplacer.

Politique pour les Mouvements Pré-Contact

Pour la première étape, notre approche se concentre sur la recherche du bon endroit pour toucher l'objet. Les actions que le robot peut entreprendre à cette étape dépendent de l'endroit où il touche l'objet et de la façon dont son dispositif de préhension est positionné. On entraîne cette partie dans une simulation où la forme de l'objet est clairement définie, puis on transitionne cet apprentissage vers le monde réel.

Puisque cette étape implique seulement de se déplacer vers des positions spécifiques, il n’y a pas beaucoup de différence entre son fonctionnement en simulation et dans la réalité.

Politique pour les Mouvements Post-Contact

Dans la deuxième étape, le robot doit appliquer des forces sur l'objet pour le déplacer. Dans de nombreuses configurations, les robots apprennent à contrôler les positions des articulations pour atteindre des cibles, en utilisant un contrôleur spécial pour gérer ça. Cependant, bouger de cette manière peut être délicat car ça nécessite un modèle très précis du robot qui est souvent difficile à obtenir dans la réalité.

Au lieu de ça, on adopte une approche différente. Plutôt que de prédire comment le robot devrait bouger ses articulations, on prédit la position qu'il doit atteindre et ensuite on convertit cette info en mouvements articulaires spécifiques. De cette manière, s'il y a des erreurs dans nos mouvements, elles peuvent être corrigées en ajustant directement les articulations, ce qui est plus simple.

Échelle des Actions et Sécurité

En entraînant le robot, on doit aussi prendre en compte la sécurité. Les vrais robots ont des limites sur la vitesse à laquelle ils peuvent se déplacer et la force qu'ils peuvent appliquer. Si le robot dépasse ces limites, il doit s'arrêter. Au départ, on a constaté qu'être trop prudent rendait l'apprentissage difficile pour le robot car il ne prenait pas assez de risques. Donc, on a créé un système qui permet au robot d'explorer librement au début et de resserrer progressivement les limites de ses mouvements au fur et à mesure qu'il apprend.

Transfert Sim-to-Real

Un des plus grands défis dans l'entraînement des robots est de s'assurer que ce que le robot apprend dans une simulation est valable dans le monde réel. Si les conditions de simulation et du monde réel diffèrent trop, le robot peut mal performer quand il arrive dans le monde réel.

Pour aborder ce problème, on a conçu un système modulaire qui sépare les différentes parties du processus d'apprentissage. Le premier module regarde des images d'une caméra et identifie des points clés sur l'objet. Le robot utilise ensuite ces informations avec ses capteurs internes pour décider des actions. En entraînant chaque partie séparément dans la simulation, on peut mieux gérer la transition vers des scénarios du monde réel.

Tester la Méthode

On a appliqué notre approche à trois défis différents où les techniques de préhension typiques n'auraient pas fonctionné. Dans ces tâches, le robot devait utiliser différents points de contact avec l'objet et son environnement pour déplacer des objets difficiles à saisir.

Nos résultats ont montré que notre méthode pouvait non seulement gérer les objets sur lesquels elle a été entraînée, mais aussi s'adapter à de nouveaux objets avec des propriétés physiques différentes qu'il n'avait pas rencontrés auparavant. Cette flexibilité suggère que notre approche pourrait être utile dans une large gamme d'applications réelles.

Conclusion

En résumé, notre nouvelle méthode pour apprendre aux robots à manipuler des objets sans préhension utilise l'apprentissage par renforcement profond pour relever les défis posés par les méthodes traditionnelles. En décomposant le processus de mouvement en étapes de pré-contact et de post-contact, on aide les robots à apprendre à trouver la meilleure façon de déplacer des objets sans avoir besoin de les tenir. Notre approche se concentre sur l'exploration et l'ajustement des actions en fonction de ce que le robot apprend dans un environnement simulé et peut être appliquée à différentes situations dans le monde réel. Cela pourrait conduire à des robots plus capables qui peuvent aider dans diverses tâches où les méthodes de préhension traditionnelles échouent.

Source originale

Titre: Pre- and post-contact policy decomposition for non-prehensile manipulation with zero-shot sim-to-real transfer

Résumé: We present a system for non-prehensile manipulation that require a significant number of contact mode transitions and the use of environmental contacts to successfully manipulate an object to a target location. Our method is based on deep reinforcement learning which, unlike state-of-the-art planning algorithms, does not require apriori knowledge of the physical parameters of the object or environment such as friction coefficients or centers of mass. The planning time is reduced to the simple feed-forward prediction time on a neural network. We propose a computational structure, action space design, and curriculum learning scheme that facilitates efficient exploration and sim-to-real transfer. In challenging real-world non-prehensile manipulation tasks, we show that our method can generalize over different objects, and succeed even for novel objects not seen during training. Project website: https://sites.google.com/view/nonprenehsile-decomposition

Auteurs: Minchan Kim, Junhyek Han, Jaehyung Kim, Beomjoon Kim

Dernière mise à jour: 2023-09-06 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.02754

Source PDF: https://arxiv.org/pdf/2309.02754

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires