Simple Science

La science de pointe expliquée simplement

# Informatique# Robotique

Avancées dans la technologie de préhension des robots

VL-Grasp améliore la prise en main des robots en utilisant des indices linguistiques et des ensembles de données variés.

― 7 min lire


VL-Grasp : Une nouvelleVL-Grasp : Une nouvelleapproche de préhensionvision.robotique en utilisant le langage et laUne nouvelle façon de voir la saisie
Table des matières

La saisie robotique, c'est un vrai casse-tête, surtout quand les robots doivent interagir avec des gens. Le but, c'est de faire en sorte qu'un robot puisse attraper un objet en suivant un ordre donné en langage naturel. Il doit savoir où se trouve l'objet en se basant sur ce qu'il voit et ce qu'on lui dit, et il doit aussi planifier la meilleure façon de le Saisir sous différents angles.

Besoin d'une Meilleure Politique de Saisie

Les méthodes traditionnelles de saisie robotique sont souvent à la traîne face à des situations du monde réel. En général, les systèmes actuels limitent la façon dont un robot peut voir et saisir des objets, se concentrant souvent sur un seul point de vue. Ça limite la capacité du robot à gérer des environnements variés, comme quand les objets sont posés sur des étagères plutôt que sur des tables.

De plus, les ensembles de données existants, qui sont essentiels pour entraîner les robots, ne fournissent souvent pas assez d'exemples divers. Beaucoup de ces ensembles contiennent des images où l'objet à saisir n'est pas vraiment adapté, ou ils manquent d'exemples montrant le même type d'objet plusieurs fois dans une image. C'est super important, car un robot doit apprendre à différencier des objets similaires.

Présentation de VL-Grasp

Pour relever ces défis, une nouvelle politique de saisie appelée VL-Grasp a été développée. Ce système vise à améliorer la façon dont les robots saisissent des objets dans divers environnements intérieurs en utilisant des indices linguistiques. VL-Grasp traite une image RGB, une image de profondeur et un commandement en langage, puis prédit la meilleure façon de saisir l'objet.

La politique se compose de trois parties principales : un réseau pour l'Ancrage Visuel, un module qui filtre les Données de nuage de points, et un réseau pour détecter les poses de saisie. Ces composants travaillent ensemble pour aider le robot à comprendre et interagir efficacement avec son environnement.

L'ensemble de données d'ancrage visuel

Un gros progrès qui soutient VL-Grasp, c'est la création d'un nouvel ensemble de données d'ancrage visuel appelé RoboRefIt. Cet ensemble contient des images d'objets que les robots peuvent saisir, et il comprend une variété d'environnements intérieurs. RoboRefIt a plus de 10 000 images et près de 51 000 commandes en langage, qui aident le robot à apprendre à identifier un objet en fonction de la description d'une personne et à le localiser dans la scène.

Dans RoboRefIt, beaucoup d'images montrent plusieurs objets de la même catégorie. Cette diversité aide le robot à reconnaître et à saisir le bon objet même quand des objets similaires sont à proximité. L'ensemble de données permet aux robots de s'entraîner avec un vrai bazar, leur donnant l'expérience nécessaire pour réussir dans des situations réelles.

La Structure de VL-Grasp

La politique VL-Grasp fonctionne en deux grandes étapes. La première étape consiste à déterminer l'emplacement de l'objet en utilisant l'image RGB et la commande en langage. Le robot fournit une boîte englobante et un masque de segmentation qui indiquent où se trouve l'objet. La deuxième étape utilise ces informations avec l'image de profondeur pour calculer la meilleure configuration de saisie.

Étape 1 : Réseau d'ancrage visuel

Dans cette première étape, le système utilise un réseau d'ancrage visuel. Il combine des caractéristiques de l'image RGB avec le texte de la commande. Un modèle de langage extrait des informations utiles de la commande, tandis qu'un modèle d'image récupère des caractéristiques visuelles de l'image d'entrée. Ensuite, le système fusionne ces caractéristiques pour trouver la position de l'objet cible, aboutissant à une boîte englobante et un masque pour le traitement ultérieur.

Étape 2 : Réseau de détection de pose de saisie

Dans la deuxième étape, le système utilise un réseau de détection de pose de saisie. Ici, les données de nuage de points filtrées permettent au système d'isoler l'objet dans l'espace tridimensionnel. Le détecteur de pose de saisie évalue alors différentes positions potentielles de saisie et sélectionne la meilleure option en fonction des caractéristiques extraites.

Tests et Résultats dans le Monde Réel

Pour valider l'efficacité de VL-Grasp, des expériences ont été menées avec un vrai robot. Le robot a été testé dans divers scènes intérieurs, mimant des environnements quotidiens. Il a utilisé un bras robotique et un préhenseur spécialisé pour saisir des objets.

Conception de l'Expérience

Lors de ces expériences, le robot avait pour mission de saisir différents objets dans de nombreux contextes. Les objets étaient classés en deux groupes : ceux que le robot avait déjà vus lors de l'entraînement et de nouveaux objets qu'il n'avait pas rencontrés. L'objectif était d'évaluer à quel point le robot pouvait s'adapter à différents scénarios et objets.

Évaluation des Performances

Les résultats ont montré que VL-Grasp atteignait un taux de succès d'environ 72,5 % lors de la saisie d'objets. Ça veut dire que le robot pouvait réussir à attraper l'objet désigné la plupart du temps dans des environnements variés. Il a démontré une performance fiable tant dans des contextes familiers qu'inconnus.

Importance du Filtre de Nuage de Points

Un composant notable de la politique est le filtre de nuage de points. Ce filtre améliore les données entrant dans le réseau de détection de saisie. Il fonctionne en affinant les informations de profondeur pour se concentrer sur l'objet d'intérêt, réduisant le bruit de l'environnement. Les tests ont montré que l'utilisation de cette approche de filtrage améliorait significativement la capacité du robot à prédire les poses de saisie correctes.

Pourquoi VL-Grasp Est Important

Le développement de VL-Grasp et de l'ensemble de données RoboRefIt représente une avancée majeure dans le domaine de l'interaction robotique. En permettant aux robots de mieux comprendre et d'agir sur des commandes en langage naturel, cette technologie ouvre de nouvelles possibilités pour la collaboration entre humains et robots dans des scénarios quotidiens.

Des robots capables d'interpréter les commandes humaines et de s'adapter à divers scènes intérieurs seront plus utiles dans de nombreuses applications, y compris les tâches ménagères, la technologie d'assistance et l'automatisation industrielle. Cette capacité à apprendre des environnements complexes mènera à des interactions plus naturelles et efficaces entre les robots et les gens.

Directions Futures

En regardant vers l'avenir, l'accent sera mis sur la façon dont les robots peuvent saisir des objets dans des environnements plus ouverts et imprévisibles. À mesure que le domaine continue d'évoluer, d'autres recherches viseront à équiper les robots des outils nécessaires pour gérer des objets non vus, garantissant qu'ils restent efficaces dans des situations dynamiques et diverses.

En conclusion, VL-Grasp propose une approche prometteuse pour l'interaction robotique, alliant compréhension linguistique et techniques de saisie avancées. Au fur et à mesure que la technologie progresse, on peut s'attendre à voir plus de robots capables de s'intégrer parfaitement dans notre vie quotidienne, réalisant des tâches avec plus de facilité et d'efficacité.

Source originale

Titre: VL-Grasp: a 6-Dof Interactive Grasp Policy for Language-Oriented Objects in Cluttered Indoor Scenes

Résumé: Robotic grasping faces new challenges in human-robot-interaction scenarios. We consider the task that the robot grasps a target object designated by human's language directives. The robot not only needs to locate a target based on vision-and-language information, but also needs to predict the reasonable grasp pose candidate at various views and postures. In this work, we propose a novel interactive grasp policy, named Visual-Lingual-Grasp (VL-Grasp), to grasp the target specified by human language. First, we build a new challenging visual grounding dataset to provide functional training data for robotic interactive perception in indoor environments. Second, we propose a 6-Dof interactive grasp policy combined with visual grounding and 6-Dof grasp pose detection to extend the universality of interactive grasping. Third, we design a grasp pose filter module to enhance the performance of the policy. Experiments demonstrate the effectiveness and extendibility of the VL-Grasp in real world. The VL-Grasp achieves a success rate of 72.5\% in different indoor scenes. The code and dataset is available at https://github.com/luyh20/VL-Grasp.

Auteurs: Yuhao Lu, Yixuan Fan, Beixing Deng, Fangfu Liu, Yali Li, Shengjin Wang

Dernière mise à jour: 2023-08-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.00640

Source PDF: https://arxiv.org/pdf/2308.00640

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires