HiFi-CS : Améliorer la saisie d'objets par les robots avec le langage
Une nouvelle méthode améliore la capacité des robots à saisir des objets en utilisant des commandes en langage naturel.
Vineet Bhat, Prashanth Krishnamurthy, Ramesh Karri, Farshad Khorrami
― 7 min lire
Table des matières
Les robots capables de comprendre le langage naturel ont plein d'applications utiles, surtout pour des tâches comme prendre et déplacer des objets. Une méthode importante pour ça s'appelle la Synthèse de Préhension Référentielle (SPR). Cette méthode permet aux robots de saisir des objets spécifiques en fonction d'un ordre en texte. Quand une personne dit quelque chose comme "prends la bouteille bleue," le robot doit comprendre où se trouve cette bouteille et comment la prendre en toute sécurité.
La SPR fonctionne en deux grandes étapes : d'abord, elle trouve l'objet dont parle la personne, ce qu'on appelle l'Ancrage Visuel. Ensuite, elle détermine comment saisir cet objet, ce qu'on appelle l'estimation de la posture de préhension. Récemment, des chercheurs ont examiné l'utilisation de modèles puissants de vision-langage (MVL) pour aider les robots à comprendre et à réaliser ces tâches. Cependant, il y a eu peu de recherches sur l’efficacité de ces méthodes dans des environnements en désordre, où il peut y avoir beaucoup d’objets similaires.
Cet article présente une nouvelle approche appelée HiFi-CS, qui aide les robots à mieux relier images et langage. Elle utilise un système de couches astucieux pour aider le robot à comprendre un langage compliqué qui décrit des objets. Cette méthode améliore la façon dont le robot identifie les objets dans des images 2D, surtout quand il s'agit de descriptions détaillées.
Manipulation Robotiques Guidée par le Langage
La manipulation robotique guidée par le langage est une partie essentielle pour rendre les robots plus interactifs avec les humains. Ça permet aux robots d'effectuer des tâches basées sur ce que les gens disent. Lorsqu'on donne un ordre pour saisir un objet, la SPR aide le robot à déterminer la meilleure façon de le prendre. Cela implique de relier l'entrée linguistique à des mouvements concrets que le robot va réaliser.
Par exemple, si un ordre dit "saisis la bouteille bleue," le système d'ancrage visuel du robot doit identifier la bonne bouteille en regardant son environnement dans des images 2D ou des modèles 3D. Ces images sont transformées en nuages de points, ce qui aide le robot à comprendre comment saisir l'objet.
Modèles vision-langage
L'Importance desLes MVL ont fait des avancées significatives pour combler le fossé entre la façon dont les robots voient le monde et comment ils comprennent le langage. Ces modèles sont formés sur de grandes quantités d'images et de textes associés, leur permettant d'apprendre efficacement les relations entre les objets et leurs descriptions.
La Synthèse de Préhension Référentielle consiste en ancrage visuel et estimation de la posture de préhension. En utilisant les MVL, les chercheurs ont pu améliorer la précision avec laquelle les robots peuvent identifier et saisir des objets. Cependant, les environnements réels sont souvent en désordre, et il peut y avoir beaucoup d'objets identiques qui peuvent embrouiller le robot. Par exemple, lorsqu'il y a plusieurs bouteilles qui se ressemblent, le robot doit se fier à des détails spécifiques dans l'ordre donné pour trouver la bonne.
Méthode Proposée : HiFi-CS
La nouvelle méthode, HiFi-CS, se concentre sur l'ancrage visuel dans deux situations : vocabulaire fermé et vocabulaire ouvert. Dans le vocabulaire fermé, les modèles sont testés sur des catégories d'objets connues, tandis que le vocabulaire ouvert implique des tests dans de nouveaux environnements et sur des objets jamais vus.
HiFi-CS est conçu pour améliorer la manière dont les robots identifient des objets décrits dans un langage complexe. Il utilise un système de segmentation léger qui peut traiter l'information rapidement. Ça veut dire que HiFi-CS peut être ajusté et utilisé dans des applications robotiques en temps réel.
Une caractéristique clé de HiFi-CS est son utilisation de couches de Modulation Linéaire par Caractéristiques (FiLM) pour aider à fusionner les données visuelles et textuelles. En combinant continuellement les informations tout en prédisant des masques de segments, le modèle peut mieux comprendre des requêtes d'entrée complexes. Cette approche garde le nombre de paramètres bas tout en offrant de bonnes performances.
Résultats Expérimentaux
L'efficacité de HiFi-CS a été évaluée dans deux scénarios : vocabulaire fermé et vocabulaire ouvert.
Évaluation du Vocabulaire Fermé
Dans des paramètres de vocabulaire fermé, le modèle a été testé sur deux ensembles de données contenant diverses scènes intérieures avec des objets pouvant être saisis. Un ensemble de données, RoboRefIt, comprenait de nombreuses images du monde réel avec des catégories d'objets spécifiques. L'autre, OCID-VLG, se concentrait sur des scènes en désordre où plusieurs instances d'objets étaient présentes.
Les résultats ont montré que HiFi-CS surpassait nettement d'autres modèles. Alors que d'autres modèles avaient du mal à identifier des objets non vus, HiFi-CS maintenait une haute précision grâce à son architecture efficace qui maximise l'utilisation des embeddings d'images et de textes pré-entraînés.
Évaluation du Vocabulaire Ouvert
Le vocabulaire ouvert pose un défi pour les robots, car ils doivent saisir de nouveaux objets qui ne faisaient pas partie des données d'entraînement. Dans un nouveau test, appelé RoboRES, HiFi-CS a été comparé à d'autres modèles de segmentation dans une situation où la détection guidée par le langage est importante.
Les résultats ont indiqué que HiFi-CS s'est mieux débrouillé pour identifier des objets dans des requêtes complexes. Il était aussi plus rapide que d'autres modèles, avec une moyenne de seulement 0,32 secondes par échantillon. Cependant, en ce qui concerne la reconnaissance d'objets non vus, certains modèles de détection en open-set ont mieux performé, probablement en raison de leur formation sur des ensembles de données plus vastes.
Expériences Réelles
Dans le monde réel, HiFi-CS a été associé à un bras robotique pour réaliser de vraies tâches de saisie. Le robot a été chargé de saisir divers objets, certains qu'il avait déjà vus et d'autres qu'il n'avait pas vus. L'installation impliquait de capturer des images sous différents angles pour comprendre comment mieux saisir les objets.
Les résultats ont montré que lorsque HiFi-CS était utilisé en combinaison avec un autre modèle de segmentation, la précision globale d'identification et de saisie des objets s'améliorait. Le robot a rencontré des défis lorsqu'il y avait beaucoup d'objets similaires, et parfois, il a mal identifié ce qu'il devait saisir en fonction de l'ordre donné.
Conclusion
Cette nouvelle approche met en lumière l'importance d'un bon ancrage visuel pour les tâches de saisie robotique. HiFi-CS montre du potentiel pour comprendre le langage complexe qui décrit des objets. Il identifie et segmente avec succès des objets dans des situations de vocabulaire fermé et ouvert, prouvant son efficacité dans des contextes réels.
Le travail futur se concentrera sur l'amélioration de la capacité du modèle à gérer des scénarios plus complexes et à affiner ses capacités de saisie. L'intégration de techniques de planification plus avancées sera également cruciale pour améliorer les performances du robot dans des environnements imprévus.
Limitations
Bien que HiFi-CS offre de nombreux avantages, il y a des limitations à prendre en compte. Des erreurs peuvent survenir lors de l'étape d'ancrage visuel, ce qui peut entraîner des saisies incorrectes. Pour y remédier, le modèle utilise une approche hybride pour améliorer la précision, mais cela repose toujours sur l'entrée d'une caméra portable. Augmenter le nombre de caméras pourrait aider à fournir une meilleure perception de profondeur et compréhension de l'environnement.
Alors que les chercheurs continuent de développer des modèles qui relient le langage et la robotique, les innovations dans ces domaines joueront un rôle crucial pour rendre les robots plus capables et efficaces dans des applications réelles.
Titre: HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models
Résumé: Robots interacting with humans through natural language can unlock numerous applications such as Referring Grasp Synthesis (RGS). Given a text query, RGS determines a stable grasp pose to manipulate the referred object in the robot's workspace. RGS comprises two steps: visual grounding and grasp pose estimation. Recent studies leverage powerful Vision-Language Models (VLMs) for visually grounding free-flowing natural language in real-world robotic execution. However, comparisons in complex, cluttered environments with multiple instances of the same object are lacking. This paper introduces HiFi-CS, featuring hierarchical application of Featurewise Linear Modulation (FiLM) to fuse image and text embeddings, enhancing visual grounding for complex attribute rich text queries encountered in robotic grasping. Visual grounding associates an object in 2D/3D space with natural language input and is studied in two scenarios: Closed and Open Vocabulary. HiFi-CS features a lightweight decoder combined with a frozen VLM and outperforms competitive baselines in closed vocabulary settings while being 100x smaller in size. Our model can effectively guide open-set object detectors like GroundedSAM to enhance open-vocabulary performance. We validate our approach through real-world RGS experiments using a 7-DOF robotic arm, achieving 90.33\% visual grounding accuracy in 15 tabletop scenes. We include our codebase in the supplementary material.
Auteurs: Vineet Bhat, Prashanth Krishnamurthy, Ramesh Karri, Farshad Khorrami
Dernière mise à jour: 2024-09-16 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.10419
Source PDF: https://arxiv.org/pdf/2409.10419
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.