Avancées dans la segmentation d'instance de robot
Une nouvelle méthode améliore l'apprentissage des robots avec peu de données étiquetées.
― 15 min lire
Table des matières
Les robots comptent sur leur capacité à voir et comprendre le monde qui les entoure pour manipuler des objets. Dans des environnements en désordre avec des objets variés, la plupart des méthodes nécessitent beaucoup de données étiquetées créées manuellement pour entraîner des modèles efficaces. Cependant, quand ces modèles sont utilisés dans de nouvelles situations, ils peinent souvent à s’adapter. Pour y remédier, un nouveau système est proposé qui combine deux méthodes : l’Apprentissage semi-supervisé (où seulement une partie des données est étiquetée) et l’apprentissage par interaction (où le modèle apprend en observant les changements dans les scènes). Ce système permet aux robots d'apprendre en observant les changements au fil du temps et en utilisant la cohérence visuelle, même quand les données ne sont pas soigneusement préparées.
Cette approche utilise des données qui ne sont que partiellement étiquetées et s'appuie sur des séquences vidéo qui fournissent des informations au fil du temps. La méthode a été testée sur deux benchmarks populaires, ARMBench et OCID, et a montré qu'elle pouvait performer mieux que beaucoup de systèmes existants. Sur ARMBench, elle a obtenu un score significatif avec seulement une infime fraction de données réellement étiquetées.
Obtenir des masques de Segmentation d'Instance précis nécessite qu'un modèle s'entraîne sur une grande quantité de données avec des annotations au niveau des pixels. Bien que rassembler des images soit facile, étiqueter chaque pixel de ces images peut coûter cher, surtout à mesure que les tâches deviennent plus grandes. C'est encore plus difficile pour les robots, car ils doivent se fier aux informations visuelles de leur environnement.
L'apprentissage semi-supervisé fonctionne en supposant que seule une partie des données est étiquetée, soit en regardant certaines scènes ou certains objets dans chaque scène. Le modèle essaie de prédire des étiquettes pour le reste des données en utilisant ses propres suppositions. Cependant, si un modèle commence à apprendre à partir de ses premières suppositions erronées, il peut ne pas s'améliorer comme prévu.
Les séquences vidéo ajoutent des informations supplémentaires en montrant comment les choses changent au fil du temps. Les méthodes récentes qui se concentrent sur l'apprentissage par interaction montrent combien il est important pour un modèle de comprendre ce qui se passe lorsque les choses changent. Ces techniques impliquent généralement d'observer des scènes où des changements se produisent, comme ajouter ou retirer des objets. En enregistrant des images avant et après les changements, le modèle peut mieux apprendre à interpréter son environnement.
Les méthodes actuelles de segmentation d'image vidéo gèrent de longues séquences où des objets peuvent entrer et sortir du champ de vision. Elles incluent souvent des techniques pour ajuster les variations de visibilité et d'apparence des objets. Cependant, utiliser des données vidéo nécessite beaucoup d'étiquetage manuel de chaque élément dans chaque image, ce qui prend du temps.
La nouvelle idée ici est que, bien que chaque méthode (SSL et LTI) aide à sa manière, les combiner simplement peut causer plus de problèmes. Si elles ne sont pas soigneusement combinées, le système pourrait juste renforcer les erreurs commises par le modèle sur l'ensemble de la séquence.
Ce travail introduit une méthode qui combine de manière fluide ces deux styles d'apprentissage pour améliorer la performance même lorsqu'il y a peu d'étiquettes disponibles. Le cadre renforce la force des deux méthodes sans dépendre de jeux de données spécialement préparés, en créant des séquences à partir d'images fixes qui simulent des interactions dans les scènes. Il empêche également les premières prédictions bruyantes de brouiller le processus d'apprentissage en liant les têtes de prédiction, stabilisant les résultats dès le début de l'entraînement.
Cette méthode fonctionne avec divers modèles et peut facilement s'adapter aux modèles de segmentation existants pour leur donner une compréhension du temps dans le processus d'apprentissage.
Pour vérifier l’efficacité de la méthode, elle a été validée sur deux ensembles de données importants où elle a montré des performances impressionnantes. Notamment, sur ARMBench, elle a surpassé des modèles établis qui avaient été formés sur beaucoup plus de données étiquetées.
Contexte et Travaux Liés
De nombreuses méthodes ont été développées pour la segmentation d'instance, en particulier celles conçues pour bien fonctionner même avec une supervision limitée. Cette section parle de ces approches pertinentes axées sur la supervision partielle et l'apprentissage à partir de données vidéo.
Les méthodes axées sur la supervision partielle utilisent les quelques exemples étiquetés disponibles pour faire des prédictions cohérentes à travers des objets similaires dans la scène. Ces dernières années, de nombreux efforts se sont concentrés sur l'apprentissage contrastif, qui rapproche des éléments similaires tout en éloignant les éléments dissemblables. Bien que des progrès aient été réalisés dans la détection et la classification d'objets, ces améliorations ne s'appliquent pas efficacement à la segmentation d'image, en particulier dans des situations difficiles avec des objets en désordre.
Des concepts comme la modulation de scène visent à aider le modèle à apprendre davantage en lui montrant des objets dans une variété de contextes et de situations d'éclairage. Cela peut aider considérablement à identifier et localiser des objets qui peuvent changer de forme ou d'apparence. Néanmoins, construire de grands ensembles de données de ces objets prend beaucoup de ressources et ne fonctionne pas toujours bien avec de nouvelles scènes comportant des objets différents. Certaines études ont montré du succès en intégrant des données simulées avant de passer à des scénarios du monde réel, mais créer des données synthétiques de haute qualité peut coûter cher.
Les images vidéo fournissent un contexte supplémentaire alors que le modèle apprend à reconnaître et identifier des objets à travers une série d'images. Les avancées récentes dans les méthodes de segmentation d'instance vidéo utilisent les informations des images précédentes pour améliorer la compréhension du modèle de ce qui se passe au fil du temps.
L'apprentissage par interaction va encore plus loin en se spécialisant dans des séquences où les scènes sont changées de manière contrôlée. Les images de ces ensembles de données montrent généralement des écarts significatifs entre les actions, contrairement aux données vidéo traditionnelles. Les changements dans ces images spécialement organisées aident le modèle à apprendre ce qui a réellement changé dans une scène.
Une grande question se pose quant à savoir s'il est possible d'enseigner à un modèle d'apprendre continuellement à partir d'environnements changeants après son déploiement en utilisant des séquences vidéo sans avoir besoin d'un ensemble de données spécial ou d'un modèle de segmentation spécifique.
Le nouveau cadre introduit ici, appelé Robot Instance Segmentation for Few-Annotation Grasping, combine l'apprentissage à partir de signaux temporels (à travers des interactions) et de signaux spatiaux (à travers l'Auto-supervision). Ce modèle est formé à partir d'images fixes, lui permettant d'apprendre de la présence cohérente des objets même lorsqu'ils sont déplacés.
Il n'a pas besoin d'un ensemble de données d'images méticuleusement agencées montrant des changements dans les scènes ou d'un grand nombre d'instances étiquetées. Grâce à cela, il peut mieux gérer les variations de domaine couramment observées dans la vie réelle.
La méthode utilise une image non étiquetée et une collection d'objets connus. Elle crée deux images : une image "avant" montrant la situation originale et une image "après" qui montre ce qui se passe après que certains objets ont été ajoutés ou retirés. Ces images sont traitées pour recueillir des caractéristiques utilisées pour faire des prédictions sur les objets dans l'image.
Segmentation d'Instance
La segmentation d'instance commence par une image d'entrée où des caractéristiques sont extraites à l'aide d'un modèle de fond. Ces caractéristiques sont ensuite envoyées à une couche d'encodage, et des prédictions concernant les étiquettes de classe, les boîtes englobantes et les masques pour les objets sont générées.
Différents modèles de fond, comme ResNet et Swin-L, ont été testés pour voir lequel performe le mieux. Le système utilise également un décodeur spatial puissant pour apprendre les caractéristiques efficacement. Les prédictions pour les étiquettes de classe et les boîtes englobantes sont créées à l'aide de réseaux simples à propagation avant, tandis que les prédictions de masques utilisent des caractéristiques multi-échelles des dernières couches du décodeur.
Quand des étiquettes sont disponibles, la fonction de perte inclut divers composants pour affiner les prédictions et améliorer la précision. Les innovations dans la détection d'objets ont également introduit des méthodes de transport optimal pour optimiser l'attribution des prédictions par rapport aux vérités de terrain, améliorant ainsi la performance globale.
Dans la phase d'entraînement, le modèle garde la trace des instances d'objets qu'il segmente avec succès. Cette mémoire d'instances est ensuite utilisée plus tard dans la phase auto-supervisée, où les instances étiquetées sont ajustées pour refléter les interactions dans la scène.
Apprentissage par Interaction
L'apprentissage par interaction est similaire au suivi d'objets. Il va au-delà de ce que la détection d'objets traditionnelle peut faire en utilisant des représentations d'instances à travers les images. Cette approche aide à rendre le modèle plus résilient aux problèmes comme l'occlusion.
Avec un cadre d'entrée non étiqueté contenant des instances inconnues, une nouvelle stratégie a été introduite pour créer des paires d'images illustrant ce qui se passe avant et après les interactions. L'image initiale est modifiée pour inclure certains objets d'une banque connue, et chacun de ces objets subit ses propres augmentations.
Une autre image capture la scène après une interaction, où certains objets peuvent avoir été retirés ou d'autres ajoutés. Ces images permettent efficacement au modèle de saisir les interactions se produisant dans une scène.
Stratégie d'Augmentation
Lors de l'ajout de nouveaux objets à une image, des problèmes peuvent survenir lorsque des objets importants peuvent être cachés ou obscurcis. Pour éviter cela, l'approche consiste à placer soigneusement des objets connus autour des bords de l'image. Cela réduit le risque que des objets importants soient bloqués de la vue.
Chaque objet inséré est vérifié pour s'assurer qu'il ne chevauche pas trop un autre objet déjà placé. Cette stratégie aide à fournir une instance claire de ce qu'il faut apprendre.
Perte d'Association
Après la création des images, les objets qui y sont contenus doivent encore fournir des données utiles. Les petits changements d'éclairage et de position d'une image à l'autre aident le modèle à apprendre des représentations cohérentes du même objet dans des environnements changeants.
Lorsque les embeddings extraits des deux images sont comparés, le modèle apprend à rapprocher ceux qui représentent le même objet tout en séparant ceux qui représentent des éléments différents.
Auto-Supervision
Pour mieux utiliser les données disponibles, le modèle de segmentation est utilisé pour l'apprentissage semi-supervisé. Le modèle prend en entrée des images qui manquent d'annotations claires et applique différents niveaux d'augmentations pour créer un ensemble de prédictions à comparer.
Les prédictions du modèle sont traitées comme des étiquettes pour les données faiblement augmentées par rapport aux fortes augmentations. L'idée est de créer une perte de régularisation qui aide à resserrer les définitions de ce que le modèle pense voir dans les images.
Pour s'assurer que le modèle reste précis, une stratégie est introduite pour filtrer les faibles prédictions. En ajustant le seuil pour ce qui compte comme une prédiction utile, le modèle peut apprendre de manière adaptative à partir de meilleures données.
Têtes de Prédiction Couplées
Une autre façon de filtrer les prédictions consiste à lier les prédictions de masques directement avec les prédictions de boîtes englobantes. Cette méthode de liaison des régions aide à affiner la compréhension que le modèle a de l'apparence de chaque segment.
L'utilisation d'approches qui combinent les masques prédits avec les boîtes englobantes améliore la façon dont les objets sont interprétés de manière cohérente, conduisant à de meilleures performances globales avec moins d'entrées étiquetées.
Correspondance Multi-Label
Au lieu d'éliminer les prédictions qui se chevauchent, la technique les intègre. La procédure de Correspondance Multi-Label permet au modèle de considérer plusieurs prédictions qui se chevauchent en lien avec l'étiquette la plus proéminente. Cet ajustement garantit que des informations précieuses sont conservées, surtout dans des scènes bondées.
Cadre Unifié
L'ensemble de l'architecture du système proposé inclut des composants pour l'apprentissage par interaction et l'apprentissage semi-supervisé qui convergent vers une seule fonction de perte. Il utilise efficacement les données étiquetées quand elles sont disponibles tout en optimisant les données non étiquetées grâce à ses stratégies d'apprentissage.
L'approche a subi plusieurs tests pour confirmer son efficacité dans le domaine de la saisie d'objets robotiques, ce qui est particulièrement utile pour les centres de distribution automatisés nécessitant que les robots prennent et placent des articles. Les tests ont impliqué de travailler avec des quantités variables de données étiquetées tout en traitant le reste comme non étiqueté.
L'ensemble de données ARMBench, ainsi qu'OCID pour divers ratios de données, a servi à mettre en lumière comment le système peut être appliqué à de nouveaux ensembles de données sans nécessiter d'altérations. La performance a été mesurée à l'aide de métriques prenant en compte la qualité globale.
En comparant cette approche avec des méthodes existantes à la pointe de la technologie, le nouveau modèle a surpassé les systèmes traditionnels même lorsqu'il avait accès à moins de données étiquetées.
Évaluation
Dans l'évaluation de la nouvelle méthode, de nombreuses comparaisons ont été faites avec des modèles établis qui auraient généralement accès à des quantités beaucoup plus importantes de données d'entraînement étiquetées. L'évaluation implique divers partitions de ratios étiquetés/non étiquetés.
Les résultats ont montré que la méthode proposée pouvait battre de manière constante les systèmes existants, prouvant qu'elle pouvait performer efficacement même lorsque seule une petite partie des données était étiquetée.
Lors des tests, il était clair que l'approche proposée non seulement gère bien les annotations limitées, mais produit de meilleurs résultats en termes de qualité par rapport aux modèles formés sur des données significativement plus importantes.
Comparaison de Modèle de Base
Comme une alternative de référence, cette approche a été comparée au modèle Segment Anything (SAM), qui, bien que robuste, a tendance à sur-segmenter et à produire des artefacts de masque imprécis malgré un ajustement sur des images spécifiques à un domaine limité.
Étude d'Ablation
Une étude d'ablation a été réalisée pour analyser et déterminer l'effet de divers choix de conception faits lors de la mise en œuvre de cette approche. Cette investigation détaillée a montré comment différents composants ont contribué à la performance globale du système.
Les résultats ont illustré que des innovations comme la stratégie de pseudo-séquence et le couplage des têtes de prédiction ont eu des impacts positifs significatifs sur les résultats finaux. L'approche combinée a largement dépassé les performances d'autres méthodes bien établies.
Enfin, la recherche a démontré que le cadre proposé non seulement combine les forces de l'apprentissage semi-supervisé et de l'apprentissage par interaction, mais le fait aussi sans nécessiter d'étiquetage excessif ou de jeux de données spécialement organisés.
À travers ces tests et évaluations, il est clair que le système améliore significativement la performance par rapport aux méthodes existantes dans le domaine de la segmentation d'instance, même avec une quantité limitée de données d'entraînement.
En conclusion, le cadre proposé non seulement s'attaque aux défis d'apprentissage à partir de peu d'annotations, mais ouvre également des voies pour un apprentissage et une amélioration continus dans la perception robotique à mesure que les conditions du monde réel changent.
Titre: Robot Instance Segmentation with Few Annotations for Grasping
Résumé: The ability of robots to manipulate objects relies heavily on their aptitude for visual perception. In domains characterized by cluttered scenes and high object variability, most methods call for vast labeled datasets, laboriously hand-annotated, with the aim of training capable models. Once deployed, the challenge of generalizing to unfamiliar objects implies that the model must evolve alongside its domain. To address this, we propose a novel framework that combines Semi-Supervised Learning (SSL) with Learning Through Interaction (LTI), allowing a model to learn by observing scene alterations and leverage visual consistency despite temporal gaps without requiring curated data of interaction sequences. As a result, our approach exploits partially annotated data through self-supervision and incorporates temporal context using pseudo-sequences generated from unlabeled still images. We validate our method on two common benchmarks, ARMBench mix-object-tote and OCID, where it achieves state-of-the-art performance. Notably, on ARMBench, we attain an $\text{AP}_{50}$ of $86.37$, almost a $20\%$ improvement over existing work, and obtain remarkable results in scenarios with extremely low annotation, achieving an $\text{AP}_{50}$ score of $84.89$ with just $1 \%$ of annotated data compared to $72$ presented in ARMBench on the fully annotated counterpart.
Auteurs: Moshe Kimhi, David Vainshtein, Chaim Baskin, Dotan Di Castro
Dernière mise à jour: 2024-07-01 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.01302
Source PDF: https://arxiv.org/pdf/2407.01302
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.