Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Amélioration de l'identification des parties d'image avec l'apprentissage actif

Un nouveau cadre améliore la précision de l'identification des parties mobiles dans les images.

― 8 min lire


Apprentissage actif pourApprentissage actif pourla segmentation d'imagesmouvement.précision pour identifier les pièces enUne nouvelle méthode améliore la
Table des matières

Dans notre vie quotidienne, on interagit avec plein d'objets qui ont des parties qui bougent, comme les appareils de cuisine ou les meubles. Comprendre comment ces parties fonctionnent est super important pour des tâches comme la robotique, la planification d'actions ou la création de modèles 3D. Cet article parle d'une nouvelle façon d'identifier et de labelliser avec précision ces parties mobiles dans des images réelles en utilisant une approche d'Apprentissage Actif.

Cadre d'Apprentissage Actif

On a développé un cadre qui aide à améliorer la précision de l'identification des parties dans les images. Ça fonctionne en combinant l'entrée humaine avec l'apprentissage automatique pour améliorer constamment ses performances tout en réduisant le travail manuel.

L'apprentissage actif est une méthode où un programme informatique apprend à partir d'une petite quantité de données étiquetées et demande de l'aide aux humains seulement quand c'est nécessaire. Dans notre cas, on utilise un type spécial de réseau connu sous le nom de transformateur qui se concentre sur des parties spécifiques d'une image pour faire des prédictions sur ce que ces parties sont.

Approche Grossière à Fine

Notre méthode comprend un processus en deux étapes pour segmenter, ou diviser, les images en parties. Dans la première étape, on crée un contour grossier de l'objet et de sa position dans l'image. Ce premier pas nous aide à identifier les parties sur lesquelles on doit se concentrer.

Dans la deuxième étape, on affine ce contour. On prend les premières suppositions de la première étape et on les améliore en fonction d'informations supplémentaires. Ça nous permet d'obtenir des résultats beaucoup plus précis tout en utilisant beaucoup moins d'efforts humains.

Évaluation des Performances

Notre méthode a montré qu'elle est très efficace. Elle peut atteindre plus de 96% de précision dans le labellisation des parties dans des images réelles, ce qui veut dire que la grande majorité de nos prédictions sont correctes. De plus, on a réduit le temps nécessaire pour l'annotation humaine d'environ 82%.

On a construit un ensemble de données composé de 2 550 images réelles montrant divers objets articulés. Cet ensemble de données est plus diversifié et de meilleure qualité que les ensembles de données existants, ce qui aide notre méthode à fournir de meilleurs résultats.

Importance de la Perception du Mouvement

Beaucoup d'objets du quotidien ont des parties qui bougent de manières spécifiques. Comprendre comment ces parties se déplacent nous permet de mieux saisir comment l'objet fonctionne. Par exemple, si on peut identifier comment une porte de placard s'ouvre, on peut prédire sa fonctionnalité. Cette compréhension est cruciale pour de nombreux domaines, y compris la vision par ordinateur et la robotique, où savoir comment les objets bougent est lié à la planification de tâches comme la manipulation d'objets.

Collecte de Données

Pour créer notre ensemble de données, on a capturé des images d'objets dans des environnements réels, comme des maisons et des bureaux. On a utilisé des smartphones modernes pour prendre ces photos, en veillant à ce qu'elles reflètent divers angles, distances et conditions d'éclairage. Notre ensemble de données comprend des images de plusieurs types d'objets, chacun avec différentes parties, permettant une analyse exhaustive.

Problème avec les Méthodes Précédentes

Beaucoup de méthodes existantes pour identifier des parties dans des images s'appuient sur des modèles 3D. Bien que ceux-ci puissent être utiles, ils nécessitent souvent beaucoup d'efforts manuels pour être créés. Les travaux précédents ont mis du temps à s'adapter aux images du monde réel à cause de cette dépendance aux données synthétiques. Bien que certains modèles aient montré des promesses, ils ne répondent toujours pas complètement aux besoins d'identification précise des parties dans de vraies photos.

Notre Méthode d'Apprentissage Actif

Pour résoudre le problème de labellisation des parties dans les images de manière précise, on a conçu un cadre d'apprentissage actif qui se concentre sur deux étapes distinctes. On commence par faire des prédictions initiales sur les parties présentes dans l'image. Des annotateurs humains vérifient ensuite ces prédictions, corrigeant les erreurs. Les prédictions corrigées sont ensuite utilisées pour entraîner le modèle davantage. Ce processus continue de manière itérative jusqu'à ce qu'on atteigne un ensemble de données bien étiqueté.

Dans la première étape, on crée des prédictions pour les directions d'interaction et les parties de contour. Les retours humains pendant cette étape aident à nettoyer les inexactitudes. Dans la deuxième étape, on affine encore ces prédictions, permettant au modèle de se concentrer sur les caractéristiques les plus pertinentes des objets.

Étape Grossière

Dans l'étape grossière de notre algorithme, on utilise plusieurs méthodes pour rassembler des informations à partir d'une image. On passe l'image à travers un détecteur d'objets qui aide à identifier l'objet et sa position grossière. Ça aide à créer une version masquée de l'image où les parties sur lesquelles on doit se concentrer sont mises en évidence.

Les résultats de cette première étape conduisent ensuite à une compréhension plus affinée des parties présentes dans l'image.

Étape Fine

L'étape fine est celle où on prend les prédictions grossières et les améliore. Les masques affinés générés à partir de l'étape grossière sont traités pour créer des étiquettes précises pour chaque partie identifiée. Cela inclut prédire le cadre autour de chaque partie et attribuer une étiquette sémantique pour aider à comprendre ce que chaque partie est.

Statistiques de l'Ensemble de Données Résultant

On a compilé notre ensemble de données et l'a comparé avec des ensembles de données existants. Notre ensemble de données comprend une collection bien distribuée d'images à travers six catégories, permettant une meilleure généralisation lors de l'entraînement de modèles de Segmentation. En fournissant des échantillons plus diversifiés, on s'assure que notre méthode peut apprendre efficacement à partir de différents scénarios.

Processus d'Annotation

Contrairement aux ensembles de données précédents qui s'appuyaient sur la projection d'Annotations à partir de modèles 3D sur des images 2D, notre ensemble de données implique d'annoter directement les images capturées. Cette approche minimise les erreurs qui surviennent à cause des incohérences de reconstruction et fournit des étiquettes de bien meilleure qualité pour les parties des objets.

Métriques de Performance

Pour évaluer l'efficacité de notre approche, on utilise diverses métriques de performance. Une métrique clé est la Précision Moyenne (mAP), qui mesure notre capacité à prédire les étiquettes et la segmentation des parties. On suit aussi le temps pris pour l'annotation, particulièrement en comparant notre configuration d'apprentissage actif avec des méthodes traditionnelles.

Comparaison avec d'Autres Méthodes

On compare notre modèle à des méthodes de segmentation existantes, dont plusieurs sont bien reconnues dans le domaine. Nos résultats montrent que notre approche surpasse les autres en termes de précision et d'efficacité. Cela provient en grande partie de l'incorporation de l'apprentissage actif, qui rationalise le processus d'annotation et améliore la qualité des prédictions.

Résultats Qualitatifs

Quand on analyse les résultats de notre méthode, on constate qu'elle excelle à identifier avec précision les parties à travers différentes catégories d'objets. La segmentation améliorée préserve la distinction de chaque partie mobile tout en gérant efficacement des arrière-plans complexes.

Applications du Travail

Notre travail a des implications importantes pour des applications pratiques. En identifiant et étiquetant avec précision les parties dans les images, on permet de mieux modéliser en 3D et manipuler des objets articulés. Cela pourrait être bénéfique dans des domaines comme la réalité virtuelle, la robotique et la fabrication où comprendre la fonctionnalité des objets est crucial.

Directions Futures

Pour l'avenir, on prévoit d'élargir notre ensemble de données et d'améliorer notre cadre d'apprentissage actif. Ce faisant, on vise à fournir des ressources encore plus précieuses à la communauté de la vision. Notre objectif ultime est de faciliter une meilleure compréhension et interaction avec les objets dans des scénarios réels.

Conclusion

Pour résumer, notre cadre d'apprentissage actif pour identifier les parties dans les images offre un outil puissant pour améliorer la précision dans la compréhension des objets articulés. Grâce à notre approche de grossière à fine et aux retours humains, on peut atteindre une haute précision tout en réduisant le travail manuel nécessaire pour le labellisation. Notre ensemble de données se présente comme une ressource robuste pour les recherches et applications futures, repoussant les limites de ce qui peut être réalisé dans la segmentation et la reconnaissance des objets.

Source originale

Titre: Active Coarse-to-Fine Segmentation of Moveable Parts from Real Images

Résumé: We introduce the first active learning (AL) model for high-accuracy instance segmentation of moveable parts from RGB images of real indoor scenes. Specifically, our goal is to obtain fully validated segmentation results by humans while minimizing manual effort. To this end, we employ a transformer that utilizes a masked-attention mechanism to supervise the active segmentation. To enhance the network tailored to moveable parts, we introduce a coarse-to-fine AL approach which first uses an object-aware masked attention and then a pose-aware one, leveraging the hierarchical nature of the problem and a correlation between moveable parts and object poses and interaction directions. When applying our AL model to 2,000 real images, we obtain fully validated moveable part segmentations with semantic labels, by only needing to manually annotate 11.45% of the images. This translates to significant (60%) time saving over manual effort required by the best non-AL model to attain the same segmentation accuracy. At last, we contribute a dataset of 2,550 real images with annotated moveable parts, demonstrating its superior quality and diversity over the best alternatives.

Auteurs: Ruiqi Wang, Akshay Gadi Patil, Fenggen Yu, Hao Zhang

Dernière mise à jour: 2024-07-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.11530

Source PDF: https://arxiv.org/pdf/2303.11530

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires