Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Améliorer la segmentation d'instances 3D avec des annotations bruyantes

Une méthode pour une meilleure segmentation de nuages de points en utilisant des techniques faiblement supervisées.

― 6 min lire


Amélioration desAmélioration destechniques desegmentation 3Dsegmentation d'objets 3D.supervision faible pour une meilleureUne nouvelle méthode utilisant une
Table des matières

La segmentation d'instance de nuage de points c'est super important pour comprendre les environnements 3D. Ça consiste à identifier et étiqueter des objets individuels dans un scan 3D, souvent créé à partir d'une série d'images. Les méthodes traditionnelles pour ça s'appuient généralement sur des annotations précises pour chaque point du scan. Mais ces annotations détaillées peuvent prendre un temps fou et demander beaucoup d'efforts. Du coup, les chercheurs cherchent des moyens moins stricts pour étiqueter ces objets, qu'on appelle Méthodes faiblement supervisées.

Une méthode faiblement supervisée qui plaît beaucoup consiste à utiliser des Boîtes Englobantes 3D pour représenter les objets. Annoter une boîte englobante c'est bien plus simple que de le faire point par point. Même si cette approche permet de fournir plus rapidement des infos sur les instances, elle a ses propres défis. Souvent, les boîtes englobantes créées manuellement peuvent être inexactes à cause de différents facteurs, ce qui impacte la performance lors de la segmentation des objets.

Défis avec les annotations bruyantes

Quand les annotations de boîtes englobantes ne sont pas parfaites, ça peut nuire à la performance des modèles de segmentation. En pratique, il est courant de voir quelques petites erreurs quand les humains dessinent ces boîtes. Même des inexactitudes mineures peuvent causer de gros soucis pour que le modèle identifie et étiquette correctement les points. Donc, il faut trouver des moyens d'améliorer la fiabilité des méthodes de segmentation, malgré ces annotations bruyantes.

Méthode proposée : CIP-WPIS

Notre méthode, qu'on appelle Segmentation d'Instance de Nuage de Points Induite par des Images Complémentaires Faiblement Supervisée (CIP-WPIS), vise à améliorer la performance de segmentation avec une supervision faible venant de boîtes englobantes bruyantes. La méthode s'appuie sur des connaissances existantes d'un modèle 2D bien connu appelé SAM, qui a été entraîné sur un grand dataset. SAM excelle à découper des objets dans des images en fonction de prompts, qu'on peut utiliser pour notre segmentation de nuages de points 3D.

Génération de points candidats

La première étape de notre méthode consiste à identifier des points candidats à partir des boîtes englobantes bruyantes. Au lieu de traiter tous les points dans une boîte comme de potentiels candidats, on utilise une technique appelée superpoints. Les superpoints représentent de petits clusters de points proches avec des caractéristiques similaires. En filtrant les candidats peu probables grâce aux superpoints, on peut se concentrer sur les points plus susceptibles d'appartenir à une instance spécifique.

Sélection des vues pour projection

Une fois qu'on a nos points candidats, la prochaine tâche est de déterminer quelles vues d'images 2D utiliser pour chaque instance. Comme une instance apparaît souvent dans plusieurs images, on doit sélectionner les vues qui offrent la meilleure visibilité des points candidats. Pour ça, on a créé un algorithme de sélection gourmande qui trouve progressivement les vues avec le plus de points candidats visibles.

Création de prompts pour SAM

Avec les vues sélectionnées, on génère des prompts pour que SAM puisse les utiliser dans la segmentation d'objets. On crée deux types de prompts : des prompts de premier plan, générés à partir des points projetés des objets candidats, et des prompts d'arrière-plan, qui sont des pixels échantillonnés autour de ces points. Ces prompts aident SAM à distinguer ce qui appartient à l'objet et ce qui n'appartient pas.

Attribution de confiance et affinage des labels

Une fois qu'on reçoit les Prédictions de segmentation de SAM, on attribue des scores de confiance à chaque point candidat basés sur ces prédictions. Les scores indiquent à quel point un point est susceptible d'appartenir à une instance spécifique. Pour affiner nos labels, on considère aussi la géométrie des nuages de points. En analysant la structure 3D et les relations entre les points, on peut corriger les éventuelles erreurs dans les attributions initiales.

Validation de la méthode

On a testé rigoureusement notre méthode en utilisant deux datasets bien connus : ScanNet-V2 et S3DIS. Ces datasets contiennent diverses scènes intérieures 3D avec différents niveaux de complexité. On voulait évaluer à quel point notre méthode pouvait bien fonctionner avec des annotations de boîtes englobantes bruyantes par rapport aux méthodes complètement supervisées. Les résultats montrent que notre méthode CIP-WPIS maintient une bonne performance de segmentation, même en présence d'annotations bruyantes.

Comparaison avec les méthodes précédentes

Quand on compare notre méthode aux approches existantes, on constate que CIP-WPIS donne de meilleurs résultats. Par exemple, on obtient une amélioration significative par rapport aux méthodes précédentes qui s'appuient uniquement sur les annotations de boîtes englobantes. Même quand le niveau de bruit dans les boîtes augmente, la performance de notre méthode reste solide avec seulement une légère baisse.

Les avantages d'utiliser des modèles de base

Un aspect clé de notre approche est d'utiliser les capacités de SAM, un modèle de base entraîné sur des données vastes et diversifiées. La capacité de SAM à générer des masques de haute qualité à partir d'images améliore nos résultats de segmentation. En tirant parti des connaissances d'un modèle qui a appris à partir de millions d'exemples, on peut traduire efficacement ces informations dans le domaine 3D.

Les connaissances de base fournies par SAM rendent notre méthode robuste face aux inexactitudes causées par une supervision faible. Ça veut dire que même quand les annotations de boîtes englobantes ne sont pas parfaites, on peut quand même obtenir des segmentations précises.

Directions futures

Bien que notre méthode montre du potentiel, il y a encore des domaines à améliorer. Une limite, c'est que même si notre approche améliore la précision des étiquettes, elle ne correspond peut-être pas encore à la précision des annotations générées par des humains. À l'avenir, on vise à affiner encore plus notre technique, peut-être en intégrant des stratégies plus sophistiquées pour gérer le bruit et améliorer la précision des étiquettes.

Une autre avenue potentielle pour le travail futur est d'explorer d'autres datasets et scénarios pour tester la robustesse de notre méthode. Comprendre comment elle performe dans divers contextes et avec différents types d'annotations bruyantes nous aidera à améliorer sa généralisabilité.

Conclusion

En résumé, notre approche de segmentation d'instance de nuage de points grâce à une supervision de boîtes englobantes bruyantes offre une forte alternative aux méthodes entièrement supervisées. En combinant les informations 2D et 3D, on peut produire des segmentations de haute qualité tout en réduisant le fardeau du travail d'annotation. Notre méthode montre un grand potentiel pour améliorer la compréhension des scènes 3D dans des applications réelles, facilitant l'analyse d'environnements complexes pour les chercheurs et les praticiens.

Source originale

Titre: When 3D Bounding-Box Meets SAM: Point Cloud Instance Segmentation with Weak-and-Noisy Supervision

Résumé: Learning from bounding-boxes annotations has shown great potential in weakly-supervised 3D point cloud instance segmentation. However, we observed that existing methods would suffer severe performance degradation with perturbed bounding box annotations. To tackle this issue, we propose a complementary image prompt-induced weakly-supervised point cloud instance segmentation (CIP-WPIS) method. CIP-WPIS leverages pretrained knowledge embedded in the 2D foundation model SAM and 3D geometric prior to achieve accurate point-wise instance labels from the bounding box annotations. Specifically, CP-WPIS first selects image views in which 3D candidate points of an instance are fully visible. Then, we generate complementary background and foreground prompts from projections to obtain SAM 2D instance mask predictions. According to these, we assign the confidence values to points indicating the likelihood of points belonging to the instance. Furthermore, we utilize 3D geometric homogeneity provided by superpoints to decide the final instance label assignments. In this fashion, we achieve high-quality 3D point-wise instance labels. Extensive experiments on both Scannet-v2 and S3DIS benchmarks demonstrate that our method is robust against noisy 3D bounding-box annotations and achieves state-of-the-art performance.

Auteurs: Qingtao Yu, Heming Du, Chen Liu, Xin Yu

Dernière mise à jour: 2023-09-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.00828

Source PDF: https://arxiv.org/pdf/2309.00828

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires