Avancées dans la segmentation de nuages de points à quelques exemples
De nouvelles méthodes améliorent l'identification des classes dans des nuages de points 3D avec des données limitées.
― 8 min lire
Table des matières
La segmentation de nuages de points, c'est le processus qui consiste à étiqueter chaque point dans une scène 3D pour identifier les objets présents. C'est super important pour plein d'applications, comme les voitures autonomes et la robotique. Les méthodes traditionnelles de segmentation de nuages de points reposent souvent sur une grosse quantité de données étiquetées, ce qui n'est pas toujours dispo. Ça devient problématique quand de nouvelles catégories d'objets apparaissent pendant les tests, ce qui est courant dans des scénarios réels.
Pour répondre à ce problème, des méthodes de segmentation de nuages de points en quelques exemples (few-shot) ont vu le jour. Ces méthodes cherchent à entraîner un modèle avec seulement quelques exemples étiquetés de nouvelles classes tout en étant capable de segmenter précisément les classes familières. Cependant, beaucoup de ces approches ont du mal à garder leur précision sur les classes de base quand elles essaient d’identifier des nouvelles, ce qui les rend moins pratiques pour une utilisation réelle.
Dans cette étude, on veut introduire une meilleure approche pour la segmentation de nuages de points en few-shot qui peut gérer efficacement les nouvelles classes sans sacrifier la précision des classes déjà connues. Notre méthode, qu'on appelle segmentation de nuages de points en few-shot généralisée, vise à s'adapter à de nouvelles catégories en utilisant seulement un nombre limité d'exemples, tout en gardant la capacité d'identifier les classes de base.
Contexte du problème
Les techniques de segmentation de nuages de points entièrement supervisées ont montré des performances impressionnantes mais nécessitent une grande quantité de données annotées. Ces méthodes supposent que les classes présentes lors des tests seront les mêmes que celles utilisées durant l'entraînement. Cependant, cette supposition ne tient pas quand de nouvelles catégories émergent dans un environnement de test dynamique. Quand de nouvelles classes sont introduites, les modèles ont souvent besoin de vastes quantités de données annotées pour s'entraîner, ce qui est coûteux et prend du temps à obtenir.
Les méthodes de segmentation de nuages de points en few-shot (FS-3DSeg) essaient de résoudre ce problème en entraînant un modèle sur plein d'échantillons de classes de base puis en essayant d’identifier les nouvelles classes avec seulement quelques exemples. Elles utilisent généralement un entraînement épiscopal pour imiter l'environnement de test et améliorer l'extraction de caractéristiques, menant à des résultats corrects pour segmenter de nouvelles classes. Cependant, ces méthodes segmentent généralement seulement les nouvelles classes et ignorent les classes de base, ce qui limite leur utilisation pratique.
Le principal objectif de notre travail est de relever le défi auquel sont confrontées les méthodes FS-3DSeg. On propose une tâche qui nécessite que le modèle segmente à la fois les classes de base et les nouvelles classes en même temps, ce que les méthodes existantes ne font pas.
Aperçu de la méthode
Pour améliorer la performance de segmentation, on introduit le concept de mots géométriques (GWs). Ces mots représentent des structures géométriques fondamentales qui sont partagées entre les classes de base et les classes nouvelles. En utilisant des mots géométriques, on peut créer une représentation sémantique consciente de la géométrie qui aide à mieux segmenter les nouvelles classes sans perdre la capacité de segmenter les classes de base.
De plus, on introduit des prototypes géométriques pour guider le processus de segmentation en fournissant des connaissances préalables basées sur la géométrie. Les prototypes géométriques aident à garantir que le modèle reste efficace même en travaillant avec de nouvelles classes, en utilisant des caractéristiques géométriques partagées des classes de base.
Mots géométriques
Les mots géométriques ressemblent à des mots-clés en traitement d'images mais se concentrent sur les composants géométriques dans les nuages de points 3D. Ils résument les caractéristiques géométriques partagées trouvées dans les classes de base et nouvelles. Pour générer ces mots géométriques, on commence par entraîner un extracteur de caractéristiques sur les données de la classe de base. En appliquant un algorithme de clustering sur les caractéristiques, on peut identifier des centroïdes qui représentent les caractéristiques géométriques communes à différents objets. Cela aide le modèle de segmentation à être conscient de la géométrie même en travaillant avec peu de données pour les nouvelles classes.
Représentation sémantique consciente de la géométrie
La représentation sémantique consciente de la géométrie est une combinaison d'une caractéristique géométrique agnostique de la classe et d'une caractéristique sémantique spécifique à la classe. La caractéristique géométrique capture les informations géométriques générales de chaque point dans un nuage de points, tandis que la caractéristique sémantique conserve les caractéristiques spécifiques de la classe elle-même.
En fusionnant ces deux types de caractéristiques, on crée une représentation plus puissante pour chaque point. Pendant l'entraînement, on simule un environnement de test pour améliorer l'adaptabilité du modèle à de nouvelles situations. L'objectif est de minimiser la perte durant la segmentation, en s'assurant que les classes de base et nouvelles soient identifiées de manière précise.
Prototypes géométriques
Les prototypes géométriques servent de couche d'information supplémentaire pour améliorer la précision de segmentation. Ces prototypes se composent d'histogrammes qui représentent la fréquence des mots géométriques associés à chaque classe. Chaque classe peut être décrite de manière unique par son histogramme, mettant en avant les structures géométriques typiques.
Quand on a accès à des échantillons étiquetés limités de nouvelles classes pendant les tests, on peut tirer parti de ces prototypes géométriques pour guider nos prédictions. En comparant les caractéristiques géométriques des points de requête aux prototypes géométriques, on obtient des informations précieuses sur la classe à laquelle un point pourrait appartenir.
Réajustement des classificateurs
Pour améliorer encore la précision, on adopte une technique appelée réajustement du classificateur guidé par la géométrie. Ce processus utilise la correspondance géométrique entre les points de requête et les prototypes géométriques pour ajuster les poids des classificateurs, améliorant ainsi les prédictions pour les nouvelles classes.
En mettant en avant les classes potentielles pour chaque point de requête, on s'assure que le processus de segmentation est plus fiable que les méthodes traditionnelles qui se basent uniquement sur l'information sémantique. Cette double considération de la géométrie et de la sémantique aboutit à une meilleure performance de segmentation, surtout pour les nouvelles classes avec peu de données.
Résultats expérimentaux
Pour valider notre approche, on réalise de nombreuses expériences en utilisant deux ensembles de données publiques : S3DIS et ScanNet. Ces ensembles de données nous permettent d'évaluer la performance de notre méthode par rapport à des références établies en utilisant divers réglages pour le nombre d'échantillons de soutien.
Nos expériences montrent systématiquement que notre méthode surpasse les techniques existantes. On remarque des améliorations significatives dans la métrique de l'intersection sur l'union moyenne (mIoU) pour les nouvelles classes, ce qui indique que notre approche est meilleure pour identifier correctement de nouvelles catégories tout en maintenant la précision pour les classes de base.
Conclusion
En conclusion, on présente une nouvelle approche pour la segmentation de nuages de points qui combine les forces de l'information géométrique et sémantique. En introduisant des mots et des prototypes géométriques, notre méthode améliore la capacité à identifier les nouvelles classes avec seulement quelques échantillons étiquetés, tout en préservant la capacité du modèle à segmenter efficacement les classes familières.
Nos tests approfondis sur des ensembles de données de référence montrent que cette méthode offre une solution plus pratique pour la segmentation de nuages de points dans des environnements dynamiques. À l'avenir, on vise à continuer d'affiner notre approche et à évaluer sa performance sur d'autres ensembles de données et dans des scénarios réels.
Titre: Generalized Few-Shot Point Cloud Segmentation Via Geometric Words
Résumé: Existing fully-supervised point cloud segmentation methods suffer in the dynamic testing environment with emerging new classes. Few-shot point cloud segmentation algorithms address this problem by learning to adapt to new classes at the sacrifice of segmentation accuracy for the base classes, which severely impedes its practicality. This largely motivates us to present the first attempt at a more practical paradigm of generalized few-shot point cloud segmentation, which requires the model to generalize to new categories with only a few support point clouds and simultaneously retain the capability to segment base classes. We propose the geometric words to represent geometric components shared between the base and novel classes, and incorporate them into a novel geometric-aware semantic representation to facilitate better generalization to the new classes without forgetting the old ones. Moreover, we introduce geometric prototypes to guide the segmentation with geometric prior knowledge. Extensive experiments on S3DIS and ScanNet consistently illustrate the superior performance of our method over baseline methods. Our code is available at: https://github.com/Pixie8888/GFS-3DSeg_GWs.
Auteurs: Yating Xu, Conghui Hu, Na Zhao, Gim Hee Lee
Dernière mise à jour: 2023-09-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.11222
Source PDF: https://arxiv.org/pdf/2309.11222
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.