Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Migliorare la segmentazione di istanze 3D con annotazioni rumorose

Un metodo per una migliore segmentazione delle nuvole di punti usando tecniche debolmente supervisionate.

― 6 leggere min


Migliorare le tecniche diMigliorare le tecniche disegmentazione 3Ddegli oggetti 3D.debole per una migliore segmentazioneUn nuovo metodo che usa la supervisione
Indice

La segmentazione delle istanze delle nuvole di punti è fondamentale per comprendere gli ambienti 3D. Consiste nell'identificare e etichettare oggetti singoli all'interno di uno scan 3D, che spesso è creato a partire da una serie di immagini. I metodi tradizionali per questo processo di solito si basano su annotazioni precise per ogni punto nello scan. Tuttavia, queste annotazioni dettagliate possono richiedere molto tempo e sforzo. Come soluzione, i ricercatori stanno esplorando modi meno rigidi per etichettare questi oggetti, noti come Metodi debolmente supervisionati.

Uno dei metodi debolmente supervisionati più popolari prevede l'uso di scatole di delimitazione 3D per rappresentare gli oggetti. Annotare una scatola di delimitazione è molto più semplice che etichettare ogni punto singolarmente. Anche se questo approccio offre un modo più veloce per fornire informazioni sulle istanze, presenta delle sfide. Spesso, le scatole di delimitazione create manualmente possono risultare imprecise a causa di vari fattori, portando a prestazioni più scarse nella segmentazione degli oggetti.

Sfide con Annotazioni Rumorose

Quando le annotazioni delle scatole di delimitazione non sono perfette, possono compromettere le prestazioni dei modelli di segmentazione. Nella pratica, è comune vedere piccoli errori quando gli esseri umani tracciano queste scatole di delimitazione. Anche piccole imprecisioni possono causare problemi significativi con la capacità del modello di identificare e etichettare correttamente i punti. Pertanto, è necessario individuare modi per migliorare l'affidabilità dei metodi di segmentazione nonostante queste annotazioni rumorose.

Metodo Proposto: CIP-WPIS

Il nostro metodo, chiamato Segmentazione delle Istanze delle Nuvole di Punti Indotta da Immagini Complementari e Debolmente Superviste (CIP-WPIS), mira a migliorare le prestazioni di segmentazione con supervisione debole da scatole di delimitazione rumorose. Il metodo si basa su conoscenze già esistenti di un modello 2D molto apprezzato chiamato SAM, che è stato addestrato ampiamente su un grande dataset. SAM è ottimo a ritagliare oggetti nelle immagini basandosi su prompt, che possiamo usare per aiutare con la nostra segmentazione delle nuvole di punti 3D.

Generazione di Punti Candidati

Il primo passo del nostro metodo è identificare i punti candidati dalle scatole di delimitazione rumorose. Invece di trattare tutti i punti all'interno di una scatola di delimitazione come potenziali candidati, utilizziamo una tecnica chiamata superpunti. I superpunti rappresentano piccoli cluster di punti vicini con caratteristiche simili. Filtrando i candidati improbabili attraverso i superpunti, possiamo concentrarci sui punti che è più probabile appartengano a un'istanza specifica.

Selezione delle Visioni per Proiezione

Una volta che abbiamo i nostri punti candidati, il passo successivo è determinare quali viste di immagini 2D usare per ogni istanza. Poiché una singola istanza appare spesso in più immagini, dobbiamo selezionare le viste che offrono la migliore visibilità dei punti candidati. Per fare questo, abbiamo creato un algoritmo di selezione greedy che trova progressivamente le viste con i punti candidati più visibili.

Creazione di Prompt per SAM

Con le viste selezionate, generiamo prompt per SAM da utilizzare nella segmentazione degli oggetti. Creiamo due tipi di prompt: prompt di primo piano, che vengono generati dai punti proiettati degli oggetti candidati, e prompt di sfondo, che sono pixel prelevati intorno a questi punti. Questi prompt aiutano SAM a distinguere tra ciò che appartiene all'oggetto e ciò che non ci appartiene.

Assegnazione di Fiducia e Raffinamento delle Etichette

Una volta ricevute le Previsioni di Segmentazione da SAM, assegniamo punteggi di fiducia a ciascun punto candidato basandoci su queste previsioni. I punteggi indicano quanto è probabile che un punto appartenga a un'istanza specifica. Per affinare ulteriormente le nostre etichette, consideriamo anche la geometria delle nuvole di punti. Analizzando la struttura 3D e le relazioni tra i punti, possiamo correggere eventuali errori potenziali nelle assegnazioni iniziali.

Validazione del Metodo

Abbiamo testato rigorosamente il nostro metodo utilizzando due dataset ben noti: ScanNet-V2 e S3DIS. Questi dataset contengono una varietà di scene interne 3D con diversi livelli di complessità. Il nostro obiettivo era valutare come il nostro metodo potesse performare con annotazioni rumorose delle scatole di delimitazione rispetto ai metodi tradizionali completamente supervisionati. I risultati mostrano che il nostro metodo CIP-WPIS mantiene buone prestazioni di segmentazione, anche in presenza di annotazioni rumorose.

Confronto con Metodi Precedenti

Quando confrontiamo il nostro metodo con gli approcci esistenti, scopriamo che CIP-WPIS offre risultati migliori. Ad esempio, otteniamo un miglioramento significativo rispetto ai metodi precedenti che si basano esclusivamente sulle annotazioni delle scatole di delimitazione. Anche quando il livello di rumore nelle scatole di delimitazione aumenta, le prestazioni del nostro metodo rimangono forti con solo una leggera diminuzione.

I Vantaggi dell'Utilizzo di Modelli Fondamentali

Un aspetto chiave del nostro approccio è sfruttare le capacità di SAM, un modello fondamentale addestrato su dati estesi e diversificati. La capacità di SAM di generare maschere di alta qualità dalle immagini migliora i nostri risultati di segmentazione. Sfruttando le conoscenze di un modello che ha appreso da milioni di esempi, possiamo tradurre efficacemente queste informazioni nel dominio 3D.

Le conoscenze di base fornite da SAM rendono il nostro metodo robusto contro le imprecisioni che derivano dalla supervisione debole. Questo significa che anche quando le annotazioni delle scatole di delimitazione non sono perfette, possiamo comunque ottenere segmentazioni accurate.

Direzioni Future

Anche se il nostro metodo mostra promesse, ci sono ancora aree di miglioramento. Una limitazione è che, mentre il nostro approccio migliora l'accuratezza delle etichette, potrebbe non ancora eguagliare la precisione delle annotazioni generate dagli esseri umani. Man mano che avanziamo, miriamo a affinare ulteriormente la nostra tecnica, possibilmente integrando strategie più sofisticate per gestire il rumore e migliorare l'accuratezza delle etichette.

Un altro potenziale ambito per il lavoro futuro è esplorare ulteriori dataset e scenari per testare la robustezza del nostro metodo. Comprendere come si comporta in vari contesti e con diversi tipi di annotazioni rumorose ci aiuterà a migliorare la sua generalizzabilità.

Conclusione

In sintesi, il nostro approccio alla segmentazione delle istanze delle nuvole di punti attraverso la supervisione rumorosa delle scatole di delimitazione fornisce un'alternativa valida ai metodi completamente supervisionati. Sfruttando sia le informazioni 2D che 3D, possiamo produrre segmentazioni di alta qualità mentre minimizziamo il carico di lavoro per l'annotazione. Il nostro metodo mostra un grande potenziale per migliorare la comprensione delle scene 3D nelle applicazioni reali, rendendo più facile per i ricercatori e i professionisti analizzare ambienti complessi in modo efficiente.

Fonte originale

Titolo: When 3D Bounding-Box Meets SAM: Point Cloud Instance Segmentation with Weak-and-Noisy Supervision

Estratto: Learning from bounding-boxes annotations has shown great potential in weakly-supervised 3D point cloud instance segmentation. However, we observed that existing methods would suffer severe performance degradation with perturbed bounding box annotations. To tackle this issue, we propose a complementary image prompt-induced weakly-supervised point cloud instance segmentation (CIP-WPIS) method. CIP-WPIS leverages pretrained knowledge embedded in the 2D foundation model SAM and 3D geometric prior to achieve accurate point-wise instance labels from the bounding box annotations. Specifically, CP-WPIS first selects image views in which 3D candidate points of an instance are fully visible. Then, we generate complementary background and foreground prompts from projections to obtain SAM 2D instance mask predictions. According to these, we assign the confidence values to points indicating the likelihood of points belonging to the instance. Furthermore, we utilize 3D geometric homogeneity provided by superpoints to decide the final instance label assignments. In this fashion, we achieve high-quality 3D point-wise instance labels. Extensive experiments on both Scannet-v2 and S3DIS benchmarks demonstrate that our method is robust against noisy 3D bounding-box annotations and achieves state-of-the-art performance.

Autori: Qingtao Yu, Heming Du, Chen Liu, Xin Yu

Ultimo aggiornamento: 2023-09-02 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.00828

Fonte PDF: https://arxiv.org/pdf/2309.00828

Licenza: https://creativecommons.org/licenses/by-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili