Avanzamenti nella ricostruzione di oggetti e scene
Questa ricerca mette in evidenza metodi migliori per ricostruire oggetti e scene in modo efficiente.
― 6 leggere min
Indice
Nella nostra ricerca, facciamo due esperimenti principali: uno si concentra sul ricostruire oggetti singoli, e l'altro sulla creazione di scene complete. Il primo esperimento valuta quanto bene funziona il nostro nuovo decodificatore, mentre il secondo confronto la nostra metodo a un più tradizionale metodo in due fasi.
Set di Oggetti
Per entrambi gli esperimenti, utilizziamo modelli 3D da un set specifico di oggetti che contiene vari tipi di oggetti. Questo set include oltre 2000 oggetti suddivisi in 46 categorie, ma noi selezioniamo solo alcune categorie per il nostro studio. Scegliamo oggetti che hanno una parte base fissa e una parte mobile. Alcuni oggetti, come manopole e pulsanti, non sono inclusi per mantenere il focus dello studio. Ci cataloghiamo gli oggetti in base a come possono essere posizionati in una stanza: come articoli singoli, quelli da mettere su piani di lavoro, e quelli da tavola.
In totale, raccogliamo 92 oggetti per l'allenamento e 25 per il test. Ogni categoria di oggetti ha un numero specifico di istanze che abbiamo selezionato per valutare accuratamente le prestazioni.
Canonicalizzazione degli Oggetti
Quando ricostruiamo gli oggetti, puntiamo a farlo in un riferimento standard. Di solito, gli oggetti vengono adattati per entrare in un cubo o in una sfera. Anche se questo metodo funziona bene per molti oggetti, può creare problemi per quelli con parti mobili. Adattare un oggetto mobile a una forma fissa può portare a risultati inaffidabili. Per risolvere ciò, utilizziamo un metodo specifico dove prima posizioniamo l'oggetto nel suo stato chiuso e poi lo allineiamo correttamente. Regoliamo poi la sua dimensione per farlo entrare in un cubo e applichiamo lo stesso aggiustamento a tutte le parti dell'oggetto, indipendentemente dalla sua posizione.
Questo processo aiuta a mantenere stabile la struttura dell'oggetto anche quando le diverse parti si muovono. Notiamo che regolare la dimensione non influisce su certi tipi di giunti, ma avrà un impatto su altri, e teniamo conto di questo nella nostra metodologia.
Compito di Ricostruzione Canonica
Nel nostro primo esperimento, ci concentriamo su quanto accuratamente i nostri decodificatori possono ricostruire la forma dell'oggetto e il suo stato di movimento. Il nostro obiettivo non è ricostruire l'oggetto così come visto da una telecamera, ma piuttosto nel suo riferimento standard. Ottimizziamo la forma e i dati di movimento dell'oggetto attraverso diversi passaggi per garantire precisione.
Per creare i dati per questo compito, applichiamo il processo di canonizzazione citato in precedenza ai nostri oggetti selezionati. Campioniamo poi ogni oggetto in diverse posizioni per creare strutture mesh a tenuta stagna e produrre punti dati accurati per la ricostruzione. Questi dati vengono ridimensionati per adattarsi a una forma cubica predefinita per coerenza.
Anche se non stiamo introducendo un nuovo set di dati, condividiamo il nostro codice affinché altri possano creare i propri dati utilizzando i nostri oggetti selezionati.
Baseline e Confronti
Nel nostro studio, confrontiamo i nostri risultati con un metodo esistente noto per la ricostruzione degli oggetti. Questo metodo è adatto a categorie di oggetti singoli. Prima testiamo quanto bene il nostro approccio funziona quando ci concentriamo su una singola categoria. Successivamente, addestriamo il nostro metodo su tutte le categorie per mostrare la sua versatilità.
Conduciamo anche uno studio aggiuntivo per valutare l'importanza di un approccio di similarità che abbiamo introdotto. In questa analisi, rimuoviamo alcuni passaggi per vedere come influiscono sulle prestazioni del nostro modello. Inoltre, adattiamo il metodo esistente per considerare anche il tipo di giunto coinvolto in ogni oggetto.
Per misurare quanto bene funziona il processo di ricostruzione, utilizziamo metriche specifiche per valutare la distanza tra le nostre forme ricostruite e le forme reali, oltre a valutare l'accuratezza dei movimenti previsti.
Risultati del Compito di Ricostruzione Canonica
Nei nostri risultati, non vediamo un metodo singolo che sovraperformi gli altri in modo significativo. Tuttavia, il nostro approccio mostra una leggera miglior performance complessiva quando testato su diverse categorie rispetto ai metodi esistenti. Questo suggerisce che separare i dati di movimento da quelli di forma può portare a miglioramenti.
Compito di Pipeline Completa
Nel secondo esperimento, esploriamo i vantaggi del nostro metodo nella ricostruzione di scene complete. Conduciamo questo esperimento utilizzando dati sia simulati che reali. In questo caso, valutiamo i nostri decodificatori addestrati in base a come gestiscono intere scene.
Nel scenario dei dati simulati, creiamo un grande ambiente cucina interno utilizzando i nostri oggetti selezionati. Prestiamo molta attenzione a come ogni oggetto è posizionato e campionato nelle scene. Raccogliamo dati su vari stati degli oggetti e generiamo immagini per valutare il nostro approccio.
Nella raccolta di dati del mondo reale, selezioniamo diversi tipi di oggetti domestici comuni e raccogliamo immagini da angolazioni diverse. Annotiamo queste immagini per fornire ulteriori contesti per la nostra analisi.
Confrontiamo i nostri risultati con set di dati esistenti, che non offrono lo stesso livello di dettaglio o varietà nelle immagini sintetiche. Per i nostri confronti, utilizziamo due versioni del metodo di ricostruzione degli oggetti esistente, una usando segmentazione e pose accurate, e un'altra versione che usa le nostre previsioni per segmentazione e pose.
Metriche di Confronto
Per valutare quanto bene funziona il nostro metodo, misuriamo sia gli errori di posizione e orientamento, sia l'accuratezza delle bounding boxes attorno agli oggetti. Queste metriche ci aiutano a capire quanto bene il nostro approccio affronta varie sfide, specialmente in scene complesse.
I nostri risultati indicano che il nostro metodo sovraperforma gli approcci esistenti quando si tratta di compiti di ricostruzione di scene complete, in particolare in situazioni in cui le occlusioni complicano il compito. Questo suggerisce che il processo in un singolo passaggio che utilizziamo è più efficace nel considerare l'intera immagine contemporaneamente.
Risultati Qualitativi
Presentiamo i nostri risultati qualitativi sia dai set di dati simulati che da quelli reali. I nostri confronti visivi mostrano come il nostro metodo mantenga alti livelli di dettaglio in vari scenari.
Velocità di Rilevamento
Oltre all'accuratezza del nostro metodo, misuriamo anche quanto velocemente elabora le informazioni rispetto ai metodi esistenti. I nostri test rivelano che il nostro approccio funziona significativamente più veloce, permettendo un rilevamento degli oggetti più efficiente senza sacrificare il dettaglio.
In conclusione, la nostra ricerca fornisce spunti su metodi efficaci per la ricostruzione sia di oggetti che di scene, evidenziando i vantaggi di un approccio in un singolo passaggio rispetto ai metodi tradizionali. Offriamo strumenti e metodi per altri nel campo per esplorare e costruire sui nostri risultati.
Titolo: CARTO: Category and Joint Agnostic Reconstruction of ARTiculated Objects
Estratto: We present CARTO, a novel approach for reconstructing multiple articulated objects from a single stereo RGB observation. We use implicit object-centric representations and learn a single geometry and articulation decoder for multiple object categories. Despite training on multiple categories, our decoder achieves a comparable reconstruction accuracy to methods that train bespoke decoders separately for each category. Combined with our stereo image encoder we infer the 3D shape, 6D pose, size, joint type, and the joint state of multiple unknown objects in a single forward pass. Our method achieves a 20.4% absolute improvement in mAP 3D IOU50 for novel instances when compared to a two-stage pipeline. Inference time is fast and can run on a NVIDIA TITAN XP GPU at 1 HZ for eight or less objects present. While only trained on simulated data, CARTO transfers to real-world object instances. Code and evaluation data is available at: http://carto.cs.uni-freiburg.de
Autori: Nick Heppert, Muhammad Zubair Irshad, Sergey Zakharov, Katherine Liu, Rares Andrei Ambrus, Jeannette Bohg, Abhinav Valada, Thomas Kollar
Ultimo aggiornamento: 2023-03-28 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.15782
Fonte PDF: https://arxiv.org/pdf/2303.15782
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.