Avanzando la corrispondenza delle forme nella visione artificiale
Un metodo innovativo per abbinare forme 3D diverse senza conoscenze preliminari.
― 6 leggere min
Nel mondo della visione computerizzata, un compito importante è quello di abbinare e confrontare Forme 3D. Questo processo aiuta i computer a riconoscere e categorizzare diversi oggetti in tre dimensioni. I metodi tradizionali si concentrano principalmente su forme simili, chiamate forme isometriche. Tuttavia, il nostro approccio va oltre, permettendo confronti tra forme che sono abbastanza diverse nella struttura, che noi chiamiamo forme fortemente non isometriche. Questo può includere il confronto tra forme umane e animali, che possono essere molto distinte tra loro.
Il nostro metodo può eseguire questo abbinamento senza necessitare di alcuna conoscenza pregressa o formazione specifica sulle nuove forme che vogliamo confrontare. Lo chiamiamo corrispondenza di forma zero-shot. Le forme fortemente non isometriche presentano una sfida unica perché possono variare ampiamente in forma e dimensione, rendendo difficile per i computer trovare somiglianze.
Come Funziona il Nostro Approccio
Il nostro metodo prevede diversi passaggi. Prima di tutto, identifichiamo la classe di ogni forma 3D. Utilizziamo un modello che può analizzare diverse viste delle forme. Alimentando queste viste in un modello linguistico-visivo, possiamo generare un elenco di possibili classi per ogni forma. Successivamente, utilizziamo le abilità di ragionamento di un modello di intelligenza artificiale conversazionale per unire queste proposte di classe in un'etichetta unica per forma.
Una volta ottenute le etichette di classe, dobbiamo segmentare le forme. A differenza della co-segmentazione tipica, dove ci aspettiamo che entrambe le forme condividano alcuni nomi di regione, il nostro processo consente set diversi di regioni semantiche. Utilizziamo le capacità di apprendimento contestuale dell'intelligenza artificiale conversazionale per creare due set separati di regioni per ogni forma e trovare una mappatura tra queste regioni.
Infine, combiniamo questa mappatura semantica per creare un abbinamento grossolano delle forme. Questo abbinamento grossolano può poi essere affinato ulteriormente utilizzando un framework conosciuto come Mappe Funzionali, risultando in una corrispondenza più precisa punto a punto tra le forme.
Importanza della Corrispondenza di Forma
La corrispondenza di forma è critica in varie applicazioni, come interpolazione di forme, morphing, rilevamento di anomalie nelle forme, allineamento di scansioni 3D e cattura del movimento. Tradizionalmente, abbinare forme comportava algoritmi complessi basati sull'ottimizzazione. Tuttavia, con l'ascesa del deep learning, sono emersi nuovi metodi che possono imparare rappresentazioni migliori delle forme e rendere i compiti di abbinamento più efficienti.
I metodi esistenti spesso si basano su grandi quantità di dati annotati, che potrebbero non essere disponibili per ogni forma o classe. Il nostro approccio si distingue perché non dipende da questo ampio set di dati, rendendolo adatto a una gamma più ampia di applicazioni.
Sfide nell'Abbinare Forme Non Isometriche
La principale sfida nell'abbinare forme non isometriche risiede nelle loro differenze intrinseche. I metodi tradizionali si concentrano spesso su coppie di forme più simili, portando a una mancanza di attenzione su quelle che differiscono significativamente, come il confronto tra un umano e un cane. Questa mancanza di focus è stata principalmente dovuta all'assenza di dataset che contengano coppie di classi diverse e alla complessità coinvolta nell'abbinare tali forme dissimili.
Per superare questi problemi, sfruttiamo le capacità dei modelli di fondazione su larga scala, che sono addestrati su enormi quantità di dati. Questi modelli possono gestire vari compiti, ma in genere hanno limitazioni quando si tratta di modalità specifiche come le forme 3D.
Per abilitare il nostro approccio, identifichiamo tre problemi chiave: prevedere la classe delle forme, produrre set di regioni semantiche per ogni forma e eseguire la Segmentazione Semantica in modo zero-shot senza nomi di regione condivisi.
Passi Coinvolti nella Classificazione delle Forme
Per classificare le forme, rendersiamo più viste di ogni oggetto 3D e inseriamo queste in un modello linguistico-visivo. Questo modello genera proposte per la classe di ogni forma. Poi utilizziamo la nostra intelligenza artificiale conversazionale per unificare queste proposte in una singola classe per ogni forma.
Il passo successivo prevede la generazione di regioni semantiche per le forme. Questo processo è complicato perché le due forme potrebbero non condividere nomi di regione comuni. Quindi, dobbiamo derivare due set di nomi potenziali per le regioni in ciascuna forma e tentare di abbinarli dove possibile.
In termini di segmentazione, abbiamo sviluppato un nuovo metodo che ci permette di eseguire questo compito senza dipendere da set di regioni predefiniti. Invece, sfruttiamo gli sviluppi recenti nei modelli su larga scala per eseguire la mappatura tra le due forme.
Corrispondenza Densa delle Forme
Dopo aver stabilito corrispondenze grossolane tramite mappatura semantica, puntiamo a una corrispondenza densa punto a punto. Utilizziamo mappe funzionali, che tradizionalmente mirano a forme simili, ma la nostra inizializzazione con la mappatura semantica ci consente di ottenere risultati significativi anche con forme non simili.
Il risultato è una mappa di corrispondenza completa che fornisce un abbinamento dettagliato tra le due forme, catturando i dettagli rilevanti nonostante le sfide presentate dalle loro differenze.
Valutazione e Creazione del Dataset
Per valutare il nostro approccio, abbiamo creato un nuovo dataset che include coppie di forme fortemente non isometriche. Abbiamo incluso una varietà di classi, come animali e figure umane, per testare le capacità del nostro metodo di generalizzare tra diverse forme.
Abbiamo anche sviluppato diversi metriche di valutazione per assessare le prestazioni della nostra pipeline in diverse fasi, come l'accuratezza della classificazione zero-shot, la generazione di regioni semantiche e l'accuratezza della segmentazione semantica.
I risultati dei nostri esperimenti indicano che il nostro metodo performa eccezionalmente bene, anche confrontato con altri approcci esistenti. Abbiamo dimostrato che il nostro sistema può abbinare con precisione forme che non solo sono strutturalmente diverse, ma appartengono anche a classi completamente diverse.
Direzioni Future
Anche se il nostro approccio ha dimostrato un notevole successo, c'è ancora margine di miglioramento. Il lavoro futuro potrebbe concentrarsi sul perfezionamento del processo di segmentazione per ottenere dettagli più fini, consentendo un miglior abbinamento di piccole caratteristiche. Inoltre, puntiamo ad espandere le capacità dei nostri modelli di fondazione per includere una gamma più ampia di compiti, comprese relazioni più complesse tra forme 3D, immagini e descrizioni testuali.
Intendiamo anche adattare il nostro framework delle mappe funzionali per migliorarne l'efficacia per forme non isometriche, trovando potenzialmente modi per ridurre eventuali artefatti che potrebbero verificarsi a causa della natura della mappatura.
Conclusione
In sintesi, il nostro approccio zero-shot alla corrispondenza delle forme 3D offre una soluzione promettente alle sfide poste dall'abbinamento di forme diverse e non isometriche. Sfruttando modelli linguistico-visivi avanzati, possiamo classificare e segmentare le forme in modo efficiente, abilitando capacità migliorate per il confronto e l'analisi. Il nostro nuovo dataset e le metriche di valutazione aprono la strada a ulteriori ricerche e sviluppi in questo campo, spingendo i confini di ciò che è possibile nell'abbinamento e riconoscimento delle forme all'interno della visione computerizzata.
Titolo: Zero-Shot 3D Shape Correspondence
Estratto: We propose a novel zero-shot approach to computing correspondences between 3D shapes. Existing approaches mainly focus on isometric and near-isometric shape pairs (e.g., human vs. human), but less attention has been given to strongly non-isometric and inter-class shape matching (e.g., human vs. cow). To this end, we introduce a fully automatic method that exploits the exceptional reasoning capabilities of recent foundation models in language and vision to tackle difficult shape correspondence problems. Our approach comprises multiple stages. First, we classify the 3D shapes in a zero-shot manner by feeding rendered shape views to a language-vision model (e.g., BLIP2) to generate a list of class proposals per shape. These proposals are unified into a single class per shape by employing the reasoning capabilities of ChatGPT. Second, we attempt to segment the two shapes in a zero-shot manner, but in contrast to the co-segmentation problem, we do not require a mutual set of semantic regions. Instead, we propose to exploit the in-context learning capabilities of ChatGPT to generate two different sets of semantic regions for each shape and a semantic mapping between them. This enables our approach to match strongly non-isometric shapes with significant differences in geometric structure. Finally, we employ the generated semantic mapping to produce coarse correspondences that can further be refined by the functional maps framework to produce dense point-to-point maps. Our approach, despite its simplicity, produces highly plausible results in a zero-shot manner, especially between strongly non-isometric shapes. Project webpage: https://samir55.github.io/3dshapematch/.
Autori: Ahmed Abdelreheem, Abdelrahman Eldesokey, Maks Ovsjanikov, Peter Wonka
Ultimo aggiornamento: 2023-09-27 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.03253
Fonte PDF: https://arxiv.org/pdf/2306.03253
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.