Progressi nella stima della posa 6D usando la perdita di covarianza lineare
Un nuovo metodo migliora l'accuratezza della stima della posa 6D dalle immagini.
― 7 leggere min
Indice
Stimare la posizione e l'orientamento degli oggetti nello spazio tridimensionale a partire da immagini bidimensionali è un compito importante nella visione artificiale. Questo compito, noto come Stima della posa 6D, ha molte applicazioni nel mondo reale come nella robotica, nei veicoli autonomi e nella realtà aumentata. Anche se l'uso di sensori di profondità può facilitare questo compito, non sono sempre disponibili, quindi i ricercatori si stanno concentrando sull'uso di immagini RGB normali.
I primi metodi per la stima della posa si basavano su reti di deep learning per indovinare direttamente la posa 6D da un'immagine. Tuttavia, approcci più recenti guardano alla geometria del problema e mirano a stabilire collegamenti tra punti 2D nell'immagine e punti 3D nel mondo reale. Da questi collegamenti, la posa può essere determinata utilizzando un metodo chiamato Perspective-n-Points (PnP).
Nonostante siano efficaci, ci sono sfide nel formare questi modelli perché i metodi PnP comuni non sono progettati per lavorare con l'apprendimento basato su gradienti. Questo significa che i modi tradizionali di supervisionare il processo di addestramento, che coinvolgono il confronto tra la posa prevista e quella reale, non possono essere applicati direttamente. Invece, sono stati creati diversi approcci per trasformare il passo PnP in una parte differenziabile del modello, consentendo una migliore integrazione con l'addestramento.
La Sfida con PnP
Quando si utilizza PnP, la soluzione si basa sulla media di più misurazioni. Tuttavia, questa media a volte può portare a risultati scarsi per misurazioni individuali. Quando formiamo il modello per migliorare la posa basandoci sulle misurazioni medie, potrebbe peggiorare involontariamente l'accuratezza delle connessioni individuali. Questo è un problema perché può confliggere con l'obiettivo di abbinare accuratamente i punti 2D ai loro rispettivi punti 3D.
Ad esempio, se due misurazioni 2D non sono vicine al valore reale ma sono entrambe incluse nella media, il processo di addestramento potrebbe spingerle ulteriormente dalla risposta corretta. Questo è problematico, specialmente quando si utilizzano più Corrispondenze 2D-3D come input per il risolutore PnP. Se ci sono più di quattro corrispondenze, il risolutore le media, il che può portare a imprecisioni in alcune corrispondenze.
Per affrontare questo problema, devono essere sviluppati nuovi metodi che si concentrano sull'accuratezza delle corrispondenze individuali piuttosto che solo sulla posa generale.
Un Nuovo Approccio alle Funzioni di Perdita
In questo lavoro, viene introdotta una nuova funzione di perdita che tiene conto della posizione effettiva dell'oggetto prima di applicare il metodo PnP. Guardando alla posa corretta, il metodo evita i problemi che sorgono dal processo di media in PnP. La nuova funzione di perdita si concentra sulla Covarianza della distribuzione delle pose derivate dai collegamenti, consentendo un miglioramento dell'accuratezza senza fare affidamento esclusivamente sulla posa finale fornita dal risolutore PnP.
Il metodo prevede alcuni passaggi chiave:
- Utilizzare la posa reale di riferimento prima di risolvere PnP.
- Calcolare la covarianza delle pose basandosi su questa verità di base.
- Definire la perdita basandosi sugli elementi diagonali di questa covarianza, che si collegano direttamente agli errori residui nelle corrispondenze 2D-3D.
Questo approccio ha mostrato risultati promettenti, poiché migliora costantemente l'accuratezza della stima della posa sia per i metodi che si basano su corrispondenze dense che per quelli che utilizzano corrispondenze sparse.
Lavori Correlati
Molti altri metodi hanno cercato di risolvere i problemi associati alla stima della posa 6D, in particolare in relazione alle connessioni tra punti 2D e 3D. Questi possono essere categorizzati in due tipi principali: metodi basati su keypoints sparsi e metodi di previsione densa.
Estimazione basata su Corrispondenze Sparse
I metodi sparsi si concentrano tipicamente sulla previsione di un numero ridotto di keypoints nell'immagine che corrispondono a punti 3D sull'oggetto. Ad esempio, possono prevedere gli angoli di una scatola attorno all'oggetto o altre caratteristiche significative. Tali metodi spesso passano questi punti previsti a un risolutore PnP per ottenere la posa finale.
Estimazione basata su Corrispondenze Dense
Al contrario, i metodi di corrispondenza densa prevedono le coordinate 3D per ciascun pixel all'interno della maschera dell'oggetto. Questi metodi spesso ritagliano l'immagine per concentrarsi sull'oggetto stesso e utilizzano rappresentazioni più complesse per fornire informazioni precise delle coordinate 3D. Tuttavia, affrontano ancora le stesse sfide con la natura non differenziabile dei risolutori PnP.
Metodo Proposto
Componenti Chiave del Nuovo Approccio
Questo nuovo metodo propone un approccio strutturato per la stima della posa. Il modello si basa su tecniche consolidate ma le modifica per ridurre i problemi derivanti dalla media effettuata dai risolutori PnP. I componenti chiave sono:
Approssimazione Lineare del Risolutore PnP: Comprendendo come funziona il risolutore PnP, il metodo proposto utilizza una versione linearizzata che può accettare la posa di verità di base come punto di riferimento. Questo consente un addestramento più preciso e porta a stime di posa migliori nel complesso.
Calcolo della Covarianza: La matrice di covarianza della distribuzione delle pose viene calcolata utilizzando questa approssimazione lineare, consentendo al modello di concentrarsi su quanto siano vicine le pose previste alla verità di base. Questo fornisce un metodo migliore di supervisione per la rete.
Perdita Linear-Covariance: L'innovazione principale è la perdita Linear-Covariance, che minimizza gli errori nelle pose previste tenendo conto della posizione effettiva dell'oggetto. Questa funzione di perdita migliora direttamente l'efficienza e l'accuratezza del processo di addestramento, portando a risultati migliori.
Applicazione del Metodo
Per valutare il metodo proposto, vengono condotti esperimenti su set di dati popolari utilizzati per la stima della posa. Questi includono i set di dati Linemod-Occluded (LM-O) e YCB-Video (YCB-V), che contengono una varietà di immagini con diversi oggetti. I risultati vengono confrontati con modelli all'avanguardia per dimostrare l'efficacia dell'approccio.
Esperimenti e Risultati
Impostazione Sperimentale
L'efficacia del metodo proposto è testata sui set di dati LM-O e YCB-V. Il modello viene addestrato e valutato utilizzando metriche standard, come il punteggio ADD(-S), che indica quanto bene la posa stimata corrisponde alla verità di base.
Gli esperimenti mostrano chiare migliorie nell'accuratezza delle stime di posa quando si utilizza la perdita Linear-Covariance rispetto ai metodi esistenti. Ad esempio, applicando la nuova funzione di perdita, i risultati sul set di dati LM-O superano molti degli approcci all'avanguardia.
Risultati su LM-O
Per il set di dati LM-O, l'applicazione della perdita Linear-Covariance porta a miglioramenti significativi nelle prestazioni. I risultati indicano che la nuova funzione di perdita non solo aiuta a migliorare la correttezza delle corrispondenze individuali, ma contribuisce anche all'accuratezza complessiva del modello.
Risultati su YCB-V
Analogamente, i risultati sul set di dati YCB-V dimostrano un chiaro vantaggio nell'utilizzo della perdita Linear-Covariance. Il metodo raggiunge prestazioni all'avanguardia, dimostrando la sua capacità di gestire scenari complessi con occlusioni e disordine nelle immagini.
Analisi della Correttezza del Gradiente
Un aspetto importante del metodo è la correttezza dei gradienti. Gli esperimenti indicano che il metodo proposto genera gradienti più affidabili durante l'addestramento. Questo porta a una maggiore coerenza nei segnali di supervisione forniti alla rete, a differenza dei metodi che non considerano il problema della media.
Conclusione
I risultati sottolineano l'efficacia della perdita Linear-Covariance nel migliorare l'accuratezza della stima della posa 6D a partire dalle immagini. Affrontando i problemi causati dalla natura media dei risolutori PnP, il nuovo metodo fornisce una base solida per future ricerche e applicazioni nel campo. Mentre la stima della posa 6D continua ad evolversi, questo approccio offre un percorso verso soluzioni più affidabili ed efficienti.
Nel lavoro futuro, l'obiettivo sarà ulteriormente raffinare il metodo ed esplorare la sua applicazione in scenari in cui le strutture dettagliate degli oggetti non sono disponibili. Complessivamente, l'attenzione sulla covarianza e sull'accuratezza delle singole corrispondenze rappresenta un passo significativo in avanti nella sfida continua della stima accurata della posa.
Titolo: Linear-Covariance Loss for End-to-End Learning of 6D Pose Estimation
Estratto: Most modern image-based 6D object pose estimation methods learn to predict 2D-3D correspondences, from which the pose can be obtained using a PnP solver. Because of the non-differentiable nature of common PnP solvers, these methods are supervised via the individual correspondences. To address this, several methods have designed differentiable PnP strategies, thus imposing supervision on the pose obtained after the PnP step. Here, we argue that this conflicts with the averaging nature of the PnP problem, leading to gradients that may encourage the network to degrade the accuracy of individual correspondences. To address this, we derive a loss function that exploits the ground truth pose before solving the PnP problem. Specifically, we linearize the PnP solver around the ground-truth pose and compute the covariance of the resulting pose distribution. We then define our loss based on the diagonal covariance elements, which entails considering the final pose estimate yet not suffering from the PnP averaging issue. Our experiments show that our loss consistently improves the pose estimation accuracy for both dense and sparse correspondence based methods, achieving state-of-the-art results on both Linemod-Occluded and YCB-Video.
Autori: Fulin Liu, Yinlin Hu, Mathieu Salzmann
Ultimo aggiornamento: 2023-10-08 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.11516
Fonte PDF: https://arxiv.org/pdf/2303.11516
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.