Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Apprendimento automatico# Robotica

Avanzamenti nelle Tecniche di Stima della Profondità

Un nuovo approccio per migliorare le mappe di profondità su diversi sensori.

― 8 leggere min


Rivoluzione nella stimaRivoluzione nella stimadella profonditàdella profondità tra i sensori.Nuovo modello migliora la mappatura
Indice

Le mappe di profondità, che mostrano la distanza degli oggetti da un punto di vista, sono essenziali in molti compiti visivi come la rilevazione di oggetti 3D, il riconoscimento delle azioni e la realtà aumentata. Per creare queste mappe in modo accurato, sono state utilizzate varie tecniche, soprattutto nel campo della visione artificiale. Il deep learning ha cambiato le regole del gioco, offrendo modi potenti per analizzare e interpretare scene usando solo immagini. Tuttavia, stimare la profondità da un'unica immagine ha le sue limitazioni, soprattutto quando le impostazioni della fotocamera cambiano o quando il sistema si trova di fronte a dati che non ha mai visto prima.

Tecniche di rilevamento attivo, come LiDAR e telecamere a tempo di volo, sono emerse come soluzioni pratiche per catturare informazioni sulla profondità. Questi metodi possono fornire dati di profondità in tempo reale in un'unica ripresa, ma di solito producono solo misurazioni sparse. Per convertire queste misurazioni sparse in mappe di profondità dense, è necessario analizzare le relazioni tra i pixel in quelle immagini. Tuttavia, i benchmark esistenti si basano solitamente su dataset specifici che non riflettono la varietà di sensori di profondità disponibili nelle situazioni reali.

Questo lavoro mira a creare un modello di stima della profondità che funzioni bene su diversi sensori. Ispirandosi a tecniche precedenti nel prompting visivo, è stato sviluppato un nuovo modulo di prompting della profondità. Questo modulo può integrarsi con modelli esistenti progettati per la stima della profondità da immagini singole. Incorporando questo prompting di profondità in modelli ben addestrati, possiamo permettere loro di fornire mappe di profondità accurate senza essere limitati dalla gamma del sensore originale. L'efficacia di questo metodo è dimostrata attraverso varie valutazioni.

Sfide nella stima della profondità

La stima della profondità è un compito impegnativo, soprattutto a causa dei pregiudizi che nascono da diversi sensori. Questi pregiudizi possono ostacolare la capacità di un modello di generalizzare in vari scenari. Ad esempio, se un modello è addestrato su dati raccolti con una densità o un pattern specifico da un tipo di sensore, potrebbe non comportarsi bene quando si trova di fronte a condizioni di input diverse durante il test.

Diversi pregiudizi comuni influenzano la stima della profondità:

  1. Pregiudizio di sparseness: Se un modello apprende da dati con una densità particolare e poi incontra dati meno densi durante il test, la sua capacità di produrre mappe di profondità accurate potrebbe risentirne.

  2. Pregiudizio di pattern: Questo si verifica quando l'arrangiamento dei punti di profondità cambia tra addestramento e test. Le prestazioni del modello potrebbero diminuire se i dati di addestramento e test non corrispondono in termini di pattern di profondità.

  3. Pregiudizio di gamma: Un modello potrebbe non stimare con precisione la profondità oltre la gamma limitata dei dati di scansione su cui è stato addestrato, portando a prestazioni scarse quando affronta profondità al di fuori di questa gamma.

Affrontare questi pregiudizi è cruciale per ottenere una stima accurata della profondità attraverso vari sensori attivi.

Il Modulo di Prompting della Profondità

Per affrontare il problema dei pregiudizi dei sensori nella stima della profondità, è stato progettato un nuovo modulo di prompting della profondità. Questo modulo opera creando uno spazio di embedding unificato per diversi tipi di misurazioni di input, permettendo una migliore rappresentazione delle caratteristiche. Fondamentalmente, usa una mappa di profondità di input come base per fondersi efficacemente con le caratteristiche dell'immagine, creando un'affinità pixel per pixel che aiuta nella stima della profondità.

Ridefinire la Propagazione Spaziale

Il modulo di prompting della profondità adotta una nuova prospettiva sul processo di propagazione spaziale, che è cruciale per generare mappe di profondità dense da misurazioni sparse. Incorporando pesi di affinità adattivi che variano a seconda del tipo di input di profondità, il modello può prevedere meglio la profondità in diversi scenari.

Estrazione delle Caratteristiche di Profondità

L'encoder del prompting della profondità utilizza una struttura encoder-decoder per apprendere e processare sia le informazioni posizionali che quelle di sparseness dalle mappe di profondità. L'encoder elabora la mappa di profondità di input, mentre il decoder costruisce una mappa di affinità che ha le stesse dimensioni della mappa di profondità. Questa mappa di affinità è utilizzata insieme alle caratteristiche dell'immagine per migliorare la stima della profondità.

Utilizzo di Modelli Fondamentali

I modelli fondamentali addestrati su ampi dataset fungono da spina dorsale per i compiti di previsione della profondità densa. Questi modelli forniscono mappe di profondità relative basate su immagini singole. Sebbene i modelli pre-addestrati mostrino grandi promesse per vari compiti di visione ad alto livello, non sono stati applicati in modo efficace per compiti a basso livello come la stima della profondità, principalmente a causa della mancanza di dati di profondità su scala metrica nel loro addestramento.

Per adattare questi modelli fondamentali per la stima della profondità indipendente dal sensore, viene introdotto il modulo di prompting della profondità. Regolando specifici termini di pregiudizio e mantenendo invariati altri parametri, il metodo preserva dettagli e contesto ad alta risoluzione catturati durante l'addestramento iniziale, essenziali per una previsione efficace della profondità.

Valutazione della Metodologia

Per testare l'approccio proposto, sono state effettuate valutazioni su vari dataset utilizzando diversi sensori di profondità. Queste valutazioni hanno esaminato la capacità del modello di generalizzare attraverso diverse condizioni di test, inclusa la variabilità nella sparseness, nei pattern e nelle gamme.

Configurazione degli Esperimenti

Negli esperimenti, sono stati confrontati vari metodi all'avanguardia per la stima della profondità da dati sparsi. Le metriche di valutazione includevano l'errore quadratico medio (RMSE), l'errore assoluto medio (MAE) e i rapporti di inlier. I dataset utilizzati comprendevano sia scenari interni che esterni, con immagini catturate con diversi sensori di profondità.

Risultati e Osservazioni

Le valutazioni hanno rivelato un miglioramento significativo nell'accuratezza della stima della profondità con il modulo di prompting della profondità proposto. A differenza di altri metodi che si basavano pesantemente su configurazioni di input specifiche, il modulo di prompting della profondità ha sfruttato la conoscenza acquisita dai modelli fondamentali per adattarsi a vari sensori.

Cross-validation

Esperimenti aggiuntivi hanno indagato le prestazioni del modello sia in ambienti interni che esterni, confermando la sua efficacia nel mantenere le caratteristiche visive in scenari diversi. I risultati hanno mostrato la capacità del modello di generalizzare efficacemente di fronte a dati di verità di terra limitati.

Affrontare i Problemi di Pregiudizio

Per convalidare ulteriormente la robustezza del modello contro i pregiudizi dei sensori, sono stati progettati esperimenti per valutare gli effetti della sparseness, delle variazioni di pattern e delle variazioni di gamma sulla stima della profondità. Questi esperimenti miravano a identificare come diverse condizioni influenzassero le prestazioni del modello.

Pregiudizio di Sparseness

I test hanno dimostrato che il modulo di prompting della profondità ha ridotto efficacemente l'impatto del pregiudizio di sparseness. Il modello ha costantemente fornito risultati accurati anche quando il numero di campioni di input è stato ridotto significativamente.

Pregiudizio di Pattern

L'influenza del pregiudizio di pattern è stata anch'essa valutata. I modelli addestrati su dati con pattern fissi hanno mostrato una limitata generalizzazione. Al contrario, la natura adattiva dell'ingegneria del prompting della profondità ha permesso al modello di beneficiare del campionamento casuale, migliorando le sue capacità di generalizzazione.

Pregiudizio di Gamma

Infine, gli esperimenti hanno affrontato il pregiudizio di gamma testando il modello con gamme di scansione superiori a quelle viste durante l'addestramento. I risultati indicano che il framework proposto ha mantenuto prestazioni superiori anche quando ha incontrato distribuzioni di profondità sconosciute.

Studi di Ablazione

Per comprendere il contributo di vari componenti all'interno del framework, sono stati condotti studi di ablazione. Questi studi hanno rivelato che l'incorporazione di un'augmentazione casuale della profondità ha ridotto significativamente gli effetti del pregiudizio di sparseness. Inoltre, il modello fondamentale pre-addestrato ha contribuito positivamente alle prestazioni complessive quando combinato con il modulo di prompting della profondità.

Inferenza Zero-shot

Un aspetto importante di questo lavoro è la sua applicabilità a scenari reali senza ulteriore addestramento. Il modello è stato testato su dataset raccolti da diversi sensori senza ulteriori affinamenti. I risultati hanno illustrato la capacità del modello di generalizzare in zero-shot, mostrando prestazioni costanti su vari sensori di profondità.

Conclusione

In sintesi, la nuova tecnica di prompting della profondità sviluppata in questo lavoro offre una soluzione affidabile per la stima della profondità, affrontando efficacemente i comuni pregiudizi dei sensori legati a densità fisse, pattern e limiti di gamma. Il metodo si distingue per la sua capacità di generalizzare attraverso diversi tipi di sensori e scenari, migliorando significativamente l'accuratezza e l'applicabilità della stima della profondità in contesti reali. Test estesi confermano la robustezza e l'adattabilità della soluzione proposta, stabilendola come uno strumento prezioso per i futuri sviluppi nelle tecnologie di percezione della profondità.

Fonte originale

Titolo: Depth Prompting for Sensor-Agnostic Depth Estimation

Estratto: Dense depth maps have been used as a key element of visual perception tasks. There have been tremendous efforts to enhance the depth quality, ranging from optimization-based to learning-based methods. Despite the remarkable progress for a long time, their applicability in the real world is limited due to systematic measurement biases such as density, sensing pattern, and scan range. It is well-known that the biases make it difficult for these methods to achieve their generalization. We observe that learning a joint representation for input modalities (e.g., images and depth), which most recent methods adopt, is sensitive to the biases. In this work, we disentangle those modalities to mitigate the biases with prompt engineering. For this, we design a novel depth prompt module to allow the desirable feature representation according to new depth distributions from either sensor types or scene configurations. Our depth prompt can be embedded into foundation models for monocular depth estimation. Through this embedding process, our method helps the pretrained model to be free from restraint of depth scan range and to provide absolute scale depth maps. We demonstrate the effectiveness of our method through extensive evaluations. Source code is publicly available at https://github.com/JinhwiPark/DepthPrompting .

Autori: Jin-Hwi Park, Chanhwi Jeong, Junoh Lee, Hae-Gon Jeon

Ultimo aggiornamento: 2024-05-20 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2405.11867

Fonte PDF: https://arxiv.org/pdf/2405.11867

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili