Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Sviluppi nel tracciamento di oggetti in AR mobile

Un nuovo modo per migliorare il tracciamento degli oggetti in realtà aumentata usando dispositivi mobili.

― 7 leggere min


Tracciamento AR MobileTracciamento AR Mobilemiglioratonegli ambienti di realtà aumentata.Metodi migliorati per il tracciamento
Indice

La tecnologia dei gemelli digitali ci permette di creare versioni digitali di oggetti reali. Questa tecnologia ha un sacco di potenziale per migliorare il modo in cui tracciamo e localizziamo oggetti in ambienti di realtà aumentata (AR). Tuttavia, tracciare oggetti in ambienti AR in movimento può essere piuttosto difficile. Un motivo è il rumore e le imprecisioni nei dati raccolti dai sensori. Questo articolo parla dei progressi nell'uso di un nuovo metodo per tracciare oggetti in AR che può affrontare le sfide del mondo reale.

La sfida del tracciamento di oggetti 3D

In AR, sapere con precisione dove si trovano gli oggetti nello spazio 3D è fondamentale per un'esperienza utente positiva. Il problema sorge quando si cerca di tracciare più oggetti in movimento. Se l'utente si muove, il sistema deve tenere traccia della posizione e dell'orientamento di ogni oggetto rispetto al punto di vista dell'utente. Questi oggetti possono muoversi in modi diversi e a volte possono essere bloccati dalla vista, il che aggiunge complessità.

La necessità di un tracciamento migliore

Approcci passati al tracciamento degli oggetti hanno spesso utilizzato tecniche di deep learning, che coinvolgono l'allenamento di modelli per capire le immagini e riconoscere oggetti. Anche se alcuni studi hanno mostrato successo, molti dataset usati per allenare questi modelli sono limitati. Spesso si concentrano su compiti come la presa robotica, e quando cerchiamo di applicare questi metodi all'AR mobile, sorgono nuovi problemi.

Lavori precedenti e limitazioni

È stato creato un dataset precedente, chiamato Digital Twin Tracking Dataset (DTTD), per adattarsi meglio alle esigenze dell'AR mobile. Tuttavia, è stato raccolto utilizzando un sensore specifico, che potrebbe non essere ideale per le applicazioni AR. I nuovi dispositivi mobili, come l'iPhone 14 Pro, sono dotati di sensori di profondità avanzati che potrebbero migliorare notevolmente il tracciamento.

Progressi nel tracciamento AR mobile

L'iPhone 14 Pro include uno scanner LiDAR, che fornisce dati di profondità che possono migliorare la nostra capacità di comprendere l'ambiente circostante. Questa tecnologia può aiutare non solo a determinare la posizione degli oggetti, ma anche a capire come si relazionano tra loro nello spazio.

Comprendere la stima della posa a 6DoF

Sei gradi di libertà (6DoF) si riferiscono alla capacità di determinare la posizione di un oggetto nello spazio 3D e il suo orientamento. Questo è cruciale per le applicazioni AR, poiché consente alle macchine di interagire con il mondo fisico in modo preciso. Tuttavia, la mappa di profondità generata dagli iPhone potrebbe non fornire la migliore risoluzione per questo compito, rendendo il tracciamento più difficile.

Introduzione di un nuovo modello

In risposta alle sfide affrontate nell'AR mobile, è stato proposto un nuovo modello basato su transformer per il tracciamento degli oggetti. Questo modello è progettato per gestire efficacemente i dati di profondità imprecisi dei dispositivi mobili, in particolare dell'iPhone 14 Pro. Sfruttando le caratteristiche uniche del sensore di profondità dell'iPhone, questo nuovo metodo punta a migliorare la performance del tracciamento.

Il Digital Twin Tracking Dataset v2

Per convalidare questo nuovo modello, è stato creato un nuovo dataset RGBD, chiamato Digital Twin Tracking Dataset v2 (DTTD v2). Si basa sul dataset precedente e incorpora nuovi dati raccolti dall'iPhone 14 Pro. Questo dataset è specificamente focalizzato su scenari che coinvolgono il tracciamento di oggetti in ambienti AR e consente ai ricercatori di studiare quanto bene i loro algoritmi possono gestire i dati provenienti dai dispositivi mobili.

Comprendere i Dati RGBD

I dati RGBD combinano immagini a colori normali (RGB) con immagini di profondità. Questa informazione extra dal sensore di profondità rende più facile determinare quanto siano lontani gli oggetti. Il modello utilizza entrambi i tipi di dati per capire meglio la scena e fare previsioni più accurate sulle posizioni degli oggetti.

L'architettura del modello

Il metodo di tracciamento consiste in diverse fasi chiave. Prima, vengono catturate e segmentate immagini e dati di profondità. Poi, le caratteristiche di questi input vengono codificate e combinate attraverso un processo chiamato fusione, che integra le informazioni provenienti da fonti RGB e di profondità. Infine, vengono generate previsioni sulla posizione e sull'orientamento dell'oggetto.

Gestione dei dati di profondità

Una caratteristica importante di questo modello è la sua capacità di affrontare i problemi che sorgono dai dati di profondità rumorosi. Sono stati introdotti due moduli speciali per migliorare il modo in cui vengono trattati i dati di profondità:

  1. Chamfer Distance Loss (CDL): Questo aiuta a filtrare il rumore nei dati di profondità confrontando i punti campionati dal modello dell'oggetto con quelli previsti dal modello.

  2. Geometric Feature Filtering (GFF): Questo modulo si concentra sul raffinamento della rappresentazione geometrica degli oggetti per ridurre l'impatto del rumore proveniente dal sensore di profondità dell'iPhone.

Meccanismo di attenzione

Il modello utilizza anche meccanismi di attenzione per enfatizzare le caratteristiche più importanti durante l'elaborazione. Questo consente al modello di concentrarsi sui punti rilevanti all'interno della scena e ignorare il rumore irrilevante, il che è particolarmente utile per ottenere un tracciamento accurato.

Fusione delle modalità

Nel processo di fusione, il modello combina le caratteristiche sia dai dati RGB che da quelli di profondità. Questo processo multi-fase garantisce che il modello possa analizzare le informazioni più rilevanti scartando il rumore che potrebbe portare a errori.

Metriche di valutazione

Per determinare quanto bene funzioni il nuovo metodo di tracciamento, vengono utilizzate varie metriche. L'errore medio di distanza tra le pose previste e le posizioni effettive degli oggetti è una delle metriche principali. Questo aiuta i ricercatori a valutare l'efficacia dei loro algoritmi in applicazioni reali.

Risultati sperimentali

Il nuovo metodo è stato testato contro metodi di base esistenti per valutare le sue prestazioni in diverse condizioni. I risultati hanno mostrato che il nuovo algoritmo ha superato significativamente i metodi tradizionali in scenari con input di profondità rumorosi.

Robustezza agli errori di profondità

Uno dei principali vantaggi del modello proposto è la sua robustezza nella gestione degli errori di profondità. Anche quando la qualità delle misurazioni di profondità era scarsa, il modello ha mantenuto prestazioni consistenti. Al contrario, i metodi esistenti hanno avuto difficoltà man mano che aumentava il rumore di profondità, portando a errori di tracciamento maggiori.

Raccolta e qualità del dataset

Per creare il dataset DTTD v2, i dati sono stati raccolti utilizzando lo scanner LiDAR dell'iPhone 14 Pro. Questo ha permesso di raccogliere simultaneamente informazioni RGB e di profondità di alta qualità. Il dataset robusto include vari scenari del mondo reale, avanzando la capacità di addestrare algoritmi di tracciamento efficaci.

Annotazione dei dati

Le etichette di verità a terra per le pose degli oggetti sono state annotati con attenzione, assicurandosi che i ricercatori potessero valutare efficacemente le prestazioni del loro modello. Il dataset include anche etichette di segmentazione per pixel, consentendo un'analisi più dettagliata di quanto bene gli algoritmi performino in diversi scenari.

Direzioni future

Andando avanti, ci sono diverse aree da esplorare. Una possibilità è quella di affinare ulteriormente gli algoritmi di tracciamento per renderli ancora più robusti contro il rumore del mondo reale. I ricercatori potrebbero anche voler ampliare il dataset per includere scenari più diversificati o sviluppare algoritmi che possano adattarsi a vari ambienti in tempo reale.

Conclusione

I progressi nella tecnologia dei gemelli digitali e nel tracciamento AR mobile stanno aprendo la strada a esperienze più immersive. Sfruttando i punti di forza degli smartphone moderni come l'iPhone 14 Pro, i ricercatori stanno iniziando a risolvere sfide complesse nel tracciamento e nella localizzazione. I metodi e il dataset proposti rappresentano un passo significativo avanti nello sviluppo di soluzioni di tracciamento affidabili e accurate per ambienti AR dinamici.

In sintesi, la combinazione di tecniche di modellazione avanzate e raccolta di dati di alta qualità aiuterà a spingere oltre i confini di ciò che è possibile nella realtà aumentata, creando un'interazione più fluida tra i mondi digitale e fisico.

Fonte originale

Titolo: Robust 6DoF Pose Estimation Against Depth Noise and a Comprehensive Evaluation on a Mobile Dataset

Estratto: Robust 6DoF pose estimation with mobile devices is the foundation for applications in robotics, augmented reality, and digital twin localization. In this paper, we extensively investigate the robustness of existing RGBD-based 6DoF pose estimation methods against varying levels of depth sensor noise. We highlight that existing 6DoF pose estimation methods suffer significant performance discrepancies due to depth measurement inaccuracies. In response to the robustness issue, we present a simple and effective transformer-based 6DoF pose estimation approach called DTTDNet, featuring a novel geometric feature filtering module and a Chamfer distance loss for training. Moreover, we advance the field of robust 6DoF pose estimation and introduce a new dataset -- Digital Twin Tracking Dataset Mobile (DTTD-Mobile), tailored for digital twin object tracking with noisy depth data from the mobile RGBD sensor suite of the Apple iPhone 14 Pro. Extensive experiments demonstrate that DTTDNet significantly outperforms state-of-the-art methods at least 4.32, up to 60.74 points in ADD metrics on the DTTD-Mobile. More importantly, our approach exhibits superior robustness to varying levels of measurement noise, setting a new benchmark for the robustness to noise measurements. Code and dataset are made publicly available at: https://github.com/augcog/DTTD2

Autori: Zixun Huang, Keling Yao, Seth Z. Zhao, Chuanyu Pan, Chenfeng Xu, Kathy Zhuang, Tianjian Xu, Weiyu Feng, Allen Y. Yang

Ultimo aggiornamento: 2024-06-17 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.13570

Fonte PDF: https://arxiv.org/pdf/2309.13570

Licenza: https://creativecommons.org/licenses/by-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili