Avancées dans les techniques d'estimation de profondeur
Une nouvelle approche pour améliorer les cartes de profondeur sur différents capteurs.
― 9 min lire
Table des matières
Les cartes de profondeur, qui montrent la distance des objets par rapport à un point de vue, sont super importantes pour plein de tâches visuelles comme la détection d'objets 3D, la reconnaissance d'actions et la réalité augmentée. Pour créer ces cartes avec précision, différentes techniques ont été utilisées, surtout dans le domaine de la vision par ordinateur. L'apprentissage profond a été une vraie révolution, offrant des moyens puissants d'analyser et d'interpréter des scènes juste avec des images. Cependant, estimer la profondeur à partir d'une seule image a ses limites, surtout quand les réglages de la caméra changent ou quand le système rencontre des données qu'il n'a jamais vues avant.
Les techniques de détection active, comme le LiDAR et les caméras Time of Flight, sont venues comme des solutions pratiques pour capturer les infos de profondeur. Ces méthodes peuvent fournir des données de profondeur en temps réel en un seul coup, mais elles donnent généralement seulement des mesures éparses. Pour convertir ces mesures éparses en cartes de profondeur denses, il faut analyser les relations entre les pixels dans ces images. Cependant, les benchmarks existants s'appuient généralement sur des ensembles de données spécifiques qui ne reflètent pas la variété des capteurs de profondeur disponibles dans des situations réelles.
Ce travail vise à créer un modèle d'estimation de profondeur qui fonctionne bien avec différents capteurs. En s'inspirant des techniques précédentes de prompting visuel, un nouveau module de prompting de profondeur a été développé. Ce module peut s'intégrer avec des modèles existants conçus pour l'estimation de profondeur à partir d'images uniques. En intégrant ce prompt de profondeur dans des modèles bien entraînés, on peut leur permettre de fournir des cartes de profondeur précises sans être limités par la portée du capteur d'origine. L'efficacité de cette méthode est démontrée à travers diverses évaluations.
Défis dans l'estimation de profondeur
L'estimation de profondeur est une tâche difficile, surtout à cause des biais qui proviennent des différents capteurs. Ces biais peuvent nuire à la capacité d'un modèle à se généraliser dans divers scénarios. Par exemple, si un modèle est entraîné sur des données collectées avec une densité ou un motif spécifique d'un type de capteur, il peut ne pas bien performer lorsqu'il est confronté à des conditions d'entrée différentes durant les tests.
Plusieurs biais communs affectent l'estimation de profondeur :
Biais de sparsité : Si un modèle apprend à partir de données avec une densité particulière et qu'il rencontre ensuite des données moins denses lors des tests, sa capacité à produire des cartes de profondeur précises peut être affectée.
Biais de motif : Cela se produit lorsque l'agencement des points de profondeur change entre l'entraînement et le test. La performance du modèle pourrait chuter si les données d'entraînement et de test ne correspondent pas en termes de motifs de profondeur.
Biais de portée : Un modèle peut ne pas estimer la profondeur avec précision au-delà de la portée limitée des données de scan sur lesquelles il a été entraîné, entraînant ainsi de mauvaises performances face à des profondeurs en dehors de cette portée.
S'attaquer à ces biais est crucial pour obtenir une estimation de profondeur précise à travers divers capteurs actifs.
Le module de prompt de profondeur
Pour gérer le problème des biais de capteur dans l'estimation de profondeur, un nouveau module de prompt de profondeur a été conçu. Ce module fonctionne en créant un espace d'incorporation unifié pour différents types de mesures d'entrée, ce qui permet une meilleure représentation des caractéristiques. Essentiellement, il utilise une carte de profondeur d'entrée comme base pour fusionner efficacement avec les caractéristiques de l'image, créant une affinité pixel par pixel qui aide à l'estimation de profondeur.
Réinterprétation de la propagation spatiale
Le module de prompt de profondeur adopte une nouvelle perspective sur le processus de propagation spatiale, qui est crucial pour générer des cartes de profondeur denses à partir de mesures éparses. En incorporant des poids d'affinité adaptatifs qui varient selon le type d'entrée de profondeur, le modèle peut mieux prédire la profondeur à travers différents scénarios.
Extraction de caractéristiques de profondeur
L'encodeur de prompt de profondeur utilise une structure encodeur-décodeur pour apprendre et traiter à la fois les informations positionnelles et de sparsité provenant des cartes de profondeur. L'encodeur traite la carte de profondeur d'entrée, tandis que le décodeur construit une carte d'affinité de la même taille que la carte de profondeur. Cette carte d'affinité est utilisée en conjonction avec les caractéristiques de l'image pour améliorer l'estimation de profondeur.
Utilisation des modèles de base
Les modèles de base entraînés sur des ensembles de données vastes servent de fondation pour les tâches de prédiction de profondeur dense. Ces modèles fournissent des cartes de profondeur relatives basées sur des images uniques. Alors que les modèles pré-entraînés montrent un grand potentiel pour diverses tâches de vision de haut niveau, ils n'ont pas été appliqués efficacement à des tâches de bas niveau comme l'estimation de profondeur, principalement à cause d'un manque de données de profondeur de référence métrique dans leur entraînement.
Pour adapter ces modèles de base à l'estimation de profondeur agnostique au capteur, le module de prompt de profondeur est introduit. En ajustant des termes de biais spécifiques et en gardant les autres paramètres inchangés, la méthode préserve les détails et le contexte haute résolution capturés lors de l'entraînement initial, ce qui est essentiel pour une prédiction de profondeur efficace.
Évaluation de la méthodologie
Pour tester l'approche proposée, des évaluations ont été réalisées sur divers ensembles de données utilisant différents capteurs de profondeur. Ces évaluations ont mesuré la capacité du modèle à se généraliser à travers diverses conditions de test, y compris des variations de sparsité, de motifs et de portées.
Configuration de l'expérience
Dans les expériences, différentes méthodes à la pointe de la technologie pour l'estimation de profondeur à partir de données éparses ont été comparées. Les métriques d'évaluation comprenaient l'erreur quadratique moyenne (RMSE), l'erreur absolue moyenne (MAE) et les ratios de correspondance. Les ensembles de données utilisés comprenaient des scénarios intérieurs et extérieurs, comportant des images capturées avec différents capteurs de profondeur.
Résultats et observations
Les évaluations ont révélé une amélioration significative de la précision de l'estimation de profondeur avec le module de prompt de profondeur proposé. Contrairement à d'autres méthodes qui s'appuyaient fortement sur des configurations d'entrée spécifiques, le module de prompt de profondeur a tiré parti des connaissances acquises à partir des modèles de base pour s'adapter à divers capteurs.
Validation croisée
D'autres expériences ont examiné la performance du modèle dans des environnements intérieurs et extérieurs, confirmant son efficacité à maintenir les caractéristiques visuelles à travers différents scénarios. Les résultats ont montré la capacité du modèle à se généraliser efficacement face à des données de référence limitées.
S'attaquer aux problèmes de biais
Pour valider davantage la robustesse du modèle contre les biais de capteur, des expériences ont été conçues pour évaluer les effets de la sparsité, des changements de motifs et des variations de portée sur l'estimation de profondeur. Ces expériences visaient à identifier comment différentes conditions ont impacté la performance du modèle.
Biais de sparsité
Des tests ont démontré que le module de prompt de profondeur atténuait efficacement l'impact du biais de sparsité. Le modèle a constamment délivré des résultats précis même lorsque le nombre d'échantillons d'entrée était significativement réduit.
Biais de motif
L'influence du biais de motif a également été évaluée. Les modèles entraînés sur des données avec des motifs fixes ont montré une généralisation limitée. En revanche, la nature adaptative de l'ingénierie de prompt de profondeur a permis au modèle de bénéficier d'un échantillonnage aléatoire, ce qui a amélioré ses capacités de généralisation.
Biais de portée
Enfin, les expériences ont abordé le biais de portée en testant le modèle avec des portées de scan au-delà de ce qui avait été vu durant l'entraînement. Les résultats ont indiqué que le cadre proposé maintenait une performance supérieure même lorsqu'il était confronté à des distributions de profondeur inconnues.
Études d'ablation
Pour comprendre la contribution des différents composants au sein du cadre, des études d'ablation ont été menées. Ces études ont révélé que l'incorporation d'augmentation de profondeur aléatoire réduisait significativement les effets du biais de sparsité. De plus, le modèle de base pré-entraîné a contribué positivement à la performance globale lorsqu'il était combiné avec le module de prompt de profondeur.
Inférence sans entraînement
Un aspect important de ce travail est son applicabilité aux scénarios réels sans entraînement supplémentaire. Le modèle a été testé sur des ensembles de données recueillies à partir de différents capteurs sans ajustement supplémentaire. Les résultats ont illustré la capacité du modèle à se généraliser zéro-shot, montrant une performance constante à travers divers capteurs de profondeur.
Conclusion
En résumé, la nouvelle technique de prompting de profondeur développée dans ce travail offre une solution fiable pour l'estimation de profondeur, s'attaquant efficacement aux biais de capteur communs liés à des densités fixes, des motifs et des limitations de portée. La méthode se distingue par sa capacité à se généraliser à travers différents types de capteurs et de scénarios, améliorant ainsi significativement la précision et l'applicabilité de l'estimation de profondeur dans des situations réelles. Des tests approfondis confirment la robustesse et l'adaptabilité de la solution proposée, l'établissant comme un outil précieux pour les avancées futures dans les technologies de perception de profondeur.
Titre: Depth Prompting for Sensor-Agnostic Depth Estimation
Résumé: Dense depth maps have been used as a key element of visual perception tasks. There have been tremendous efforts to enhance the depth quality, ranging from optimization-based to learning-based methods. Despite the remarkable progress for a long time, their applicability in the real world is limited due to systematic measurement biases such as density, sensing pattern, and scan range. It is well-known that the biases make it difficult for these methods to achieve their generalization. We observe that learning a joint representation for input modalities (e.g., images and depth), which most recent methods adopt, is sensitive to the biases. In this work, we disentangle those modalities to mitigate the biases with prompt engineering. For this, we design a novel depth prompt module to allow the desirable feature representation according to new depth distributions from either sensor types or scene configurations. Our depth prompt can be embedded into foundation models for monocular depth estimation. Through this embedding process, our method helps the pretrained model to be free from restraint of depth scan range and to provide absolute scale depth maps. We demonstrate the effectiveness of our method through extensive evaluations. Source code is publicly available at https://github.com/JinhwiPark/DepthPrompting .
Auteurs: Jin-Hwi Park, Chanhwi Jeong, Junoh Lee, Hae-Gon Jeon
Dernière mise à jour: 2024-05-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.11867
Source PDF: https://arxiv.org/pdf/2405.11867
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.overleaf.com/project/650fdbe963e6da333155c942
- https://www.overleaf.com/user/subscription/plans?itm_referrer=editor-header-upgrade-prompt
- https://arxiv.org/pdf/2208.10771.pdf
- https://openaccess.thecvf.com/content_CVPR_2020/papers/Xia_Generating_and_Exploiting_Probabilistic_Monocular_Depth_Estimates_CVPR_2020_paper.pdf
- https://openaccess.thecvf.com/content/ICCV2023/papers/Xu_MasQCLIP_for_Open-Vocabulary_Universal_Image_Segmentation_ICCV_2023_paper.pdf
- https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10222824
- https://github.com/JinhwiPark/DepthPrompting