Présentation du Transformer de Partage de Token pour l'Estimation de Profondeur
Une nouvelle méthode d'estimation de profondeur avec une seule caméra en robotique.
― 7 min lire
Table des matières
L'estimation de la profondeur est une tâche clé en robotique. Ça aide les machines à comprendre à quelle distance se trouvent les objets. Pour les robots mobiles, utiliser une seule caméra RGB pour l'estimation de la profondeur est une option intéressante parce que c’est économique et compact. Ça a mené à plein de systèmes légers d'estimation de la profondeur qui sont faciles à déployer.
Ces dernières années, les méthodes traditionnelles reposaient principalement sur des réseaux de neurones convolutifs (CNN). Cependant, une approche plus récente avec les Transformers attire de plus en plus l'attention. Les Transformers peuvent apprendre efficacement des informations à travers les images, mais ils nécessitent généralement beaucoup de puissance de calcul, ce qui les rend difficiles à utiliser sur des appareils compactes et à faible consommation.
Token-Sharing Transformer (TST)
Pour répondre aux limites des méthodes existantes, un nouveau système appelé Token-Sharing Transformer (TST) a été introduit. TST est conçu spécifiquement pour l'estimation de la profondeur avec une seule caméra tout en étant suffisamment efficace pour fonctionner sur de petits appareils. La caractéristique clé de TST est sa façon unique de partager les informations, appelée partage global de tokens. Ça permet au modèle de faire des prédictions de profondeur précises tout en maintenant une vitesse de traitement élevée.
Défis avec les Méthodes Traditionnelles
Beaucoup de systèmes légers pour l'estimation de la profondeur s'appuient sur des CNN. Bien que ces méthodes soient performantes, elles sont souvent moins précises face à des scènes complexes. Les Transformers apportent une solution mais sont généralement trop lourds pour les appareils en edge à cause de leurs exigences de traitement.
Les Transformers ont généralement un grand nombre de paramètres, ce qui les rend plus lents que les CNN. Donc, la plupart des systèmes légers d'estimation de la profondeur continuent d'utiliser des CNN, surtout en robotique mobile.
Combiner les Forces
L'architecture proposée, TST, vise à combiner les avantages des architectures axées sur la hiérarchie et celles axées sur le goulet d'étranglement. En gros, certaines méthodes se concentrent sur la capture de caractéristiques détaillées (axées sur la hiérarchie) tandis que d'autres privilégient la vitesse (axées sur le goulet d'étranglement). TST cherche à atteindre à la fois précision et efficacité en permettant au système de partager des informations efficacement à travers différents niveaux de détails.
TST utilise un CNN léger pour recueillir des caractéristiques d'une image. Ces caractéristiques servent de tokens locaux, tandis qu'un token global partagé capture des informations plus larges. Le système applique attention entre ces tokens, ce qui lui permet d'apprendre des détails importants efficacement.
Test de TST
Le modèle proposé a été testé sur deux ensembles de données : NYU Depth V2 et KITTI. Il a montré des résultats prometteurs, performants mieux que les méthodes légères existantes. Notamment, TST peut générer des cartes de profondeur à des vitesses impressionnantes-63,4 images par seconde (IPS) sur un appareil et jusqu'à 142,6 IPS sur un autre, tout en maintenant des taux d'erreur plus bas que beaucoup d'autres systèmes.
Importance des Informations de Profondeur
Les informations de profondeur sont essentielles pour diverses applications en robotique, comme la navigation, la détection d'objets et la conduite autonome. Les capteurs traditionnels qui mesurent la profondeur, comme LiDAR ou les caméras à temps de vol, peuvent être trop chers et encombrants pour de nombreux robots mobiles. Donc, utiliser une seule caméra RGB pour estimer la profondeur devient une alternative viable.
Réseaux Légers
Avec le besoin croissant d'Estimation de profondeur rapide et efficace, plusieurs réseaux légers ont été proposés. Beaucoup de ces réseaux utilisent des CNN parce qu'ils sont plus faciles à implémenter sur de petits appareils. Cependant, les modèles récents commencent à intégrer des Transformers pour leur capacité à apprendre des relations complexes à l'intérieur des images.
Alors que les CNN peuvent bien performer, ils ne peuvent généralement pas égaler la performance des Transformers pour capturer des informations globales. C'est là que TST vise à combler un besoin.
Comment ça Fonctionne TST
Le TST commence par traiter une image RGB pour extraire des cartes de caractéristiques. Un CNN est utilisé comme colonne vertébrale pour s'assurer que les caractéristiques soient légères. Le système partage ensuite les tokens à travers différentes couches, ce qui lui permet de rassembler à la fois des informations locales et globales sans computation excessive.
Chaque partie du modèle fonctionne ensemble de manière fluide. Les tokens locaux sont traités avec des tokens globaux partagés, améliorant la capacité d'estimation de la profondeur. En croisant ces tokens, le modèle peut affiner ses prédictions plus précisément.
Évaluation des Performances
Dans des tests réels, TST a systématiquement surpassé les méthodes d'estimation de profondeur traditionnelles. Par exemple, dans l'ensemble de données NYU Depth V2, TST a atteint une meilleure précision tout en utilisant moins de paramètres et moins de puissance de calcul. Ça rend TST adapté pour les appareils en edge, qui ont souvent des ressources limitées.
Le modèle a été évalué en utilisant plusieurs métriques de performance, telles que l'erreur quadratique moyenne (RMSE) et les taux d'images. À travers ces mesures, TST s'est avéré efficace pour fournir une estimation de profondeur en temps réel tout en maintenant une bonne précision.
Comparaison avec d'Autres Méthodes
TST a montré des avantages distincts par rapport aux réseaux traditionnels basés sur des CNN, surtout en vitesse de traitement et précision. Il a également été comparé à d'autres architectures basées sur des Transformers pour mettre en avant son efficacité.
Les choix de conception faits dans TST lui permettent de tirer parti des qualités des CNN et des Transformers, comblant ainsi le fossé qui existe entre performance et utilisation des ressources.
Avantages de TST
Un des principaux avantages de TST est sa capacité à fonctionner sur des appareils en edge comme le NVIDIA Jetson Nano et le Jetson TX2. Ces appareils sont courants en robotique mobile, où la taille et la consommation d'énergie sont critiques. La capacité de faire tourner TST sur ces appareils en fait une solution pratique pour des applications en temps réel.
De plus, l'approche innovante de TST lui permet de délivrer des taux d'images élevés sans sacrifier la qualité. Les utilisateurs peuvent s'attendre à des réponses rapides dans les applications, ce qui est un facteur important en robotique où le timing est crucial.
Conclusion
En résumé, le Token-Sharing Transformer offre une nouvelle approche pour l'estimation de profondeur monoculaire. En combinant des techniques des CNN et des Transformers, il atteint un équilibre entre précision et vitesse de traitement. Ça en fait un excellent choix pour une variété d'applications en robotique, surtout dans des environnements où les ressources sont limitées. Avec de futures avancées, TST pourrait encore améliorer les capacités des robots mobiles à comprendre leur environnement à travers l'estimation de profondeur.
Titre: Lightweight Monocular Depth Estimation via Token-Sharing Transformer
Résumé: Depth estimation is an important task in various robotics systems and applications. In mobile robotics systems, monocular depth estimation is desirable since a single RGB camera can be deployable at a low cost and compact size. Due to its significant and growing needs, many lightweight monocular depth estimation networks have been proposed for mobile robotics systems. While most lightweight monocular depth estimation methods have been developed using convolution neural networks, the Transformer has been gradually utilized in monocular depth estimation recently. However, massive parameters and large computational costs in the Transformer disturb the deployment to embedded devices. In this paper, we present a Token-Sharing Transformer (TST), an architecture using the Transformer for monocular depth estimation, optimized especially in embedded devices. The proposed TST utilizes global token sharing, which enables the model to obtain an accurate depth prediction with high throughput in embedded devices. Experimental results show that TST outperforms the existing lightweight monocular depth estimation methods. On the NYU Depth v2 dataset, TST can deliver depth maps up to 63.4 FPS in NVIDIA Jetson nano and 142.6 FPS in NVIDIA Jetson TX2, with lower errors than the existing methods. Furthermore, TST achieves real-time depth estimation of high-resolution images on Jetson TX2 with competitive results.
Auteurs: Dong-Jae Lee, Jae Young Lee, Hyounguk Shon, Eojindl Yi, Yeong-Hun Park, Sung-Sik Cho, Junmo Kim
Dernière mise à jour: 2023-06-09 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.05682
Source PDF: https://arxiv.org/pdf/2306.05682
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.