Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans le suivi d'objets 3D avec BOTT

BOTT propose une approche innovante pour suivre des objets 3D dans les voitures autonomes.

― 13 min lire


BOTT : Nouvelle méthodeBOTT : Nouvelle méthodede suivi 3Dpour les voitures autonomes.BOTT simplifie le suivi d'objets 3D
Table des matières

Le suivi des objets 3D est super important pour les voitures autonomes. Avant, on utilisait beaucoup des méthodes basées sur le filtre de Kalman, mais ça demandait pas mal de boulot manuel pour modéliser le mouvement et ça ne profitait pas vraiment des grosses quantités de données qu'on a aujourd'hui. Du coup, un nouveau truc appelé Box Only Transformer Tracker (BOTT) a été proposé, qui apprend à relier les boîtes 3D du même objet à travers différentes images.

BOTT utilise toutes les boîtes 3D sur une période donnée comme input. Il a une technique appelée transformer self-attention qui permet aux boîtes de partager des infos, ce qui aide à créer des représentations de boîtes qui ont du sens. Les similarités apprises entre ces représentations peuvent être utilisées pour relier les boîtes du même objet. BOTT peut fonctionner facilement en mode tracking en ligne ou hors ligne. Son design simple réduit vraiment le temps d'ingénierie qu'on avait avant avec les méthodes de Kalman. Les tests montrent que BOTT est compétitif sur les principaux benchmarks de suivi d'objets 3D.

L'importance du suivi des objets 3D

La tech des voitures autonomes a suscité beaucoup d'intérêt ces dernières années. Un aspect clé pour rendre ces véhicules sûrs, c'est d'identifier et de suivre avec précision les objets 3D dans leur environnement. Ça implique de reconnaître les objets et de garder un œil sur leurs mouvements. Pas mal de progrès ont été faits dans la détection des objets 3D grâce à de gros jeux de données publics et à des méthodes de détection avancées. Cependant, le suivi d'objets en utilisant les méthodes de détection reste un choix populaire, car elles peuvent tirer parti de la puissance des détecteurs 3D avancés.

La plupart des méthodes de suivi existantes dépendent encore du filtre de Kalman. Ces trackers sont top parce qu'ils s'adaptent bien au suivi du mouvement 3D. Mais ils ont aussi des inconvénients. D'abord, plusieurs filtres de Kalman sont nécessaires pour différents types de mouvement, ce qui les rend complexes. Ensuite, ces trackers ne peuvent pas vraiment utiliser les grands ensembles de données modernes pour améliorer leurs performances.

Certaines méthodes plus récentes tentent de combiner détection et suivi en une seule étape. Même si elles peuvent identifier et suivre les objets ensemble, elles font souvent face à des défis à cause de la manière dont la détection 3D fonctionne. La détection se concentre sur l'emplacement d'un objet à un moment précis, tandis que le suivi nécessite une mémoire plus large des mouvements dans le temps. Du coup, s'entraîner avec beaucoup plus de données sur les aspects spatiaux et temporels reste un défi.

Architecture de BOTT

L'architecture de BOTT comprend deux composants principaux : le réseau BOTT et le module de suivi de boîtes. Le processus commence avec une fenêtre glissante qui collecte toutes les boîtes 3D des images consécutives. Le réseau BOTT génère ensuite une matrice qui montre comment les boîtes peuvent se relier entre elles en trois étapes : encoder les caractéristiques de chaque boîte, utiliser l'auto-attention pour comprendre les relations entre les boîtes, et générer des scores de liaison à travers des calculs de produit scalaire. Le module de suivi des boîtes prend ces scores pour créer des pistes, soutenant à la fois le suivi en ligne et hors ligne.

Une des approches alternatives dans le domaine est de suivre directement les Boîtes Englobantes des objets 3D. Cette méthode est plus simple comparée au filtre de Kalman traditionnel. En se concentrant uniquement sur les propriétés géométriques des boîtes, les méthodes d'apprentissage automatique peuvent profiter de la croissance des données. Cependant, elles font face à des défis majeurs : des quantités variées de boîtes non ordonnées dans chaque image compliquent la cohérence d'identité, et les caractéristiques géométriques ne maintiennent pas des liens spatial-temporels cohérents.

Malgré ces obstacles, les humains peuvent facilement associer des boîtes du même objet en les voyant d'en haut et en interprétant leurs arrangements et contextes. En gros, des caractéristiques comme la position, la taille et la forme devraient suffire pour faciliter le suivi. Le principal défi est de trouver une approche adaptée pour apprendre ces infos pour chaque boîte. Un projet inspirant appelé PolarMOT a utilisé un réseau neuronal graphique pour apprendre les caractéristiques des boîtes à partir de boîtes locales. BOTT propose un design différent qui utilise des mécanismes d'attention pour apprendre les caractéristiques des boîtes globalement à partir de toutes les boîtes dans un modèle simple.

Contributions clés de BOTT

Les principales caractéristiques qui font ressortir BOTT incluent :

  1. Suivi basé sur l'auto-attention : BOTT se concentre sur le suivi utilisant uniquement des boîtes englobantes 3D. Sa simplicité et son efficacité pourraient ouvrir la voie à des méthodes de suivi plus novatrices utilisant des transformers.

  2. Algorithmes de suivi complets : Des algorithmes pour le suivi en ligne et hors ligne sont fournis sous le cadre de BOTT.

  3. Performance compétitive : BOTT a été évalué sur les principaux jeux de données MOT 3D, avec des résultats impressionnants.

  4. Études complètes : Des études approfondies ont été menées pour comprendre les conceptions clés contribuant à de fortes performances et la manière dont BOTT se débrouille sur différents jeux de données et fréquences.

Travaux connexes

Cette section donne un aperçu des travaux existants sur le suivi des objets 3D (MOT) basés sur des méthodes de détection, ainsi que des trackers basés sur des transformers et des techniques de MOT en ligne/hors ligne.

3D MOT

Des méthodes traditionnelles comme AB3DMOT ont ouvert la voie pour le suivi 3D MOT en utilisant le filtre de Kalman simple. Différentes méthodes ont été proposées pour améliorer les performances de suivi sur la même base. La principale différence entre ces méthodes réside dans leurs métriques de liaison. Récemment, des algorithmes basés sur l'apprentissage utilisant des réseaux neuronaux graphiques ont gagné en popularité, car les graphes représentent naturellement les relations entre les objets détectés. Ces méthodes montrent du potentiel, mais le design d'auto-attention de BOTT offre une manière différente et efficace de relier les boîtes.

Trackers Transformers

Ces dernières années, les transformers sont devenus populaires pour gérer les données séquentielles. Leur capacité à gérer des dépendances longues et leur robustesse à l'occlusion ont amélioré les performances de suivi dans les paramètres 2D MOT. Plusieurs trackers utilisent des transformers avec des caractéristiques d'apparence, mais BOTT apprend de manière unique les infos contextuelles à partir des boîtes englobantes 3D sans avoir besoin de données d'apparence.

Suivi en ligne et hors ligne

Les techniques hors ligne pour l'auto-étiquetage dans la conduite autonome sont devenues importantes car elles aident à scaler l'annotation des données. BOTT peut effectuer efficacement le suivi en ligne et hors ligne. Les méthodes traditionnelles de filtre de Kalman ont du mal à incorporer des informations futures, car elles sont conçues pour fonctionner de manière récursive. Pendant ce temps, BOTT s'adapte facilement aux deux types de suivi.

Comment fonctionne BOTT

Le cadre BOTT consiste en un pipeline simple pour traiter les boîtes suivies.

Traitement des données d'entrée

Dans une scène avec plusieurs images, BOTT collecte les boîtes 3D détectées. Chaque boîte a des caractéristiques brutes, y compris la position centrale, la taille, l'angle de rotation, le temps et les scores de classification. Une fenêtre glissante est définie, incluant toutes les boîtes des images consécutives.

Le réseau BOTT traite les boîtes pour générer des scores de liaison. Le réseau a trois étapes principales : encoder les caractéristiques de chaque boîte, utiliser l'auto-attention pour les relations inter-boîtes, et estimer les scores de liaison.

Encodage des caractéristiques de chaque boîte

La première étape se concentre sur l'apprentissage des caractéristiques de haut niveau à partir des données géométriques brutes de chaque boîte. Pour réduire la variabilité, les positions centrales des boîtes sont normalisées. Les caractéristiques temporelles sont encodées sur la base des différences entre les images des boîtes. Les caractéristiques de chaque boîte sont traitées à travers un Multi-Layer Perception (MLP) pour générer des embeddings significatifs.

Relations inter-boîtes

Une fois que les caractéristiques individuelles des boîtes sont encodées, elles sont envoyées dans un module d'auto-attention qui capture les relations entre les boîtes. Ce module utilise plusieurs blocs d'encodeurs transformer pour permettre à tous les embeddings de boîtes d'entrée d'échanger des informations, menant à une compréhension riche de la dynamique inter-boîtes.

Il est important de noter que, dans BOTT, l'auto-attention est indépendante de la classe, ce qui signifie que chaque boîte peut apprendre de toutes les autres boîtes, peu importe leur classe. Cette capacité simplifie le processus de gestion de plusieurs catégories d'objets.

Estimation des scores de liaison

Les boîtes liées partagent des contextes spatial-temporels similaires. Après avoir obtenu les embeddings appris, des normalisations sont effectuées, et les calculs de produit scalaire donnent des scores de liaison qui illustrent les connexions potentielles entre les boîtes. Ces scores transforment la tâche de suivi en un problème de classification binaire.

Lors de l'entraînement, une fonction de perte spéciale est créée pour affiner le processus de scoring. Cela implique d'ignorer certains cas qui peuvent affecter l'exactitude des scores.

Suivi avec BOTT

BOTT peut efficacement créer des pistes en se basant sur les scores de liaison établis, en adoptant des stratégies pour le suivi en ligne et hors ligne.

Suivi en ligne

Pour le suivi en ligne, la dernière fenêtre glissante de boîtes est traitée pour générer des scores de liaison. Le but ici est de relier les nouvelles détections aux pistes existantes. Une stratégie de gestion simple est utilisée pour gérer la création, la mise à jour et la terminaison des pistes.

Chaque détection appariée devient partie d'une piste existante et continue de partager son identité. Les détections non appariées donnent naissance à une nouvelle piste qui porte d'abord un statut non confirmé. Si suffisamment de boîtes s'accumulent avec le temps, elle devient confirmée. Si aucune nouvelle détection n'a lieu pendant un certain temps, la piste est finalement terminée.

Suivi hors ligne

En mode hors ligne, toutes les fenêtres glissantes possibles sont créées à l'avance, et les scores de liaison sont générés pour chaque boîte. Un seuil optimal est appliqué pour filtrer les scores faibles, et des techniques de suppression non maximale aident à réduire la redondance.

L'approche hors ligne bénéficie de la simplicité de BOTT, car elle peut donner des résultats impressionnants sans avoir besoin de mécanismes complexes.

Configuration expérimentale

BOTT a été testé sur deux grands benchmarks pour le 3D MOT : nuScenes et Waymo Open Dataset (WOD).

Jeux de données et métriques

NuScenes se compose de 1000 scènes de conduite, chacune durant environ 20 secondes, avec des annotations détaillées disponibles à différentes fréquences. Waymo Open Dataset a des caractéristiques similaires avec des métriques distinctes. Les métriques de performance de BOTT incluent la précision moyenne du suivi d'objets, le rappel et les changements d'identité à travers diverses catégories d'objets.

Génération de la base de données de pistes

La base de données de pistes est créée en associant les boîtes de détection avec les boîtes de vérité de terrain. Initialement, les détections sont filtrées pour enlever les chevauchements et les détections à faible score. Un processus d'association conscient de la classe est ensuite utilisé pour associer les boîtes de détection avec les boîtes de vérité de terrain. Les IDs de piste sont attribués en conséquence, permettant une division claire entre les détections et les faux positifs.

Détails de mise en œuvre

Les détails concernant le paramétrage spécifique du réseau, les procédures d'entraînement et les techniques d'augmentation de données utilisées pour créer BOTT sont également significatifs.

Configuration du réseau

BOTT comprend plusieurs couches, avec le MLP pour l'encodage d'une seule boîte ayant plusieurs blocs Linear ReLU. Trois blocs d'encodeurs identiques sont utilisés pour l'encodage inter-boîtes, créant efficacement les embeddings de boîtes appris.

Processus d'entraînement

L'entraînement de BOTT se concentre sur la gestion des déséquilibres dans les distributions de liens. L'exploitation des échantillons négatifs difficiles est utilisée pour gérer le vaste nombre de liens négatifs pendant l'apprentissage. L'ensemble du processus d'entraînement est réalisé en utilisant des techniques d'optimisation efficaces, permettant à BOTT de s'adapter rapidement et efficacement aux données d'entrée.

Augmentation des données

L'augmentation des données joue un rôle crucial pour améliorer la robustesse de BOTT. Différentes méthodes, comme l'abandon de pistes, le retournement et la rotation des boîtes, sont appliquées pour améliorer la diversité des données d'entrée.

Évaluation des performances

Les performances de BOTT sont évaluées par rapport à des trackers existants utilisant les mêmes sources de détection. Les résultats montrent la capacité de BOTT à surpasser de nombreux trackers basés sur l'apprentissage tout en montrant des performances comparables aux méthodes traditionnelles.

Résultats qualitatifs

Les évaluations visuelles des capacités de suivi de BOTT montrent son efficacité à relier les boîtes à travers différentes images, mettant en avant l'impact attentif des boîtes voisines.

Études d'ablation

Une série d'études d'ablation ont été menées pour tester l'efficacité du mécanisme d'attention et l'impact des contraintes physiques sur les performances de suivi.

Conclusion

BOTT représente un pas en avant significatif dans le domaine du suivi d'objets 3D. En se concentrant uniquement sur les caractéristiques géométriques des boîtes 3D et en employant une architecture basée sur des transformers, BOTT atteint des performances impressionnantes avec une complexité minimale. L'approche simplifie non seulement les méthodes traditionnelles mais s'adapte aussi bien aux scénarios en ligne et hors ligne, ouvrant la voie à de futurs développements dans les technologies de suivi 3D.

Source originale

Titre: BOTT: Box Only Transformer Tracker for 3D Object Tracking

Résumé: Tracking 3D objects is an important task in autonomous driving. Classical Kalman Filtering based methods are still the most popular solutions. However, these methods require handcrafted designs in motion modeling and can not benefit from the growing data amounts. In this paper, Box Only Transformer Tracker (BOTT) is proposed to learn to link 3D boxes of the same object from the different frames, by taking all the 3D boxes in a time window as input. Specifically, transformer self-attention is applied to exchange information between all the boxes to learn global-informative box embeddings. The similarity between these learned embeddings can be used to link the boxes of the same object. BOTT can be used for both online and offline tracking modes seamlessly. Its simplicity enables us to significantly reduce engineering efforts required by traditional Kalman Filtering based methods. Experiments show BOTT achieves competitive performance on two largest 3D MOT benchmarks: 69.9 and 66.7 AMOTA on nuScenes validation and test splits, respectively, 56.45 and 59.57 MOTA L2 on Waymo Open Dataset validation and test splits, respectively. This work suggests that tracking 3D objects by learning features directly from 3D boxes using transformers is a simple yet effective way.

Auteurs: Lubing Zhou, Xiaoli Meng, Yiluan Guo, Jiong Yang

Dernière mise à jour: 2023-08-16 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.08753

Source PDF: https://arxiv.org/pdf/2308.08753

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires