Flux d'information optimisé dans le suivi d'objets visuels
OIFTrack améliore la précision du suivi en gérant le flux d'infos entre les cibles et les fonds.
― 8 min lire
Table des matières
- Le Problème avec les Méthodes Traditionnelles
- Ce que Nous Proposons
- L'Importance des Indices Dynamiques
- Comment le Processus Fonctionne
- Mécanisme d'Attention
- Élimination des Tokens de Fond
- Évaluation et Performance
- Référence GOT-10K
- Références TrackingNet et LaSOT
- Référence UAV123
- Conclusion
- Source originale
- Liens de référence
Le suivi d'objet visuel (VOT) est un processus qui implique d'identifier la position et la taille d'un objet dans une vidéo à partir de la première image et de le suivre dans les images suivantes. Cette technologie a plein d'utilisations pratiques comme la surveillance vidéo, les voitures autonomes, la réalité augmentée, les robots mobiles et la surveillance du trafic. Malgré de nombreuses tentatives pour améliorer le VOT au fil des ans, rendre le suivi fiable et efficace dans des situations réelles reste un défi. Les problèmes courants incluent les changements d'apparence, les objets qui bloquent la vue, le flou de mouvement, les arrière-plans chaotiques et les objets similaires à proximité qui peuvent embrouiller le tracker.
Ces dernières années, l'apprentissage profond a fait des progrès significatifs, notamment avec des méthodes qui utilisent des réseaux de neurones convolutifs (CNN) pour le suivi. Parmi elles, les méthodes de suivi basées sur les Siamois ont montré des résultats impressionnants. Les trackers Siamois se composent de deux sections CNN identiques qui analysent l'objet cible et une zone environnante séparément. Ils déterminent ensuite la position de la cible en comparant les caractéristiques des deux sections. Cependant, ces méthodes ont souvent du mal à prendre en compte le contexte plus large autour de l'objet, et elles peuvent ne pas bien gérer des interactions complexes, comme lorsque l'objet change de forme ou est partiellement caché. En conséquence, certaines méthodes de suivi plus récentes se sont tournées vers les Transformers, qui ont gagné en popularité dans le traitement des données linguistiques.
Les Transformers sont devenus populaires parce qu'ils peuvent gérer de longues séquences de données et capturer efficacement le contexte grâce à des Mécanismes d'attention. Leur succès dans des tâches comme la détection d'objets et la classification d'images a inspiré leur utilisation dans le suivi visuel également. Les trackers Transformer à flux unique combinent le processus d'extraction de caractéristiques avec l'attention pour améliorer la capacité de suivi des objets.
Le Problème avec les Méthodes Traditionnelles
Dans les méthodes traditionnelles de suivi à flux unique, le mécanisme d'attention calcule les connexions entre tous les tokens représentant à la fois le modèle cible et la zone de recherche environnante. Bien que cette approche se soit révélée efficace, il n'a pas été suffisamment évalué si cette attention aide ou entrave la capacité du tracker à distinguer la cible des distractions. La plupart des modèles précédents permettent une interaction complète entre les deux types de tokens, mais cela pourrait mener à la confusion, surtout quand beaucoup de tokens de fond sont impliqués.
Le suivi à long terme, où l'objet peut avoir l'air très différent au fil du temps, est particulièrement délicat. Certains trackers essaient d'améliorer les performances en ajoutant des modèles dynamiques, qui se mettent à jour en fonction des images les plus fiables. Cependant, comme leurs prédécesseurs, ils traitent toujours tous les tokens de la même manière et ne parviennent pas à explorer comment le flux d'informations entre ces tokens affecte le suivi.
Ce que Nous Proposons
Dans ce travail, nous introduisons une nouvelle approche appelée Suivi par Flux d'Information Optimisé (OIFTrack). Cette méthode cherche à améliorer la précision du suivi d'objet en gérant soigneusement la façon dont les informations circulent entre différents tokens représentant la cible et les zones environnantes.
Tout d'abord, nous commençons avec un modèle initial de la cible et une zone de recherche. Les tokens de ces deux régions sont considérés en quatre groupes : tokens cibles initiaux, tokens cibles dynamiques (mis à jour selon les dernières images), tokens de fond dynamiques (qui capturent les environs) et tokens de zone de recherche. L'idée principale ici est de bloquer les distractions inutiles dans les premières étapes du traitement.
Dans les couches plus profondes du processus de suivi, les tokens de recherche sont divisés en deux catégories : ceux contenant des indices de la cible et ceux qui n'en contiennent pas. Permettre uniquement le flux d'informations des tokens de recherche pertinents vers les tokens cibles aide à améliorer la capacité de suivi globale, permettant au modèle de s'adapter aux changements d'apparence de la cible.
L'Importance des Indices Dynamiques
Les modèles dynamiques sont essentiels dans le suivi, surtout lorsque la cible subit des changements significatifs au fil du temps. L'ajout d'indices de fond dynamiques améliore également la capacité du modèle à discerner les distractions et à maintenir son attention sur la cible.
Dans OIFTrack, l'objectif est d'incorporer des informations de la zone environnante d'une manière qui ajoute du contexte sans créer de confusion. Par exemple, au lieu de se concentrer uniquement sur la cible, nous considérons une zone plus large qui inclut des distractions potentielles. Cela aide le tracker à éviter de mal identifier des objets similaires à proximité.
Comment le Processus Fonctionne
Le processus OIFTrack commence par partitionner les images du modèle cible et de la région de recherche en morceaux plus petits et gérables appelés patches. Ces patches sont ensuite transformés en tokens. Les tokens de différents groupes sont combinés en une seule séquence avant d'être introduits dans un modèle Transformer.
Au cours des premières étapes du processus d'encodage, nous bloquons les interactions des tokens de recherche et des tokens de fond dynamiques vers les tokens cibles initiaux. Cela permet une meilleure extraction des caractéristiques spécifiques à la cible. Une fois que nous passons aux couches plus profondes, nous catégorisons à nouveau les tokens de recherche pour maintenir l'accent sur les indices pertinents.
Mécanisme d'Attention
Le mécanisme d'attention est un élément clé d'OIFTrack. Dans les premières couches d'encodeur, certaines interactions sont bloquées pour réduire les interférences. Dans les couches plus profondes, nous analysons quels tokens de recherche portent des informations pertinentes sur la cible. Après avoir déterminé quels tokens sont les plus pertinents, nous permettons le flux d'informations de ces tokens spécifiques vers les tokens cibles, ce qui améliore l'extraction des caractéristiques.
Élimination des Tokens de Fond
Un des défis de la méthode OIFTrack est de maintenir l'efficacité computationnelle, surtout quand nous augmentons le nombre de tokens d'entrée en ajoutant des modèles dynamiques. Pour réduire le nombre de calculs inutiles, nous identifions et éliminons les tokens qui portent principalement des informations de fond.
En supprimant ces tokens moins pertinents de la considération, nous pouvons maintenir des niveaux élevés de performance tout en simplifiant les calculs. Cette approche aide à garantir que notre modèle fonctionne efficacement sans sacrifier la précision.
Évaluation et Performance
Pour valider l'efficacité du cadre OIFTrack, nous avons effectué des évaluations approfondies contre plusieurs références. Au cours des tests, OIFTrack a montré des résultats impressionnants, surpassant de nombreux modèles existants dans plusieurs catégories.
Référence GOT-10K
Lorsqu'il a été testé sur la référence GOT-10K, connue pour évaluer les capacités de suivi à un coup, OIFTrack a atteint un score de recouvrement moyen de 74,6 %. Ce score signifie une performance supérieure par rapport à d'autres modèles. OIFTrack a également surpassé d'autres trackers en termes de taux de succès à des seuils définis, montrant son efficacité dans des situations avec des classes d'objets non vues.
Références TrackingNet et LaSOT
Dans la robuste référence TrackingNet, OIFTrack a obtenu un score AUC de 84,1 %, démontrant son efficacité dans une gamme diversifiée de scénarios de suivi. Il a également bien performé dans LaSOT, où il a maintenu une performance compétitive sur divers attributs, montrant sa résilience dans des scénarios de suivi à long terme.
Référence UAV123
Pour les scénarios de suivi aérien, le jeu de données UAV123 a présenté des défis uniques en raison de la petite taille des objets et des changements constants. OIFTrack a produit des résultats compétitifs, mettant en avant sa robustesse même dans des environnements plus difficiles.
Conclusion
En résumé, le modèle OIFTrack tire parti d'un mécanisme de flux d'information optimisé pour améliorer les capacités de suivi d'objet. En se concentrant sur l'échange significatif d'informations entre les tokens tout en réduisant les distractions, le modèle offre une meilleure précision et efficacité de suivi. L'utilisation de modèles dynamiques et d'indices contextuels provenant des alentours aide considérablement à identifier l'objet cible au fil du temps, faisant d'OIFTrack une avancée prometteuse dans le domaine du suivi d'objet visuel.
Dans l'ensemble, cette approche illustre le pouvoir d'un flux d'information soigneusement géré et souligne l'importance d'incorporer des aspects dynamiques dans les systèmes de suivi pour mieux gérer les complexités des scénarios réels.
Titre: Optimized Information Flow for Transformer Tracking
Résumé: One-stream Transformer trackers have shown outstanding performance in challenging benchmark datasets over the last three years, as they enable interaction between the target template and search region tokens to extract target-oriented features with mutual guidance. Previous approaches allow free bidirectional information flow between template and search tokens without investigating their influence on the tracker's discriminative capability. In this study, we conducted a detailed study on the information flow of the tokens and based on the findings, we propose a novel Optimized Information Flow Tracking (OIFTrack) framework to enhance the discriminative capability of the tracker. The proposed OIFTrack blocks the interaction from all search tokens to target template tokens in early encoder layers, as the large number of non-target tokens in the search region diminishes the importance of target-specific features. In the deeper encoder layers of the proposed tracker, search tokens are partitioned into target search tokens and non-target search tokens, allowing bidirectional flow from target search tokens to template tokens to capture the appearance changes of the target. In addition, since the proposed tracker incorporates dynamic background cues, distractor objects are successfully avoided by capturing the surrounding information of the target. The OIFTrack demonstrated outstanding performance in challenging benchmarks, particularly excelling in the one-shot tracking benchmark GOT-10k, achieving an average overlap of 74.6\%. The code, models, and results of this work are available at \url{https://github.com/JananiKugaa/OIFTrack}
Auteurs: Janani Kugarajeevan, Thanikasalam Kokul, Amirthalingam Ramanan, Subha Fernando
Dernière mise à jour: 2024-02-12 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.08195
Source PDF: https://arxiv.org/pdf/2402.08195
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.