Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Présentation de CompressTracker : Suivi d'objets efficace

Un nouveau cadre pour un suivi d'objet visuel léger et efficace.

Lingyi Hong, Jinglun Li, Xinyu Zhou, Shilin Yan, Pinxue Guo, Kaixun Jiang, Zhaoyu Chen, Shuyong Gao, Wei Zhang, Hong Lu, Wenqiang Zhang

― 8 min lire


CompressTracker simplifieCompressTracker simplifiele suivi d'objets.de suivi plus rapides et précis.Une nouvelle approche pour des modèles
Table des matières

Le suivi d'objet visuel est une tâche hyper importante où le but est d'identifier et de localiser en continu un objet cible dans des images vidéo après que son apparence a été définie dans la première image. Avec les avancées technologiques, plusieurs méthodes ont été développées pour améliorer l'Efficacité et la Précision du suivi. Récemment, les modèles basés sur l'architecture Transformer ont attiré beaucoup d'attention parce qu'ils offrent d'excellentes Performances sur diverses tâches de suivi.

Cependant, ces modèles avancés demandent souvent beaucoup de ressources informatiques, ce qui complique leur utilisation sur des appareils avec un pouvoir de traitement limité, comme les smartphones ou les drones. Pour rendre ces modèles plus efficaces, certaines approches précédentes ont essayé de créer des suiveurs plus légers ou de transférer des connaissances de modèles plus grands vers des plus petits. Mais ces méthodes peuvent parfois compromettre la précision pour gagner en vitesse, ce qui n'est pas idéal.

Cet article présente un nouveau cadre appelé CompressTracker, conçu pour rendre les modèles de suivi d'objet basés sur Transformer plus efficaces. L'objectif est de compresser un modèle de suivi pré-entraîné en une version plus petite et légère tout en minimisant la perte de performance. Cela implique de diviser intelligemment le modèle en différentes étapes, permettant au modèle plus petit d'apprendre de chaque section correspondante du modèle plus grand. De plus, ce cadre utilise une méthode d'Entraînement de remplacement pour améliorer le processus d'apprentissage, garantissant que le modèle plus petit imite le comportement du plus grand de manière plus efficace.

Le besoin d'efficacité dans le suivi d'objet

Le suivi d'objet visuel est essentiel pour diverses applications, y compris la vidéosurveillance, les véhicules autonomes et l'interaction homme-machine. L'efficacité des méthodes de suivi est souvent testée dans des benchmarks bien connus, et bien que les suiveurs basés sur Transformer montrent des résultats prometteurs, leur utilisation pratique est entravée par de fortes demandes computationnelles.

Un suivi efficace est crucial car de nombreux scénarios, comme le traitement vidéo en temps réel, nécessitent une inférence rapide du modèle. Si le modèle est trop lent, il ne fonctionnera pas bien dans des applications en temps réel. Donc, trouver un équilibre entre vitesse et précision est essentiel pour un suivi d'objet réussi.

Solutions existantes et leurs limites

Pour répondre aux besoins d'efficacité, plusieurs stratégies ont été proposées dans le passé. Certains chercheurs se sont concentrés sur la création de modèles légers capables de traitements rapides. D'autres ont essayé de simplifier le transfert de connaissances des modèles enseignants plus grands vers des modèles étudiants plus petits. Bien que ces méthodes aient amélioré la vitesse, elles ont encore des limites :

  1. Problèmes de précision : Les modèles légers ont parfois trop peu de paramètres, conduisant à de mauvaises performances. Ils peuvent ne pas être capables de capturer les détails nécessaires pour un suivi efficace.

  2. Processus d'entraînement complexes : Certaines méthodes nécessitent un entraînement multi-étapes compliqué, ce qui prend du temps et peut entraîner divers problèmes si une étape ne fonctionne pas bien.

  3. Limitations structurelles : Certaines approches imposent des exigences structurelles strictes aux modèles plus petits, limitant leur flexibilité et leur adaptabilité à différentes tâches ou environnements.

À cause de ces inconvénients, il y a un besoin urgent d'une nouvelle approche qui puisse compresser efficacement les modèles sans sacrifier les performances ou nécessiter des processus d'entraînement trop complexes.

Présentation de CompressTracker

CompressTracker répond à la nécessité de modèles de suivi d'objet basés sur Transformer efficaces. Ce cadre permet aux utilisateurs de prendre des modèles de suivi existants et de les compresser en formes plus petites sans perte significative de précision.

Stratégie de division des étapes

Un composant clé de CompressTracker est la stratégie de division des étapes. Cette méthode divise le modèle enseignant en étapes distinctes, où chaque étape correspond à une couche ou à une combinaison de couches dans le modèle plus grand. Le modèle étudiant plus petit apprend directement de ces étapes définies, permettant un transfert de connaissances ciblé.

En se concentrant sur des étapes individuelles, le modèle étudiant peut mieux reproduire les processus du modèle enseignant, plutôt que de traiter le modèle entier comme une seule unité. Cette approche améliore l'efficacité de l'apprentissage, car le modèle étudiant peut affiner sa compréhension des tâches spécifiques liées à chaque étape du modèle enseignant.

Méthode d'entraînement de remplacement

Dans l'entraînement traditionnel, les modèles étudiants apprennent souvent isolément des modèles enseignants. Cependant, CompressTracker adopte une stratégie d'entraînement de remplacement qui intègre des parties du modèle enseignant dans le processus d'entraînement du modèle étudiant.

Lors de cet entraînement, des étapes spécifiques du modèle étudiant sont remplacées de manière aléatoire par des étapes du modèle enseignant. Ce changement dynamique permet à l'étudiant de bénéficier des connaissances établies du modèle enseignant tout en maintenant un environnement d'apprentissage collaboratif. Une telle approche garantit que le modèle plus petit non seulement fonctionne à côté du modèle enseignant, mais apprend aussi activement de celui-ci.

Orientation des prédictions et imitation des caractéristiques

Pour améliorer encore le processus d'apprentissage, CompressTracker intègre deux techniques supplémentaires : l'orientation des prédictions et l'imitation des caractéristiques par étape.

  1. Orientation des prédictions : En s'appuyant sur les prédictions faites par le modèle enseignant, le modèle étudiant peut avoir un objectif d'apprentissage plus clair. Cette orientation aide à réduire les temps d'entraînement et à améliorer la stabilité globale de l'apprentissage.

  2. Imitation des caractéristiques par étape : Cette technique garantit que les représentations de caractéristiques apprises par les étapes correspondantes des modèles enseignant et étudiant sont alignées. En comparant et en ajustant systématiquement ces caractéristiques, le modèle étudiant peut développer une compréhension plus précise et cohérente de la tâche de suivi.

Avantages de CompressTracker

Les avantages de l'utilisation de CompressTracker pour le suivi d'objet visuel sont considérables :

  1. Amélioration de la performance : En permettant au modèle étudiant d'imiter mieux le modèle enseignant grâce à un apprentissage structuré, CompressTracker peut atteindre des niveaux de performance plus proches du modèle plus grand tout en étant nettement plus rapide.

  2. Entraînement simplifié : Le processus d'entraînement avec CompressTracker est plus efficace. Il élimine les étapes complexes qui peuvent conduire à des écueils dans l'apprentissage, le rendant plus simple et plus rapide.

  3. Flexibilité : Le cadre n'est pas limité à une structure spécifique. Les utilisateurs peuvent adapter le cadre pour fonctionner avec différentes architectures Transformer, leur offrant la liberté d'optimiser en fonction de leurs besoins.

Résultats expérimentaux

Pour valider l'efficacité de CompressTracker, une série d'expériences a été menée. Chaque expérience visait à mesurer la performance et la vitesse des modèles compressés par rapport aux modèles de suivi plus complexes originaux.

  1. Variantes de compression de modèle : Différentes versions de CompressTracker ont été testées, chacune avec des configurations de couches variées. Par exemple, une configuration avec quatre couches a pu maintenir un haut niveau de précision par rapport au modèle original tout en réalisant des augmentations de vitesse significatives.

  2. Performance sur des benchmarks : Les expériences ont révélé que CompressTracker surpassait systématiquement les modèles de suivi légers existants sur plusieurs benchmarks.

  3. Temps d'entraînement : CompressTracker a montré une efficacité impressionnante, complétant l'entraînement en une fraction du temps requis par des méthodes traditionnelles.

Généralisation et flexibilité

La capacité de généralisation du cadre est cruciale pour ses applications pratiques. CompressTracker a été testé sur divers modèles, démontrant qu'il est adaptable et capable de maintenir des performances à travers différentes tâches et contextes. Cette flexibilité garantit que les utilisateurs peuvent mettre en œuvre CompressTracker dans une large gamme de scénarios, augmentant son utilité globale.

Conclusion

CompressTracker représente un pas en avant significatif dans le domaine du suivi d'objet visuel. Il offre une solution puissante mais efficace aux défis du déploiement de grands modèles basés sur Transformer sur des appareils avec des ressources limitées. En utilisant des stratégies innovantes comme la division des étapes et l'entraînement de remplacement, ce cadre permet un suivi haute performance dans des applications en temps réel.

En gros, CompressTracker traite non seulement les inefficacités actuelles des modèles de suivi d'objet, mais pose aussi une base pour de futures avancées dans ce domaine. La capacité à compresser efficacement les modèles tout en préservant la précision pourrait ouvrir de nouvelles avenues pour le déploiement de systèmes de suivi intelligents dans divers secteurs, de la sécurité au transport.

Source originale

Titre: General Compression Framework for Efficient Transformer Object Tracking

Résumé: Transformer-based trackers have established a dominant role in the field of visual object tracking. While these trackers exhibit promising performance, their deployment on resource-constrained devices remains challenging due to inefficiencies. To improve the inference efficiency and reduce the computation cost, prior approaches have aimed to either design lightweight trackers or distill knowledge from larger teacher models into more compact student trackers. However, these solutions often sacrifice accuracy for speed. Thus, we propose a general model compression framework for efficient transformer object tracking, named CompressTracker, to reduce the size of a pre-trained tracking model into a lightweight tracker with minimal performance degradation. Our approach features a novel stage division strategy that segments the transformer layers of the teacher model into distinct stages, enabling the student model to emulate each corresponding teacher stage more effectively. Additionally, we also design a unique replacement training technique that involves randomly substituting specific stages in the student model with those from the teacher model, as opposed to training the student model in isolation. Replacement training enhances the student model's ability to replicate the teacher model's behavior. To further forcing student model to emulate teacher model, we incorporate prediction guidance and stage-wise feature mimicking to provide additional supervision during the teacher model's compression process. Our framework CompressTracker is structurally agnostic, making it compatible with any transformer architecture. We conduct a series of experiment to verify the effectiveness and generalizability of CompressTracker. Our CompressTracker-4 with 4 transformer layers, which is compressed from OSTrack, retains about 96% performance on LaSOT (66.1% AUC) while achieves 2.17x speed up.

Auteurs: Lingyi Hong, Jinglun Li, Xinyu Zhou, Shilin Yan, Pinxue Guo, Kaixun Jiang, Zhaoyu Chen, Shuyong Gao, Wei Zhang, Hong Lu, Wenqiang Zhang

Dernière mise à jour: 2024-09-26 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.17564

Source PDF: https://arxiv.org/pdf/2409.17564

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires