Avancées dans le suivi multi-objets avec Co-MOT
Co-MOT améliore la précision et l'efficacité du suivi grâce à des techniques innovantes.
― 6 min lire
Table des matières
Le suivi multi-objets, c’est quand un système garde un œil sur plusieurs objets qui bougent dans une scène, comme des gens qui dansent ou des voitures sur une route. Traditionnellement, ce suivi est divisé en deux tâches principales : détecter les objets et ensuite les relier d'une image à l'autre dans une vidéo. Ces méthodes ont bien fonctionné mais ont des limites, comme le fait de dépendre beaucoup de la précision de la détection.
Récemment, de nouvelles approches sont apparues qui gèrent le suivi de manière plus intégrée. Au lieu de traiter la détection et le suivi comme des tâches séparées, les méthodes de bout en bout visent à faire les deux en même temps. Elles utilisent des techniques avancées, notamment celles basées sur les Transformers, pour améliorer l'efficacité et la Précision du suivi. Cependant, malgré leurs promesses, ces méthodes n'ont pas encore atteint le niveau des méthodes de suivi traditionnelles.
Un des principaux problèmes avec le suivi de bout en bout, c'est comment elles attribuent des étiquettes pendant l'entraînement. En général, quand on forme un modèle, le système associe les objets suivis avec des requêtes de suivi et attribue les nouveaux objets (ceux qui apparaissent récemment dans la scène) aux requêtes de détection. Malheureusement, cette méthode peut mener à une situation déséquilibrée où il n'y a pas assez d'exemples positifs pour les requêtes de détection. C'est particulièrement problématique dans les scènes où la plupart des nouveaux objets apparaissent au début d'une vidéo. Du coup, les méthodes de suivi de bout en bout peuvent parfois finir le suivi sans mettre à jour leurs cibles.
Pour résoudre ce problème, une nouvelle méthode appelée Co-MOT a été proposée. Cette méthode vise à améliorer le suivi de bout en bout en introduisant une nouvelle façon d’attribuer des étiquettes pendant l'entraînement, appelée attribution d'étiquettes coopétitives. Cette méthode permet aux objets suivis d'aider les requêtes de détection, rendant le processus de suivi plus robuste. En gros, ça permet au système d'utiliser des objets déjà suivis pour aider à identifier les nouveaux, créant une approche d'entraînement plus équilibrée.
En plus de ça, Co-MOT utilise un concept connu sous le nom de jeux d'ombres. Ce sont des ensembles de requêtes qui travaillent ensemble, se soutenant mutuellement lors du suivi des objets. En générant plusieurs requêtes pour la même cible, le système devient moins sensible aux erreurs ou fluctuations dans le suivi, améliorant ainsi la précision globale. Dans des situations bondées où les objets peuvent se chevaucher ou apparaître et disparaître, ces requêtes de soutien peuvent aider à maintenir la continuité du suivi.
Le système Co-MOT a montré des gains de performance notables dans plusieurs benchmarks de suivi. Par exemple, il a atteint un score élevé sur le dataset DanceTrack, qui se concentre sur le suivi des danseurs. Ce dataset est particulièrement difficile à cause des mouvements rapides et des apparences similaires des individus. Co-MOT a dépassé les méthodes de suivi traditionnelles de manière significative, ce qui indique son efficacité dans ces scénarios complexes.
Un autre dataset utilisé pour tester la performance de Co-MOT est BDD100K, qui est conçu pour comprendre les scènes de conduite autonome. Ce dataset a ses propres difficultés, comme le trafic intense et des conditions changeantes rapidement. Co-MOT a également bien performé ici, notamment en ce qui concerne la précision du suivi, soulignant sa polyvalence dans différents environnements.
La comparaison entre Co-MOT et d'autres méthodes montre des avantages clairs. Par exemple, les méthodes de suivi traditionnelles nécessitent souvent un réglage fastidieux des paramètres, tandis que Co-MOT automatise ce processus. Son design permet d'apprendre directement à partir des données et d'optimiser l'ensemble du pipeline, rendant le suivi plus efficace.
De plus, lorsqu'il est examiné par rapport à d'autres méthodes de bout en bout, Co-MOT se distingue. Il a obtenu des résultats impressionnants sans avoir besoin d'un détecteur supplémentaire, qui est souvent requis dans d'autres modèles. L'absence de charges computationnelles supplémentaires rend Co-MOT plus adapté aux applications du monde réel où la rapidité et l'efficacité sont cruciales.
Un aspect essentiel de la méthode Co-MOT est la manière dont elle gère l'entraînement des requêtes. Les méthodes traditionnelles utilisaient souvent une approche de correspondance un-à-un, ce qui pouvait mener à une pénurie d'échantillons positifs pour former la partie détection. Co-MOT aborde cela en employant une stratégie de correspondance un-à-ensemble, où chaque requête dans un ensemble soutient les autres. Cette approche collaborative améliore la capacité du modèle à apprendre de ses erreurs et renforce sa performance de suivi.
Pendant la phase d'expérimentation, diverses méthodes d'initialisation de ces requêtes de soutien ont été explorées. Différentes stratégies ont été essayées pour voir lesquelles fournissaient les meilleurs résultats en termes de convergence et de performance globale. Il a été trouvé qu'avoir une certaine consistance initiale entre les requêtes aidait à accélérer l'apprentissage et à améliorer le succès du suivi.
Un autre point clé tiré de l'étude est que Co-MOT non seulement performe bien en termes de précision de suivi, mais le fait aussi efficacement. Le système a montré qu'il fonctionne plus vite que d'autres méthodes similaires tout en maintenant une performance de suivi compétitive. Cette gestion efficace des ressources facilite son déploiement dans des applications pratiques, comme la surveillance ou la conduite autonome.
En conclusion, Co-MOT représente une avancée significative dans le domaine du suivi multi-objets. En intégrant plus efficacement la détection et le suivi et en utilisant des techniques innovantes comme l'attribution d'étiquettes coopétitives et les jeux d'ombres, il réussit à relever plusieurs défis rencontrés par les méthodes traditionnelles. Sa performance sur divers datasets montre son potentiel pour une utilisation répandue dans des applications en temps réel.
À mesure que la technologie continue d'évoluer, le besoin de systèmes de suivi efficaces et précis ne fera que croître. Des méthodes comme Co-MOT ouvrent la voie à de meilleures performances dans des environnements où plusieurs objets doivent être surveillés en même temps. Cette avancée met en lumière les développements en cours dans le domaine de la vision par ordinateur et souligne l'importance d'affiner les méthodologies de suivi pour les applications futures.
Titre: Bridging the Gap Between End-to-end and Non-End-to-end Multi-Object Tracking
Résumé: Existing end-to-end Multi-Object Tracking (e2e-MOT) methods have not surpassed non-end-to-end tracking-by-detection methods. One potential reason is its label assignment strategy during training that consistently binds the tracked objects with tracking queries and then assigns the few newborns to detection queries. With one-to-one bipartite matching, such an assignment will yield unbalanced training, i.e., scarce positive samples for detection queries, especially for an enclosed scene, as the majority of the newborns come on stage at the beginning of videos. Thus, e2e-MOT will be easier to yield a tracking terminal without renewal or re-initialization, compared to other tracking-by-detection methods. To alleviate this problem, we present Co-MOT, a simple and effective method to facilitate e2e-MOT by a novel coopetition label assignment with a shadow concept. Specifically, we add tracked objects to the matching targets for detection queries when performing the label assignment for training the intermediate decoders. For query initialization, we expand each query by a set of shadow counterparts with limited disturbance to itself. With extensive ablations, Co-MOT achieves superior performance without extra costs, e.g., 69.4% HOTA on DanceTrack and 52.8% TETA on BDD100K. Impressively, Co-MOT only requires 38\% FLOPs of MOTRv2 to attain a similar performance, resulting in the 1.4$\times$ faster inference speed.
Auteurs: Feng Yan, Weixin Luo, Yujie Zhong, Yiyang Gan, Lin Ma
Dernière mise à jour: 2023-05-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.12724
Source PDF: https://arxiv.org/pdf/2305.12724
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.