Avancées dans le suivi multi-objets sans étiquettes
Une nouvelle méthode pour suivre des objets dans des vidéos sans avoir besoin de données étiquetées coûteuses.
― 11 min lire
Table des matières
- C'est quoi le Suivi multi-objets (MOT) ?
- Le Problème des Méthodes de Suivi Traditionnelles
- Notre Approche
- Travaux Connus
- Notre Méthode : Perte de Consistance des Chemins (PCL)
- Configuration Expérimentale
- Comparaison aux Méthodes de Pointe
- Résultats sur Différents Ensembles de Données
- Études d'Ablation
- Conclusion
- Source originale
- Liens de référence
Suivre plusieurs objets dans des vidéos, c'est une tâche qui a plein d'applications dans le monde réel, comme surveiller la circulation, suivre des animaux, ou garder un œil sur des gens. La méthode habituelle pour faire ça, c'est de baliser les objets dans chaque image, ce qui peut être super long et coûteux. Cet article parle d'une nouvelle méthode pour suivre des objets sans avoir besoin de ces balises coûteuses.
Suivi multi-objets (MOT) ?
C'est quoi leLe Suivi Multi-Objets (MOT) consiste à identifier et à suivre tous les objets dans une vidéo. Ça implique de savoir où chaque objet est dans chaque image et de reconnaître chaque objet au fil du temps. Cette tâche peut être utile dans plein de situations comme surveiller les modèles de circulation, observer le comportement de la faune, ou assurer la sécurité des piétons.
Traditionnellement, il y a eu plein de techniques avancées pour suivre des objets avec des données étiquetées, mais créer ces étiquettes, ça prend beaucoup de ressources. Un des ensembles de données les plus connus pour cette tâche, c’est MOT17, qui contient 14 vidéos.
Le Problème des Méthodes de Suivi Traditionnelles
La plupart des méthodes avancées de suivi nécessitent des données étiquetées, qui sont difficiles à obtenir. Le processus de balisage consiste à passer par les vidéos et à identifier les objets image par image, ce qui est très laborieux. À cause de cette difficulté à rassembler des données, les avancées en MOT ont été plus lentes que dans d'autres domaines de la vision par ordinateur.
Certaines méthodes récentes ont essayé de résoudre ce problème en développant des techniques d'apprentissage non supervisées qui ne nécessitent pas d'étiquettes. Cependant, ces méthodes dépendent encore beaucoup de la création de pseudo-étiquettes, ce qui peut causer ses propres problèmes. Les pseudo-étiquettes mènent souvent à des Associations incorrectes, surtout quand un objet est séparé en différentes étiquettes à cause d'occlusions ou d'autres soucis.
Notre Approche
Dans ce travail, on introduit un nouveau concept appelé "consistance des chemins". L'idée derrière la consistance des chemins est simple : même si un objet est vu différemment dans diverses images, son identité reste constante. Donc, on peut suivre un objet à travers les images en observant différents ensembles d'images et en s'assurant que les résultats sont cohérents.
C'est quoi la Consistance des Chemins ?
La consistance des chemins fait référence à suivre un objet en définissant un chemin comme la séquence d'images observées du début à la fin. En sautant différentes images entre temps, on peut créer plusieurs chemins d'observation pour le même objet. Comme l'identité de l'objet ne change pas, les résultats d'association à travers ces différents chemins devraient également rester les mêmes.
Notre méthode introduit la Perte de Consistance des Chemins (PCL), qui mesure à quel point ces associations sont cohérentes à travers différents chemins d'observation. Le modèle est entraîné pour minimiser les différences dans les résultats d'association provenant de divers chemins, ce qui lui permet d'apprendre des capacités de correspondance d'objets solides sans avoir besoin de données étiquetées.
Avantages de Notre Méthode
Un des principaux avantages de notre méthode, c'est sa capacité à apprendre des associations sur de courtes et longues distances. Les méthodes traditionnelles se concentrent souvent seulement sur les images proches, ce qui peut mener à des erreurs pendant les occlusions. En utilisant la consistance des chemins, notre modèle peut apprendre plus efficacement à gérer les occlusions et les changements d'apparence des objets.
On a aussi réalisé des expériences poussées sur plusieurs ensembles de données (MOT17, PersonPath22, et KITTI) pour valider notre méthode. Les résultats ont montré que notre approche surpassait les méthodes non supervisées existantes et atteignait même des niveaux de performance proches de celles des méthodes supervisées.
Travaux Connus
Suivi Multi-Objets Supervisé
La plupart des méthodes traditionnelles de MOT s'appuient sur une approche de suivi par détection, où tous les objets sont d'abord détectés dans chaque image. Ensuite, ces détections sont reliées en fonction de leurs similitudes à travers les images pour créer des pistes. Ces méthodes peuvent être divisées en approches hors ligne et en ligne.
- Méthodes hors ligne : Elles visent à trouver les meilleures associations globales mais sont généralement lourdes en calcul.
- Méthodes en ligne : Elles se concentrent sur la performance en temps réel et optimisent les associations locales.
Malgré leur efficacité, ces méthodes supervisées nécessitent des données étiquetées coûteuses. Notre approche vise à réduire cette dépendance en utilisant des techniques auto-supervisées.
Suivi Multi-Objets Non Supervisé
Les méthodes non supervisées cherchent à réduire le besoin de données étiquetées. Bien que certains suiveurs basés sur le mouvement n'aient pas besoin d'étiquettes, ils ont souvent du mal avec la précision du suivi. Des méthodes récentes ont proposé de créer des pseudo-étiquettes pour l'entraînement, cependant, elles peuvent être sujettes à des erreurs qui se propagent et rendent les modèles moins fiables.
Les méthodes auto-supervisées commencent à émerger, utilisant des concepts comme la consistance temporelle pour améliorer les performances. Cependant, beaucoup d'entre elles ne se concentrent que sur de courtes distances temporelles, donc elles peuvent rencontrer des difficultés quand les objets sont occultés ou quand il y a des changements significatifs d'apparence.
Notre Méthode : Perte de Consistance des Chemins (PCL)
Aperçu
Notre méthode prend des clips vidéo, où les objets sont localisés à l'aide d'un détecteur d'objets standard. Le modèle utilise ces détections pour apprendre les associations en mettant en œuvre la consistance des chemins. On définit un chemin d'observation comme une séquence d'images observées et crée plusieurs chemins pour le même objet en sautant certaines images.
Principe de Consistance des Chemins
Le principe de base de la consistance des chemins, c'est que même en observant le même objet à partir de différents chemins, l'identité de l'objet doit rester inchangée. En conséquence, les probabilités d'association entre les images observées devraient être cohérentes à travers les chemins. Si elles ne le sont pas, ça indique une erreur potentielle dans le processus de suivi.
Fonction de Perte
La Perte de Consistance des Chemins (PCL) est calculée en mesurant les différences dans les probabilités d'association parmi les différents chemins. La perte comprend deux composants :
- Divergence KL : Ça mesure à quel point les distributions de probabilité sont éloignées d'être égales à travers les chemins.
- Entropie : Ça garantit qu'un seul objet dans une image est associé à un objet donné dans une autre image, évitant des situations où plusieurs objets pourraient compliquer le processus de suivi.
Sélection des Paires d'Images pour PCL
Pour garantir un apprentissage efficace, on doit sélectionner des images de départ et de fin appropriées pour créer des chemins. Les critères principaux incluent :
- L'image de fin doit être aussi éloignée que possible de l'image de départ pour faciliter l'apprentissage des associations à longue distance.
- L'objet en question doit être visible dans les images intermédiaires et finales pour maintenir des associations significatives.
En sélectionnant avec soin les paires d'images, on peut s'assurer que notre modèle apprend efficacement à partir des données.
Pertes de Régularisation
En plus de la perte de consistance des chemins, on intègre deux pertes de régularisation pour améliorer les performances du modèle :
- Perte de Correspondance Un-à-Un : Ça garantit qu'un objet dans une image ne peut pas correspondre à plusieurs objets dans une autre image, ce qui maintient les identités distinctes.
- Perte de Consistance Bidirectionnelle : Ça s'assure que les probabilités de correspondance d'une image à une autre sont cohérentes, peu importe la direction du temps.
Configuration Expérimentale
Ensembles de Données Utilisés
On a testé notre modèle sur trois ensembles de données bien connus :
- MOT17 : Un ensemble de données largement utilisé qui présente des scènes bondées dans des environnements urbains.
- PersonPath22 : Cet ensemble de données contient beaucoup de vidéos de piétons provenant d'environnements variés, ce qui le rend plus difficile.
- KITTI : Un ensemble de données qui se concentre sur le suivi des voitures et des piétons, avec des vidéos ayant des vitesses variées et des taux de trame plus faibles.
Métriques d'Évaluation
On a évalué nos résultats en utilisant plusieurs métriques, en mettant l'accent sur celles qui mesurent la précision des associations. Les métriques clés incluent HOTA, MOTA, et IDF1.
Détails de Mise en Œuvre
Notre modèle traite des clips d'un nombre fixe d'images. On l'a entraîné avec des réglages spécifiques pour équilibrer performance et efficacité. Le modèle a utilisé l'optimiseur Adam et a été implémenté en utilisant Pytorch.
Comparaison aux Méthodes de Pointe
On a comparé notre approche avec diverses méthodes non supervisées et on a noté plusieurs constatations importantes :
- Notre méthode a systématiquement surpassé les méthodes non supervisées existantes sur tous les ensembles de données et métriques.
- Même comparé à certaines méthodes supervisées récentes, notre performance était compétitive, mettant en évidence la force du concept de consistance des chemins.
Résultats sur Différents Ensembles de Données
Résultats sur MOT17
Notre modèle a montré des améliorations significatives sur l'ensemble de données MOT17. On a comparé nos résultats avec des méthodes de détection disponibles publiquement et en privé. Les résultats ont montré que notre approche était non seulement meilleure que les méthodes non supervisées existantes, mais rivalisait aussi avec les méthodes supervisées.
Résultats sur PersonPath22
Lorsqu'on a testé l'ensemble de données PersonPath22, connu pour sa complexité, notre modèle a encore excellé. On a noté une amélioration substantielle de la consistance de suivi, surtout dans des scénarios difficiles où des occlusions se produisaient.
Résultats sur KITTI
Dans l'ensemble de données KITTI, qui présente des défis uniques à cause des vitesses variées et des taux de trame plus faibles, notre approche a réussi à maintenir les associations d'objets. On a noté des améliorations dans la performance de suivi, notamment quand les objets ont changé de forme ou de position de boîte englobante.
Études d'Ablation
On a mené une série d'études d'ablation pour mieux comprendre les forces et faiblesses de notre modèle. Les études ont inclus l'évaluation :
- De l'impact de la perte de consistance des chemins.
- De la performance du modèle sous divers scénarios d'occlusion.
- Des effets des deux pertes de régularisation sur la performance globale.
Ces études nous ont aidés à confirmer que notre méthode proposée est efficace et souligne sa capacité à apprendre des associations robustes sur de diverses distances temporelles.
Conclusion
Dans ce travail, on a introduit une nouvelle approche pour le suivi multi-objets en utilisant le concept de consistance des chemins. En définissant des chemins d'observation et en s'appuyant sur l'auto-supervision, notre méthode atteint de fortes performances sans avoir besoin de données étiquetées.
Nos expériences sur plusieurs ensembles de données ont démontré que notre approche surpasse les techniques non supervisées existantes et se mesure bien aux méthodes supervisées. Avec cette méthode, on espère ouvrir la voie à des solutions de suivi plus efficaces et flexibles qui peuvent s'adapter aux défis des applications du monde réel.
À l'avenir, on vise à s'appuyer sur cette recherche en cherchant des moyens d'améliorer encore les capacités de notre modèle et d'explorer son applicabilité dans divers domaines.
Titre: Self-Supervised Multi-Object Tracking with Path Consistency
Résumé: In this paper, we propose a novel concept of path consistency to learn robust object matching without using manual object identity supervision. Our key idea is that, to track a object through frames, we can obtain multiple different association results from a model by varying the frames it can observe, i.e., skipping frames in observation. As the differences in observations do not alter the identities of objects, the obtained association results should be consistent. Based on this rationale, we generate multiple observation paths, each specifying a different set of frames to be skipped, and formulate the Path Consistency Loss that enforces the association results are consistent across different observation paths. We use the proposed loss to train our object matching model with only self-supervision. By extensive experiments on three tracking datasets (MOT17, PersonPath22, KITTI), we demonstrate that our method outperforms existing unsupervised methods with consistent margins on various evaluation metrics, and even achieves performance close to supervised methods.
Auteurs: Zijia Lu, Bing Shuai, Yanbei Chen, Zhenlin Xu, Davide Modolo
Dernière mise à jour: 2024-04-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2404.05136
Source PDF: https://arxiv.org/pdf/2404.05136
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.