Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

MultiCounter : Comptage d'Actions Avancé dans les Vidéos

Un nouveau cadre compte les actions dans les vidéos avec plusieurs personnes de manière précise.

― 7 min lire


MultiCompteur pour leMultiCompteur pour lecomptage d'actionsvidéos bondées.Comptage précis des actions dans des
Table des matières

Compter les actions répétitives dans les vidéos, c'est un truc que beaucoup de gens rencontrent, surtout quand ils regardent des sports ou des séances d'exercice. Ça peut être galère, surtout quand les vidéos sont longues et montrent plusieurs personnes qui font des actions différentes en même temps. Un nouveau système appelé MultiCounter a été créé pour résoudre ce problème.

C'est quoi MultiCounter ?

MultiCounter est un cadre d'apprentissage profond conçu pour compter les actions répétées faites par plusieurs personnes dans les vidéos. Il fonctionne en suivant les individus et en reconnaissant leurs actions sans avoir besoin de couper ou d'éditer la vidéo. C'est super utile dans des situations où les gens font diverses activités en même temps, comme dans le sport ou les exercices en groupe.

Pourquoi c'est important ?

Compter précisément les actions dans des vidéos non coupées peut aider dans plusieurs domaines. Dans le sport, ça peut analyser la performance des joueurs ou l'efficacité de l'entraînement. Dans la santé, ça peut surveiller l'activité physique des patients. Donc, avoir un système comme MultiCounter peut donner des infos précieuses dans ces domaines.

Défis dans le comptage des actions

Compter les actions répétées, c'est pas simple. Les principaux défis incluent :

  1. Différents modèles d'action : Chacun peut faire la même action différemment, et leurs mouvements peuvent pas être synchronisés.
  2. Identifier les limites d'action : Savoir quand une action commence et finit, c'est compliqué, surtout quand les actions ne sont pas faites de manière cohérente.
  3. Manque de jeux de données : Y'a pas beaucoup de jeux de données qui se concentrent spécifiquement sur le comptage des actions répétées dans plusieurs instances, ce qui rend l'entraînement des modèles d'apprentissage automatique plus difficile.

Comment ça marche MultiCounter ?

MultiCounter utilise quelques méthodes novatrices pour gérer les défis ci-dessus :

  1. Interaction spatiotemporelle mixte : Ce truc aide à comprendre comment les actions changent dans le temps et l'espace. En analysant plusieurs images à la fois, ça capte le contexte de ce qui se passe dans la vidéo.

  2. Têtes spécifiques à la tâche : MultiCounter a des composants spéciaux qui se concentrent sur l'identification des instances humaines et la compréhension de leurs actions plus précisément. Ça veut dire qu'il peut reconnaître plusieurs personnes qui font des actions répétées en même temps.

  3. Jeu de données synthétique : Pour entraîner MultiCounter efficacement, les chercheurs ont créé un jeu de données synthétique nommé MultiRep. Ce jeu de données est généré à partir de vidéos du monde réel et aide le modèle à apprendre à mieux compter les actions.

Améliorations de performance

Les expériences montrent que MultiCounter surpasse de manière significative les anciennes méthodes de comptage des actions. Il montre une amélioration de 41% dans la mesure de performance et une diminution de 58% des erreurs de comptage en moyenne comparé à d'autres systèmes. Ça veut dire que MultiCounter peut compter les répétitions de manière plus précise et efficace, même en temps réel.

Travaux connexes

Avant, le comptage des actions se concentrait surtout sur des répétitions uniques ou sur les actions faites par une seule personne. La plupart des méthodes ne prenaient pas en compte la complexité de plusieurs personnes faisant des activités différentes. Certaines techniques plus anciennes reposaient sur l'analyse des signaux vidéo, utilisant des méthodes connues sous le nom d'analyse de Fourier ou de transformations en ondelettes. Ces méthodes étaient efficaces jusqu'à un certain point mais manquaient de la précision que les modèles modernes d'apprentissage profond peuvent fournir.

L'importance du modélisation spatiotemporelle

La modélisation spatiotemporelle est cruciale pour comprendre comment les actions progressent dans le temps et l'espace. Les modèles traditionnels sont souvent à la traîne pour saisir les connexions à long terme dans une vidéo. En utilisant des techniques avancées comme l'interaction spatiotemporelle mixte, MultiCounter peut mieux comprendre la relation entre les différentes actions et comment elles s'entrelacent.

L'architecture de MultiCounter

MultiCounter est conçu pour prendre un clip vidéo en entrée et sortir des prédictions pour chaque instance humaine. Le processus se déroule en trois étapes principales :

  1. Extraction de caractéristiques : La vidéo est traitée dans un modèle de base qui extrait des caractéristiques utiles.

  2. Interaction spatiotemporelle : Le module d'Interaction Spatiotemporelle Mixte analyse ensuite ces caractéristiques pour mieux comprendre le contexte.

  3. Prédictions : Enfin, les têtes spécifiques à la tâche font des prédictions sur les actions qui se déroulent et quand elles se produisent.

Le rôle de l'interaction spatiotemporelle mixte (MSTI)

Le module MSTI est crucial pour le succès de MultiCounter. Il capte les dépendances locales et globales au sein des images vidéo, ce qui aide à comprendre comment les gens bougent et agissent dans le temps. En utilisant diverses techniques de convolution, le MSTI crée une image plus claire des actions répétées.

Explication des têtes spécifiques à la tâche

MultiCounter utilise deux têtes spécialisées pour améliorer sa performance :

  1. Tête d'instance : Cette tête se concentre sur l'identification et la localisation de toutes les instances humaines dans la vidéo.

  2. Tête de période : Cette tête prédit la rapidité des actions et détermine leur périodicité.

Utiliser ces deux têtes ensemble aide MultiCounter à avoir une vue plus précise de ce qui se passe dans la vidéo.

Métriques d'évaluation

Pour mesurer la performance de MultiCounter, de nouvelles métriques ont été établies. Une métrique unique appelée Period-AP reflète la capacité du modèle à repérer les occurrences d'action dans la vidéo. Elle adapte aussi les métriques existantes pour mieux convenir aux tâches de comptage répétitif multi-instance.

Détails de mise en œuvre

MultiCounter a été développé en utilisant PyTorch, un cadre d'apprentissage profond populaire. Il repose sur un modèle pré-entraîné pour l'extraction de caractéristiques, ce qui accélère le processus d'entraînement. Les paramètres d'entraînement, comme le nombre d'itérations d'entraînement et le taux d'apprentissage, ont été soigneusement choisis pour optimiser les performances.

Principales conclusions

D'après l'évaluation, MultiCounter montre des résultats prometteurs :

  • Il atteint généralement une meilleure précision dans le comptage des actions.
  • Il fonctionne plus vite par rapport aux autres solutions, même en gérant plusieurs instances.
  • La capacité du modèle à se généraliser à de nouvelles actions et scénarios démontre sa robustesse.

Généralisation inter-datasets

Une des forces de MultiCounter est sa capacité à appliquer les connaissances acquises d'un jeu de données à un autre. Les tests sur différents jeux de données ont montré qu'il pouvait maintenir de bonnes performances même avec des actions inconnues. Cette adaptabilité est cruciale pour les applications réelles, où la variabilité est courante.

Futures applications

Au-delà de juste compter les actions, MultiCounter pourrait être utile dans diverses applications :

  • Analyse sportive : Les entraîneurs pourraient l'utiliser pour évaluer l'entraînement des joueurs.
  • Santé : Ça pourrait être employé pour surveiller les niveaux d'activité physique des patients.
  • Analyse de contenu vidéo : Les créateurs de contenu pourraient trouver ça utile pour analyser l'engagement des spectateurs dans les vidéos.

Conclusion

MultiCounter représente une avancée significative dans le domaine du comptage des actions répétitives dans les vidéos. En intégrant des techniques avancées en apprentissage profond, il identifie et compte efficacement les actions effectuées par plusieurs personnes dans des vidéos non coupées. Cette capacité ouvre un éventail de possibilités pour son utilisation dans divers domaines, du sport à la santé et au-delà. À mesure que la technologie continue d'évoluer, elle vise à traiter des scénarios encore plus complexes impliquant différents types d'actions et d'interactions.

Source originale

Titre: MultiCounter: Multiple Action Agnostic Repetition Counting in Untrimmed Videos

Résumé: Multi-instance Repetitive Action Counting (MRAC) aims to estimate the number of repetitive actions performed by multiple instances in untrimmed videos, commonly found in human-centric domains like sports and exercise. In this paper, we propose MultiCounter, a fully end-to-end deep learning framework that enables simultaneous detection, tracking, and counting of repetitive actions of multiple human instances. Specifically, MultiCounter incorporates two novel modules: 1) mixed spatiotemporal interaction for efficient context correlation across consecutive frames, and 2) task-specific heads for accurate perception of periodic boundaries and generalization for action-agnostic human instances. We train MultiCounter on a synthetic dataset called MultiRep generated from annotated real-world videos. Experiments on the MultiRep dataset validate the fundamental challenge of MRAC tasks and showcase the superiority of our proposed model. Compared to ByteTrack+RepNet, a solution that combines an advanced tracker with a single repetition counter, MultiCounter substantially improves Period-mAP by 41.0%, reduces AvgMAE by 58.6%, and increases AvgOBO 1.48 times. This sets a new benchmark in the field of MRAC. Moreover, MultiCounter runs in real-time on a commodity GPU server and is insensitive to the number of human instances in a video.

Auteurs: Yin Tang, Wei Luo, Jinrui Zhang, Wei Huang, Ruihai Jing, Deyu Zhang

Dernière mise à jour: Sep 6, 2024

Langue: English

Source URL: https://arxiv.org/abs/2409.04035

Source PDF: https://arxiv.org/pdf/2409.04035

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires