Avancer l'estimation de la pose humaine en 3D dans le sport
Une nouvelle méthode améliore l'analyse des mouvements des athlètes en utilisant la calibration des caméras.
― 9 min lire
Table des matières
- Le Problème de l'Estimation de Pose Humaine 3D Monoculaire
- Utiliser des Données Synthétiques pour le Réel
- Défis de la Calibration de caméra
- Estimer les Poses 3D avec l'Enregistrement Partiel de Terrain Sportif
- Évaluer les Méthodes Actuelles
- Résultats des Expériences
- Application de la Méthode
- Prendre en Compte la Distorsion de Lentille
- Directions Futures
- Conclusion
- Source originale
- Liens de référence
Dans les diffusions sportives, capter le mouvement des athlètes est un vrai défi. Les caméras utilisées pour filmer les événements sportifs créent des images plates qui montrent les athlètes en 2D au lieu de 3D. Pour analyser comment les athlètes bougent dans la vraie vie, il faut comprendre où se trouvent leurs membres en trois dimensions. Ça demande de connaître la disposition du terrain ou de la piste, ce qui peut être compliqué. Cependant, les lignes sur les terrains de sport peuvent nous aider à calibrer la caméra et à mieux saisir la scène.
Quand on se concentre de près sur un athlète, les marquages sur le terrain deviennent difficiles à voir, rendant la calibration de la caméra plus compliquée. Pour résoudre ce problème, on propose une méthode appelée enregistrement partiel de terrain sportif, où on utilise certains des marquages visibles pour établir la calibration de la caméra. Ça nous aide à estimer les Positions 3D des athlètes de manière plus efficace.
Le Problème de l'Estimation de Pose Humaine 3D Monoculaire
L'estimation de pose humaine (HPE) est le processus d'identification de l'emplacement des articulations d'une personne dans des images. Les techniques modernes peuvent détecter avec précision les emplacements des articulations dans des images 2D. Cependant, passer ces points 2D en poses 3D, qui représentent comment les athlètes se déplacent vraiment, est une tâche complexe. Beaucoup de méthodes actuelles dépendent fortement de la disposition de la scène et de la position de la caméra, et des erreurs dans ces domaines peuvent entraîner des erreurs significatives dans l'estimation de la pose 3D.
Le problème devient encore plus évident lorsqu'il s'agit d'analyser la cinématique de course des athlètes, notamment dans des événements de demi-fond comme le 400m. Les petites variations dans les mouvements des athlètes doivent être capturées avec une grande précision pour détecter des signes de fatigue ou des changements de performance.
Utiliser des Données Synthétiques pour le Réel
Créer un jeu de données précis pour évaluer les méthodes d'estimation de pose est un élément vital pour améliorer ces techniques. Cependant, obtenir des données du monde réel est souvent difficile, long et coûteux. Pour surmonter ce problème, on a généré un Jeu de données synthétique qui contient des images d'athlètes courant sur une piste de 400m. Ce jeu de données nous permet de créer des données de référence pour les positions 3D des articulations et peut nous aider à évaluer les méthodes actuelles de HPE 3D monoculaire.
Le jeu de données a été créé en utilisant un logiciel graphique avancé. On a généré divers personnages avec différents types de corps, tailles et styles de course. Chaque image capture l'athlète sous différents angles de caméra, simulant comment ils apparaîtraient lors d'une vraie diffusion.
Défis de la Calibration de caméra
Dans les images diffusées, les configurations de caméra suivent généralement les athlètes alors qu'ils courent. Cependant, la vue ne capture souvent qu'une petite partie de la piste, rendant difficile une compréhension complète de la scène et une calibration précise de la caméra. Les méthodes actuelles d'enregistrement de terrain sportif s'appuient généralement sur des plans larges montrant plus de terrain, mais ce n'est pas le cas avec des gros plans d'athlètes.
Pour y remédier, on a développé une méthode d'enregistrement partiel de terrain sportif qui calcule un ensemble de perspectives de caméra en utilisant des marquages de couloir visibles. Cette approche nous permet de travailler avec la vue limitée de la piste capturée lors des diffusions. En déterminant un "point de fuite" basé sur les marquages de couloir, on peut créer plusieurs calibrations potentielles de la caméra qui correspondent à la scène.
Estimer les Poses 3D avec l'Enregistrement Partiel de Terrain Sportif
Une fois qu'on a établi un ensemble de calibrations possibles de la caméra, on peut commencer à estimer la pose 3D de l'athlète. En projetant la géométrie 3D connue de la scène sur l'image 2D capturée par la caméra, on utilise des rayons pour déterminer exactement où se trouvent les articulations de l'athlète dans l'espace 3D.
Le processus commence par identifier le point où le pied de l'athlète touche le sol, ce qui nous permet de déterminer sa position sur la piste. De là, on peut construire la pose de l'athlète en traçant les connexions entre ses articulations, en utilisant des longueurs et des angles de membres connus.
Évaluer les Méthodes Actuelles
Pour évaluer l'efficacité des méthodes HPE 3D monoculaires existantes, on utilise le jeu de données synthétique qu'on a créé. On compare les résultats de différentes méthodes, y compris les techniques à la pointe et notre méthode proposée qui prend en compte l'enregistrement partiel de terrain sportif.
En utilisant des métriques comme l'erreur de reprojection, on mesure à quel point les poses estimées s'alignent avec les données de référence. On évalue aussi les positions des articulations en 3D, examinant à quel point on peut déterminer avec précision les angles des genoux, ce qui est crucial pour comprendre la performance d'un athlète.
Résultats des Expériences
Dans nos expériences, on a trouvé que, bien que les méthodes à la pointe soient excellentes pour l'estimation de pose 2D, elles ont beaucoup de mal avec les poses 3D. Beaucoup de méthodes produisaient des résultats qui n'étaient pas assez précis pour une analyse cinématique sérieuse. En intégrant notre méthode d'enregistrement partiel de terrain sportif, on a obtenu de bien meilleurs résultats, permettant une compréhension plus claire des mouvements des athlètes.
Comparaison des Méthodes
Méthode à la Pointe: Cette méthode a montré de bonnes performances pour les poses 2D mais avait de grandes erreurs en passant ces poses en 3D. L'exactitude globale n'était pas suffisante pour une analyse détaillée des mouvements.
Méthode Améliorée avec Calibration de Caméra: En incluant la calibration de la caméra, on a amélioré les résultats. Ce réglage a aidé à mieux aligner la position absolue des articulations 3D avec les données de référence.
Notre Méthode avec Connaissance Contextuelle: On a poussé nos améliorations plus loin en ajoutant des connaissances spécifiques sur les dynamiques de course. En optimisant notre approche en fonction du rythme de la course, on a obtenu des estimations encore meilleures de la pose de l'athlète.
Application de la Méthode
Notre objectif est d'appliquer cette méthode affinée de HPE 3D monoculaire dans des scénarios réels, notamment en analysant des images de vraies diffusions sportives. Jusqu'à présent, on a vu des résultats prometteurs, mais le défi reste d'assurer que notre méthode puisse se généraliser à différentes pistes, athlètes et configurations de caméra.
L'aspect le plus crucial de ce travail est qu'il a le potentiel d'être utilisé dans l'entraînement et le coaching. Avec des données cinématiques précises extraites des diffusions, les entraîneurs peuvent analyser les techniques des athlètes, les aidant à prendre des décisions éclairées sur les ajustements pour améliorer les performances.
Prendre en Compte la Distorsion de Lentille
Lors de nos expériences, on a réfléchi à comment la distorsion de lentille pourrait affecter nos résultats. Cette distorsion est souvent présente dans les images capturées avec des téléobjectifs, surtout quand la caméra zoome sur les athlètes. Pour évaluer son impact, on a appliqué un modèle de distorsion de lentille à nos rendus synthétiques, ce qui nous a permis de voir comment notre méthode se comportait dans des conditions réelles.
Après avoir pris en compte la distorsion de lentille, on a trouvé que notre méthode améliorait toujours la précision de l'estimation 3D. Cependant, les erreurs étaient plus grandes par rapport aux scènes non distordues, indiquant que la distorsion de lentille est un facteur important dans la calibration de la caméra et l'estimation de pose.
Directions Futures
À l'avenir, on vise à affiner notre calibration de caméra partielle et à explorer des moyens d'améliorer notre estimation de pose par rayons. On pense qu'optimiser ces deux aspects ensemble peut conduire à des résultats encore meilleurs.
Au-delà de la course, notre méthode peut être adaptée à divers sports en incorporant différentes configurations de terrain et installations de caméra. Cette flexibilité nous permet de collecter de grandes quantités de données qui peuvent contribuer à une compréhension plus approfondie du mouvement humain.
De plus, on espère qu'à mesure que nos techniques évoluent, elles pourront fournir des insights précieux aux entraîneurs et aux athlètes, améliorant les stratégies d'entraînement et menant finalement à des performances améliorées.
Conclusion
En résumé, notre travail présente une approche innovante de l'estimation de pose humaine 3D monoculaire en intégrant des connaissances sur la géométrie de la scène et en utilisant des méthodes d'enregistrement partiel de terrain sportif. En créant un jeu de données synthétique et en évaluant diverses techniques, on a démontré l'importance d'une calibration précise de la caméra pour obtenir des données cinématiques valides.
En avançant, on est excités par les applications de cette recherche dans le monde du sport et son impact potentiel sur l'entraînement des athlètes et leurs performances. En capturant des insights détaillés sur le mouvement humain, on espère contribuer au développement continu de méthodes d'entraînement efficaces qui peuvent améliorer les performances des athlètes dans l'ensemble.
Titre: Monocular 3D Human Pose Estimation for Sports Broadcasts using Partial Sports Field Registration
Résumé: The filming of sporting events projects and flattens the movement of athletes in the world onto a 2D broadcast image. The pixel locations of joints in these images can be detected with high validity. Recovering the actual 3D movement of the limbs (kinematics) of the athletes requires lifting these 2D pixel locations back into a third dimension, implying a certain scene geometry. The well-known line markings of sports fields allow for the calibration of the camera and for determining the actual geometry of the scene. Close-up shots of athletes are required to extract detailed kinematics, which in turn obfuscates the pertinent field markers for camera calibration. We suggest partial sports field registration, which determines a set of scene-consistent camera calibrations up to a single degree of freedom. Through joint optimization of 3D pose estimation and camera calibration, we demonstrate the successful extraction of 3D running kinematics on a 400m track. In this work, we combine advances in 2D human pose estimation and camera calibration via partial sports field registration to demonstrate an avenue for collecting valid large-scale kinematic datasets. We generate a synthetic dataset of more than 10k images in Unreal Engine 5 with different viewpoints, running styles, and body types, to show the limitations of existing monocular 3D HPE methods. Synthetic data and code are available at https://github.com/tobibaum/PartialSportsFieldReg_3DHPE.
Auteurs: Tobias Baumgartner, Stefanie Klatt
Dernière mise à jour: 2023-04-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.04437
Source PDF: https://arxiv.org/pdf/2304.04437
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.