Avancées dans le contrôle des avatars avec la technologie AR et VR
Une nouvelle méthode améliore les mouvements des avatars en utilisant des données de réalité augmentée et de réalité virtuelle.
― 9 min lire
Table des matières
- Introduction
- Le défi de l'estimation de pose
- Aperçu de la méthode
- Contrôle en temps réel de l'avatar
- Données synthétiques pour l'entraînement
- Gérer les limitations
- Physique en mouvement
- Conception du contrôleur
- Résultats et performance
- Défis avec différents appareils
- Directions futures
- Conclusion
- Source originale
- Liens de référence
Cet article parle d'une nouvelle méthode pour contrôler un personnage virtuel ressemblant à un humain, appelé avatar, en utilisant des infos provenant de casques de réalité augmentée (AR) et de réalité virtuelle (VR). L’objectif est de faire en sorte que l’avatar imite les Mouvements d'une personne qui porte le casque. En utilisant des capteurs montés sur la tête, y compris des caméras et des trackers de mouvement, la méthode tente de créer une représentation réaliste des mouvements humains en temps réel.
Introduction
Il y a un intérêt croissant pour créer des AvatarsRéalistes pour diverses applications, comme les jeux vidéo, les expériences en réalité mixte, et même pour faire fonctionner des robots à distance. Cependant, capturer le mouvement complet d'une personne portant un casque peut être délicat, surtout parce que les caméras voient le corps sous des angles uniques. Souvent, certaines parties du corps ne sont pas visibles à cause de la vue obstruée ou déformée, ce qui rend difficile l'obtention de Données de mouvement précises.
Cette nouvelle approche combine les données de position et d'orientation du casque avec des images provenant de caméras montées sur l’appareil. Quand les caméras peuvent voir les mains et les pieds, ces mouvements aident à guider l'avatar. Si les caméras ne peuvent pas voir ces parties, la méthode utilise des règles physiques pour estimer comment elles devraient bouger. Cette combinaison vise à créer des mouvements d'avatar plus fluides et réalistes.
Le défi de l'estimation de pose
Les casques n'ont généralement pas de caméras ou de capteurs positionnés de manière à voir tout le corps. Ils ne suivent souvent que les mouvements de la tête et fournissent des vues limitées, ce qui peut créer des lacunes dans les données pour les bras et les jambes. Cette limitation rend les méthodes traditionnelles pour estimer la posture ou le mouvement du corps difficiles à appliquer.
Les recherches se sont concentrées sur différentes façons d'estimer la position du corps en utilisant divers montages de caméras, y compris des caméras aériennes ou des dispositifs spécialisés. Cependant, ces configurations peuvent être coûteuses ou impraticables pour une utilisation quotidienne. Les capteurs du casque fournissent des informations mais manquent de détails sur la partie inférieure du corps, car ils ne peuvent souvent pas voir les pieds et les jambes clairement.
Aperçu de la méthode
La méthode proposée intègre les données des capteurs du casque et des caméras. L'avatar est contrôlé pour suivre avec précision les mouvements du corps du porteur. Les étapes principales de cette approche incluent le suivi de la position du casque, le traitement des images des caméras, et la traduction de ces données en mouvements pour l'avatar.
La méthode apprend d'une combinaison de données collectées dans des situations réelles et de données synthétiques (données générées par ordinateur) où les angles de caméra correspondent aux configurations du casque. Ce processus d'apprentissage aide à améliorer la précision et la réactivité de l'avatar dans des scénarios en temps réel.
Contrôle en temps réel de l'avatar
L'objectif principal est que l'avatar réagisse instantanément aux mouvements de l'utilisateur. En envoyant continuellement des mises à jour sur la position du casque et les images capturées, la méthode peut produire une représentation réaliste du mouvement de l'utilisateur.
Le processus fonctionne comme suit :
- Collecte des informations : La méthode recueille des données du casque et des caméras, y compris la position et l’orientation du casque et des infos visuelles sur les alentours.
- Estimation des mouvements : Elle suit les parties du corps visibles (comme les mains et les pieds) pour déterminer comment elles devraient bouger. Si des parties sont obstruées ou hors de vue, elle applique des lois physiques pour décider comment les faire bouger naturellement.
- Création de signaux de contrôle : Enfin, ces entrées génèrent des commandes qui dictent comment l’avatar doit se déplacer, assurant qu'il imite le porteur en temps réel.
Données synthétiques pour l'entraînement
Comme capturer suffisamment de données du monde réel peut être difficile, les chercheurs ont créé une grande collection de données synthétiques. En utilisant un moteur de jeu, ils ont simulé diverses activités et ont enregistré comment un humain se déplacerait dans ces scénarios sous l’angle des caméras du casque. Cette approche permet un entraînement extensif sans avoir à se fier uniquement à des données du monde réel, qui peuvent être limitées ou variées.
Les données synthétiques incluent des images de mouvements associés à des activités quotidiennes, des sports, et d'autres gestes qu'une personne pourrait effectuer. Ce jeu de données sert de base pour entraîner le modèle, s'assurant qu'il comprend comment réagir à différents mouvements et conditions.
Gérer les limitations
Bien que la méthode montre des promesses, elle a certaines limitations, notamment lorsqu'il s'agit de mouvements rapides ou complexes. Parce que l'avatar doit prédire les mouvements basés sur les données des capteurs, il peut parfois être en retard par rapport au mouvement réel de l'utilisateur. De plus, si certaines parties du corps sont cachées, par exemple lors d'actions soudaines, l'avatar peut ne pas reproduire ces mouvements correctement.
Le modèle a aussi parfois du mal avec le positionnement précis des mains, surtout dans des situations où les mains sortent du champ des caméras. Donc, ces lacunes mettent en lumière les complexités liées à la création d'une représentation précise du mouvement humain.
Physique en mouvement
Ajouter de la physique au processus de contrôle permet à l'avatar d'avoir des mouvements plus réalistes. Au lieu de se fier uniquement aux retours visuels, l'incorporation des lois de la physique aide à guider les mouvements de l'humanoïde. Par exemple, si le pied de l'avatar n'est pas visible, la méthode peut toujours déterminer comment il devrait être positionné en fonction de la façon dont une personne déplacerait naturellement son poids.
Cela améliore non seulement le réalisme, mais réduit aussi les problèmes comme le flottement (où des parties de l'avatar défient la gravité) et les collisions. En tenant compte des principes physiques, l'avatar peut s'adapter et ajuster ses mouvements de manière plus appropriée pour imiter correctement les actions du porteur.
Conception du contrôleur
La méthode utilise un design simplifié qui supprime la nécessité d'étapes intermédiaires dans le processus de contrôle. Au lieu d'utiliser plusieurs représentations, elle apprend à traduire directement les entrées du casque et des caméras en commandes de mouvement pour l'avatar. Cette approche de bout en bout rationalise l'entraînement et facilite l'adaptation de la méthode à différents scénarios et appareils.
Résultats et performance
Les premières évaluations de la méthode démontrent sa capacité dans des environnements de test synthétiques et réels. Les résultats indiquent que l'avatar peut suivre efficacement les mouvements corporels d'un utilisateur, en atteignant une précision satisfaisante dans les estimations de pose.
La performance du système dans des applications réelles montre une forte ressemblance avec les mouvements de l'utilisateur, reflétant le potentiel pour des mises en œuvre pratiques. Cette capacité ouvre la porte à diverses applications, du jeu aux réunions virtuelles et au contrôle de robots.
Défis avec différents appareils
La performance peut varier selon le casque et sa configuration de caméra. Par exemple, certains appareils peuvent avoir uniquement des caméras orientées vers l'avant, limitant la vue du corps. La recherche aborde ces défis en adaptant la méthode pour fonctionner avec différents casques, améliorant la robustesse à travers divers scénarios.
Cette flexibilité garantit que l'avatar peut toujours fournir des mouvements réalistes même lorsque certaines parties du corps sont moins visibles. La méthode montre des promesses pour une utilisation avec une large gamme d'appareils AR et VR grand public.
Directions futures
Les chercheurs visent à affiner davantage la méthode en intégrant des données supplémentaires qui capturent plus précisément la dynamique du mouvement humain. Cela pourrait inclure l'incorporation d'informations temporelles, où le mouvement au fil du temps est pris en compte, permettant de meilleures prédictions sur la façon dont les utilisateurs vont bouger à l'avenir.
Un autre objectif est d'améliorer les jeux de données d'entraînement en s'appuyant sur plus de données du monde réel, ce qui aiderait à combler le fossé entre les performances synthétiques et réelles. Améliorer la capacité du modèle à reconnaître et à s'adapter aux mouvements rapides sera également un point clé.
En renforçant les capacités du système, cela améliorera non seulement la réactivité de l'avatar, mais élargira également la gamme d'applications, le rendant adapté à un public plus large.
Conclusion
Cette nouvelle approche pour contrôler des avatars simulés en utilisant la technologie AR et VR représente une avancée passionnante dans le domaine. En combinant les données des capteurs de casque et des caméras, la méthode offre un moyen pour les avatars de refléter avec précision le mouvement humain en temps réel. Bien qu'il reste encore des défis à relever, les résultats suggèrent un bel avenir pour des représentations virtuelles réalistes dans divers secteurs, du jeu à la robotique.
Grâce à des recherches continues et des améliorations, le potentiel de ces systèmes pour transformer les interactions et les expériences virtuelles continue de croître. L'intégration de données synthétiques, de contrôles basés sur la physique et de retours en temps réel offre un cadre complet pour développer des avatars plus sophistiqués capables d'imiter sans effort les mouvements humains.
Titre: Real-Time Simulated Avatar from Head-Mounted Sensors
Résumé: We present SimXR, a method for controlling a simulated avatar from information (headset pose and cameras) obtained from AR / VR headsets. Due to the challenging viewpoint of head-mounted cameras, the human body is often clipped out of view, making traditional image-based egocentric pose estimation challenging. On the other hand, headset poses provide valuable information about overall body motion, but lack fine-grained details about the hands and feet. To synergize headset poses with cameras, we control a humanoid to track headset movement while analyzing input images to decide body movement. When body parts are seen, the movements of hands and feet will be guided by the images; when unseen, the laws of physics guide the controller to generate plausible motion. We design an end-to-end method that does not rely on any intermediate representations and learns to directly map from images and headset poses to humanoid control signals. To train our method, we also propose a large-scale synthetic dataset created using camera configurations compatible with a commercially available VR headset (Quest 2) and show promising results on real-world captures. To demonstrate the applicability of our framework, we also test it on an AR headset with a forward-facing camera.
Auteurs: Zhengyi Luo, Jinkun Cao, Rawal Khirodkar, Alexander Winkler, Jing Huang, Kris Kitani, Weipeng Xu
Dernière mise à jour: 2024-04-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.06862
Source PDF: https://arxiv.org/pdf/2403.06862
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.