Améliorer la collaboration à distance avec la réalité augmentée
Une nouvelle méthode améliore les expériences de réalité augmentée pour le travail d'équipe à distance.
― 9 min lire
Table des matières
- Concept de champ de vision amélioré
- Méthodes de reconstruction 3D
- Techniques d'amélioration d'image
- Défis dans la capture de données
- Processus de création de nuage de points
- Processus de reconstruction NeRF
- Développement d'application
- Résultats expérimentaux
- Limitations et directions futures
- Source originale
- Liens de référence
La réalité augmentée (RA) change la façon dont les gens collaborent depuis différents endroits. La RA aide les utilisateurs à voir des images numériques superposées à des vues du monde réel, ce qui peut être super utile pour des tâches comme l'assistance à distance. Toutefois, les appareils de RA, en particulier le Microsoft HoloLens 2, ont quelques problèmes. Un gros souci est le champ de vision étroit, ce qui rend difficile pour les spectateurs à distance de voir tout le contexte d'une scène. Un autre problème est le flou de mouvement, qui se produit lorsque l'utilisateur bouge rapidement la tête, entraînant des images floues pour ceux qui regardent à distance. Cet article discute d'une nouvelle méthode pour améliorer l'expérience visuelle en RA lors de la collaboration à distance.
Concept de champ de vision amélioré
Pour rendre l'expérience meilleure pour les spectateurs à distance, on a besoin d'une vue détaillée et réaliste de l'environnement. Cependant, les appareils RA actuels comme le HoloLens ne peuvent pas créer des modèles 3D précis des alentours en temps réel à cause des limitations matérielles. Pour y remédier, on propose une solution en deux parties. La première partie consiste à créer un Modèle 3D de l'environnement hors ligne, et la deuxième utilise ce modèle pour créer des images améliorées pendant la collaboration en temps réel.
Le processus commence par la capture de Données RGB-D, qui inclut des images couleur (RGB) et des informations de profondeur (à quelle distance sont les objets). Ces données sont collectées en se déplaçant lentement dans la zone cible, s'assurant que les images ne soient pas floues. Une fois les données capturées, on les utilise pour créer un modèle 3D de la scène.
Méthodes de reconstruction 3D
On utilise deux méthodes différentes pour créer le modèle 3D : l'approche géométrique RGB-D et une méthode plus récente appelée Neural Radiance Fields (NeRF). Chaque méthode a ses forces et faiblesses.
Approche géométrique RGB-D : Cette méthode utilise à la fois des images couleur et de profondeur pour créer un nuage de points détaillé, qui représente la structure 3D de la scène. On peut ensuite transformer ce nuage en un maillage 3D qui représente visuellement l'environnement. L'avantage de cette méthode est qu'elle fournit des détails visuels clairs et utiles, facilitant la génération d'images réalistes par la suite.
NeRF : Cette méthode se concentre sur l'utilisation uniquement des images couleur et des positions de la caméra pour créer une représentation réaliste de la scène. NeRF peut produire des images de haute qualité mais prend généralement plus de temps à entraîner, ce qui la rend moins pratique pour des applications en temps réel.
Pour tester ces méthodes, on analyse comment elles reconstruisent l'environnement en fonction de divers critères, comme la qualité de rendu et le temps de traitement. L'objectif est de déterminer quelle méthode offre la meilleure expérience globale pour les spectateurs à distance.
Techniques d'amélioration d'image
Une fois qu'on a le nuage de points ou le maillage de la reconstruction 3D, il faut rendre ces images plus réalistes. Les images de base générées à partir de Nuages de points ou de maillages manquent souvent des détails qu'on voit dans de vraies photos, donc on utilise des techniques d'amélioration d'image.
Une méthode populaire pour améliorer les images s'appelle Pix2pix. Cette technique utilise l'apprentissage machine pour ajuster les images de base en images de meilleure qualité qui ressemblent davantage à de vraies photos. Pendant la phase d'entraînement, on alimente le modèle avec des paires d'images rendues et les images réelles correspondantes, permettant ainsi au modèle d'apprendre à faire les améliorations de manière précise.
Une fois formé, le système peut prendre les images de base produites pendant la collaboration en temps réel, appliquer les améliorations pix2pix, et générer des versions améliorées qui ressemblent plus à des vues réelles pour les observateurs à distance.
Défis dans la capture de données
Capturer les données avec précision est essentiel pour créer des modèles 3D réalistes. Le HoloLens peut collecter des données RGB et de profondeur, mais ce processus est limité par plusieurs facteurs. D'une part, la résolution des données peut être inférieure à ce que l'appareil peut réellement fournir, ce qui affecte la qualité des images. De plus, même de légers mouvements pendant la capture des données peuvent entraîner du flou de mouvement. Ce flou peut impacter considérablement l'efficacité du modèle NeRF et des améliorations d'image supervisées.
Pour résoudre ces problèmes, il est crucial de capturer des images de haute qualité. Au lieu d'utiliser de la vidéo, ce qui peut entraîner du flou, on pourrait prendre des images fixes nettes sous divers angles pour de meilleures données d'entrée.
Processus de création de nuage de points
Créer un nuage de points détaillé à partir des données capturées implique plusieurs étapes. On utilise des images de profondeur et de couleur ainsi que les positions de la caméra lors des prises de vue. Ce processus garantit qu'on génère un nuage de points qui représente fidèlement la scène.
Création du nuage de points : D'abord, on prend des images de profondeur et on les convertit en un nuage de points en déterminant la position 3D de chaque pixel en fonction de la valeur de profondeur. On nettoie aussi le nuage de points pour éliminer le bruit et les points indésirables.
Colorisation du nuage de points : Ensuite, on associe chaque point dans le nuage de points à une valeur de couleur des images RGB. Cela nous donne un nuage de points coloré qui est plus informatif visuellement.
Registration des nuages de points : Si plusieurs nuages de points existent en raison de différentes captures d'images, on les combine en un seul. On fait attention à les assembler de manière à éviter les chevauchements, en s'assurant que tous les détails soient préservés.
Reconstruction de surface : Enfin, on crée un modèle de surface 3D lisse à partir du nuage de points en utilisant divers algorithmes, garantissant qu'il reflète fidèlement la scène originale.
Processus de reconstruction NeRF
Pour l'approche NeRF, on se concentre uniquement sur les images RGB et les positions de la caméra. Le processus inclut la sélection d'images nettes, le raffinement des poses, l'entraînement du modèle NeRF et le rendu d'images basées sur le modèle entraîné.
Sélection d'images : Les images utilisées doivent être de haute qualité. On vérifie chaque image pour sa netteté et on sélectionne les meilleures à utiliser dans la phase d'entraînement de NeRF.
Raffinement des poses : On convertit les poses de la caméra dans un format adapté pour le modèle NeRF.
Entraînement et rendu : Une fois qu'on a les images et les poses prêtes, on entraîne le modèle NeRF. Après l'entraînement, on peut l'utiliser pour créer des images réalistes à partir des poses capturées.
Développement d'application
On propose aussi de développer une application qui intègre ce processus de stabilisation d'image pour l'assistance à distance. L'application aurait des composants fonctionnant à la fois sur le HoloLens et un ordinateur portable Windows connecté.
Du côté du HoloLens, le système streamerait la position actuelle de la tête vers le spectateur à distance via une connexion TCP. Sur l'ordinateur portable, ces données seraient reçues et utilisées pour générer soit des images améliorées à partir du nuage de points, soit à partir du modèle NeRF. De cette manière, les spectateurs à distance obtiendraient une vue plus claire et plus stable de ce que voit l'utilisateur du HoloLens, améliorant l'expérience globale de collaboration.
Résultats expérimentaux
Nos tests ont impliqué la capture de données dans deux environnements différents pour évaluer les performances des méthodes utilisées. On a enregistré des données dans des pièces de tailles similaires et on a comparé les résultats des deux approches de reconstruction en termes de qualité et de clarté.
Les images rendues à travers notre pipeline ont montré des améliorations en PSNR (Peak Signal to Noise Ratio) et SSIM (Structural Similarity Index), qui sont des métriques utilisées pour évaluer la qualité des images. L'amélioration pix2pix a considérablement augmenté ces scores, conduisant à des images plus claires. Cependant, la méthode NeRF produisait généralement des images riches en détails mais souvent bruyantes à cause des limitations des données capturées initialement.
Limitations et directions futures
Bien que cette approche ait montré des promesses, il reste encore des défis à relever. Les débits de transfert de données limités peuvent freiner la capture d'images de haute résolution et entraîner des reconstructions de qualité inférieure. De plus, les caméras de profondeur peuvent rencontrer des difficultés avec les surfaces réfléchissantes et les objets en mouvement rapide.
Pour améliorer le processus, on pourrait expérimenter de nouvelles méthodes de capture de données, comme des techniques d'apprentissage profond pour améliorer la précision de la profondeur. Les efforts futurs pourraient se concentrer sur l'entraînement avec des images en pleine résolution pour éviter de générer des sorties floues, ce qui pourrait améliorer à la fois le nuage de points et les traductions d'image.
De plus, aborder les problèmes de bruit dans les sorties NeRF pourrait impliquer d'intégrer des informations de profondeur pour affiner davantage la qualité des images. Globalement, bien qu'il y ait de la marge pour l'amélioration, la méthode proposée représente une étape précieuse pour améliorer l'expérience de collaboration à distance grâce à la technologie RA.
Titre: Image Stabilization for Hololens Camera in Remote Collaboration
Résumé: With the advent of new technologies, Augmented Reality (AR) has become an effective tool in remote collaboration. Narrow field-of-view (FoV) and motion blur can offer an unpleasant experience with limited cognition for remote viewers of AR headsets. In this article, we propose a two-stage pipeline to tackle this issue and ensure a stable viewing experience with a larger FoV. The solution involves an offline 3D reconstruction of the indoor environment, followed by enhanced rendering using only the live poses of AR device. We experiment with and evaluate the two different 3D reconstruction methods, RGB-D geometric approach and Neural Radiance Fields (NeRF), based on their data requirements, reconstruction quality, rendering, and training times. The generated sequences from these methods had smoother transitions and provided a better perspective of the environment. The geometry-based enhanced FoV method had better renderings as it lacked blurry outputs making it better than the other attempted approaches. Structural Similarity Index (SSIM) and Peak Signal to Noise Ratio (PSNR) metrics were used to quantitatively show that the rendering quality using the geometry-based enhanced FoV method is better. Link to the code repository - https://github.com/MixedRealityETHZ/ImageStabilization.
Auteurs: Gowtham Senthil, Siva Vignesh Krishnan, Annamalai Lakshmanan, Florence Kissling
Dernière mise à jour: 2023-04-05 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.02736
Source PDF: https://arxiv.org/pdf/2304.02736
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.