Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Apprentissage automatique

Présentation du jeu de données Aria Digital Twin

Un nouveau jeu de données pour la perception machine dans des environnements de réalité augmentée.

― 10 min lire


Lancement du jeu deLancement du jeu dedonnées Aria Digital Twinperception machine pour la RA.Nouveau jeu de données améliore la
Table des matières

Le Aria Digital Twin (ADT) est un nouveau jeu de données conçu pour étudier comment les machines perçoivent le monde du point de vue d'une personne, surtout dans des environnements où la réalité augmentée (AR) est utilisée. En AR, des objets virtuels sont placés dans le monde réel, et il est important que les machines comprennent comment ces objets interagissent avec notre environnement. Le jeu de données ADT est spécial car il contient des informations détaillées sur les objets, les environnements et les personnes qui interagissent avec eux.

L'ADT se compose de 200 séquences capturées dans deux lieux intérieurs différents - un appartement et un bureau. Au total, il y a 398 objets dans ces zones, y compris des objets fixes qui ne bougent pas et des objets dynamiques qui peuvent être déplacés. Les données sont recueillies via des lunettes portables appelées lunettes Aria, équipées de caméras et de capteurs pour collecter différents types d'informations.

Caractéristiques du jeu de données ADT

Chaque séquence dans l'ADT inclut des données brutes provenant de divers flux de caméras, des infos sur la position et l'orientation des lunettes, ainsi que des modèles 3D détaillés et des rendus tant des objets que de l'environnement. Ces données complètes permettent aux chercheurs d'analyser des tâches complexes comme la détection et le suivi d'objets dans l'espace 3D, la reconstruction de scènes et la prédiction des poses humaines.

Le jeu de données permet aux scientifiques de comparer leurs méthodes à une norme de haute qualité, s'assurant que leur travail répond aux défis liés à la Perception Machine. L'objectif est d'inspirer de nouvelles idées de recherche et des applications dans le domaine de la réalité augmentée.

Importance des données égocentriques

Ces dernières années, la demande pour des données égocentriques - des données qui reflètent comment une personne voit le monde - a considérablement augmenté. Cela vient de l'essor des applications de réalité augmentée qui dépendent de la capacité à superposer des images virtuelles sur le monde réel. Pour créer une expérience AR convaincante, les machines doivent avoir une conscience complète de l'environnement, y compris des gens, des objets et de l'environnement lui-même.

Pour atteindre cette conscience, il faut des représentations 3D précises du monde réel. Ce n'est pas suffisant de comprendre les éléments statiques ; il faut aussi suivre les mouvements des objets dynamiques et les interactions entre les gens et ces objets. C'est nécessaire pour créer des interactions à la fois dans les espaces réels et virtuels.

Jeux de données existants et leurs limitations

Beaucoup de jeux de données existants se concentrent sur un aspect de la perception machine, comme la Détection d'objets statiques ou l'estimation de pose humaine. Bien que ces jeux de données aient aidé à faire avancer le domaine, ils négligent souvent les complexités des environnements dynamiques du monde réel.

Les jeux de données qui se concentrent sur des scènes statiques fournissent des infos sur des objets fixes mais ne tiennent pas compte des mouvements et des interactions qui se produisent dans la vie quotidienne. D'un autre côté, les jeux de données qui suivent des objets dynamiques le font souvent dans des environnements contrôlés, ce qui ne reflète pas fidèlement les scénarios du monde réel.

Certains jeux de données contiennent des données sur les mouvements humains mais n'incluent pas l'environnement, limitant leur utilité pour des tâches qui nécessitent de comprendre comment les gens et les objets interagissent dans un espace. Le jeu de données Aria Digital Twin comble ces lacunes en offrant une vue d'ensemble des espaces intérieurs où les objets sont à la fois statiques et dynamiques, avec des infos détaillées sur les interactions humaines.

Avantages du jeu de données Aria Digital Twin

Un des principaux avantages du jeu de données ADT, c'est sa nature exhaustive. Il a été créé en utilisant des lunettes Aria modernes qui capturent une large gamme de données sensorielles, incluant trois types d'images de caméra et des données de mouvement provenant des capteurs. Cela permet aux chercheurs de recueillir plus d'infos que ce qui était possible auparavant avec d'autres jeux de données.

Les données ont été collectées dans deux environnements intérieurs réalistes, un appartement et un bureau, ce qui garantit qu'elles reflètent les activités quotidiennes des gens. Ce cadre aide à produire des insights plus pertinents pour les applications AR, qui ont besoin d'une compréhension pratique de la manière dont les utilisateurs interagissent avec leur environnement.

Une autre caractéristique significative de l'ADT est son attention à la précision. Le jeu de données inclut des données de Vérité terrain précises, comme les positions exactes des objets et des humains dans les scènes, ce qui est essentiel pour former et évaluer des algorithmes de perception machine.

Processus de création du jeu de données

La création de l'Aria Digital Twin impliquait plusieurs étapes clés pour garantir une collecte de données de haute qualité. La première étape a été de numériser les espaces avec précision. Les pièces physiques ont été scannées à l'aide de scanners haute résolution pour créer des modèles 3D qui représentent l'agencement et les objets réels dans l'espace.

Une fois les espaces numérisés, l'étape suivante consistait à capturer les données avec les lunettes Aria. Les lunettes suivaient les mouvements des personnes et des objets, générant un flux continu de données comprenant des images de caméra, des positions d'objets, des poses humaines, et plus encore.

Un système de capture de mouvement a été intégré à l'installation pour garantir que tous les points de données étaient correctement synchronisés. Cette synchronisation est vitale pour s'assurer que tous les éléments peuvent être représentés avec précision dans un système de coordonnées partagé, permettant aux chercheurs de s'engager avec les données de manière complète.

Assurance qualité et précision du système

Pour garantir la qualité des modèles 3D et la précision du suivi des objets, divers processus de validation ont été employés. Cela impliquait de comparer les poses estimées des objets avec les mesures de vérité terrain recueillies durant le processus de collecte de données.

En analysant les erreurs dans les estimations, les chercheurs pouvaient mesurer comment le système fonctionnait. Les résultats de cette analyse ont montré un haut degré de précision, démontrant l'efficacité de la méthodologie de collecte de données utilisée pour créer l'ADT.

Annotation des données et génération de vérité terrain

Le jeu de données ADT inclut une vaste information de vérité terrain qui fournit un contexte aux données collectées. Pour chaque image enregistrée par l'appareil Aria, les chercheurs ont généré des annotations qui comprenaient les emplacements de tous les objets et humains présents dans la scène.

Ces annotations ont été dérivées d'une combinaison de données brutes des capteurs et des modèles numériques créés durant le processus de numérisation des pièces. Cette approche complète permet une analyse détaillée et l'exploration de diverses tâches liées à la perception machine, y compris la détection d'objets, la segmentation d'images, et plus encore.

Activités capturées dans le jeu de données

Les activités capturées dans le jeu de données ADT reflètent la vie quotidienne dans les deux environnements. Dans l'appartement, diverses activités individuelles et à deux personnes ont été enregistrées. Cela inclut des tâches comme la décoration des pièces, la préparation des repas et le nettoyage. L'objectif était de créer une riche variété de scénarios qui aideraient les chercheurs à comprendre comment les gens interagissent avec leur environnement.

Dans l'environnement de bureau, les scénarios sont plus limités, se concentrant principalement sur l'examen d'objets. Cette différence permet aux chercheurs d'étudier des modèles d'interaction distincts entre les deux contextes, offrant des insights sur différents types de comportements selon les situations.

Évaluation des tâches de perception machine

Avec les données collectées dans le jeu de données ADT, les chercheurs peuvent évaluer diverses méthodes de pointe pour des tâches comme la détection d'objets, la segmentation, et la traduction d'images. Les évaluations de performance sont essentielles pour évaluer à quel point différents algorithmes fonctionnent avec le nouveau jeu de données.

Les résultats initiaux montrent que les algorithmes formés sur des jeux de données traditionnels ne performent pas aussi bien sur l'ADT. Cela est principalement dû aux différences dans la manière dont les données sont capturées et aux défis spécifiques présentés par la perspective égocentrique, montrant un écart clair entre la formation et les applications réelles.

Défis de la détection d'objets

Le jeu de données ADT met aussi en lumière les défis impliqués dans la détection d'objets dans des environnements réels. De grandes disparités ont été observées lorsque des méthodes avancées ont été appliquées au jeu de données, indiquant que les modèles formés sur d'autres jeux de données ont du mal avec les mouvements rapides et les points de vue variés trouvés dans les séquences ADT.

Par exemple, certains modèles ont du mal à prédire avec précision les poses 3D des objets, ce qui peut en limiter l'efficacité dans les applications AR. Une meilleure compréhension de ces défis pave la voie à l'amélioration des techniques existantes et au développement de nouvelles méthodes mieux adaptées aux complexités du monde réel.

Directions futures et applications

En regardant vers l'avenir, le jeu de données Aria Digital Twin ouvre de nombreuses possibilités pour faire avancer la recherche dans la perception machine et la réalité augmentée. La précision et l'exhaustivité du jeu de données fournissent une ressource précieuse pour les chercheurs cherchant à relever les limitations actuelles dans le domaine.

De nouvelles applications peuvent émerger de ce riche jeu de données, y compris des expériences AR plus efficaces, des systèmes de suivi d'objets améliorés, et une meilleure compréhension de la manière dont les gens interagissent avec la technologie. En combinant les insights du ADT avec les développements en apprentissage machine et en vision par ordinateur, l'avenir de la perception machine peut être considérablement amélioré.

Conclusion

Le jeu de données Aria Digital Twin représente une avancée significative dans le domaine de la perception machine égocentrique. En offrant une source de données robuste et de haute qualité qui capture les interactions du monde réel, il permet aux chercheurs de relever certains des défis les plus pressants de la réalité augmentée.

Avec ses annotations détaillées, ses données de vérité terrain précises et ses scénarios variés, l'ADT établit une nouvelle norme pour la qualité et l'exhaustivité des jeux de données dans ce domaine. L'impact de ce jeu de données se fera probablement sentir dans diverses applications à mesure que les chercheurs continueront d'explorer de nouvelles façons de tirer parti de cette ressource inestimable.

Source originale

Titre: Aria Digital Twin: A New Benchmark Dataset for Egocentric 3D Machine Perception

Résumé: We introduce the Aria Digital Twin (ADT) - an egocentric dataset captured using Aria glasses with extensive object, environment, and human level ground truth. This ADT release contains 200 sequences of real-world activities conducted by Aria wearers in two real indoor scenes with 398 object instances (324 stationary and 74 dynamic). Each sequence consists of: a) raw data of two monochrome camera streams, one RGB camera stream, two IMU streams; b) complete sensor calibration; c) ground truth data including continuous 6-degree-of-freedom (6DoF) poses of the Aria devices, object 6DoF poses, 3D eye gaze vectors, 3D human poses, 2D image segmentations, image depth maps; and d) photo-realistic synthetic renderings. To the best of our knowledge, there is no existing egocentric dataset with a level of accuracy, photo-realism and comprehensiveness comparable to ADT. By contributing ADT to the research community, our mission is to set a new standard for evaluation in the egocentric machine perception domain, which includes very challenging research problems such as 3D object detection and tracking, scene reconstruction and understanding, sim-to-real learning, human pose prediction - while also inspiring new machine perception tasks for augmented reality (AR) applications. To kick start exploration of the ADT research use cases, we evaluated several existing state-of-the-art methods for object detection, segmentation and image translation tasks that demonstrate the usefulness of ADT as a benchmarking dataset.

Auteurs: Xiaqing Pan, Nicholas Charron, Yongqian Yang, Scott Peters, Thomas Whelan, Chen Kong, Omkar Parkhi, Richard Newcombe, Carl Yuheng Ren

Dernière mise à jour: 2023-06-13 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.06362

Source PDF: https://arxiv.org/pdf/2306.06362

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires