Présentation de SANPO : Un nouveau jeu de données pour la compréhension des scènes
Le dataset SANPO combine des vidéos réelles et synthétiques pour faire avancer la recherche en navigation.
― 7 min lire
Table des matières
- Qu'est-ce qui rend SANPO unique ?
- Processus de collecte des données
- Types de données incluses
- Cas d'utilisation de SANPO
- Défis des données égocentriques
- La composition du dataset
- Techniques d'annotation
- Comparaison de SANPO avec d'autres datasets
- Références et évaluations
- Directions futures
- Conclusion
- Source originale
- Liens de référence
SANPO est une grande collection de vidéos qui se concentre sur la manière dont les humains comprennent les scènes de leur point de vue. Ce dataset est conçu pour aider les chercheurs à développer de meilleurs systèmes de navigation, notamment pour des tâches comme l’assistance aux personnes malvoyantes. Il inclut des enregistrements d'environnements réels et d'environnements synthétiques faits pour ressembler aux conditions de la vie réelle.
Qu'est-ce qui rend SANPO unique ?
SANPO se démarque car il combine des données vidéo réelles et générées par ordinateur. Les données réelles proviennent de deux caméras portées par des bénévoles, offrant différents points de vue sur diverses scènes en extérieur. Les données synthétiques sont créées dans un espace virtuel mais sont conçues pour être aussi proches que possible des scénarios réels. Cette combinaison permet aux chercheurs d'étudier comment les humains perçoivent et naviguent efficacement dans les environnements.
Processus de collecte des données
Les données pour SANPO ont été collectées par des bénévoles qui portaient des caméras spéciales. Ces caméras capturaient des vidéos pendant que les individus se déplaçaient à travers différents environnements, comme les rues de la ville, les parcs et d'autres espaces extérieurs. Les bénévoles ont également traversé diverses conditions météorologiques et moments de la journée pour garantir une large gamme de scènes. L'objectif était de rassembler des données diversifiées, y compris des zones à fort trafic humain et vehiculaire, ainsi que des obstacles pouvant affecter la navigation.
Types de données incluses
Le dataset SANPO comprend plusieurs types d'informations :
Vidéo stéréo : Le dataset consiste en des vidéos capturées à partir de deux caméras en même temps, offrant une vue tridimensionnelle.
Annotations de profondeur : Chaque vidéo est accompagnée de données sur la distance des différents objets par rapport à la caméra, aidant à comprendre les distances dans les scènes.
Segmentation sémantique : Cela consiste à décomposer les images vidéo en différentes parties basées sur ce qui est visible (par ex., personnes, véhicules, obstacles) et à marquer ces parties.
Informations d'odométrie : Cela indique la position de la caméra et de l'individu dans le temps, ajoutant plus de contexte aux données.
SANPO comprend à la fois des scènes du monde réel et des scènes synthétiques. Les scènes réelles sont riches en détails mais peuvent avoir des imperfections à cause de facteurs comme le mouvement de la caméra ou l'éclairage. D'un autre côté, les scènes synthétiques offrent des données parfaites, ce qui peut aider à former efficacement des modèles.
Cas d'utilisation de SANPO
Ce dataset a de nombreuses applications. Il peut aider à développer des technologies pour :
Robotique : Améliorer la façon dont les robots comprennent et naviguent dans les environnements humains.
Véhicules autonomes : Aider les voitures à prendre de meilleures décisions lorsqu'elles détectent des humains et des obstacles.
Réalité augmentée : Permettre aux appareils d'interpréter mieux le monde environnant pour les utilisateurs.
Accessibilité : Créer des systèmes qui aident les personnes malvoyantes en fournissant des retours en temps réel sur leur environnement.
En se concentrant sur la collecte de données centrées sur l'humain et l'annotation, SANPO comble un vide qui existait dans les datasets utilisés pour la compréhension des scènes.
Défis des données égocentriques
Les vidéos capturées d'un point de vue humain présentent des défis uniques. Les points de vue peuvent être non conventionnels, ce qui peut rendre l'interprétation des informations difficile. De plus, les scènes peuvent changer rapidement en raison des interactions avec d'autres personnes et objets. Ces facteurs rendent nécessaire un dataset solide comme SANPO pour former des modèles capables de gérer une telle variabilité.
La composition du dataset
SANPO contient au total plus de 700 sessions de vidéos enregistrées. Chaque session dure environ 30 secondes et représente diverses conditions. Le dataset possède un nombre significatif de cartes de profondeur et de masques de segmentation, ce qui en fait l'une des ressources les plus grandes et les plus détaillées pour la compréhension des scènes égocentriques.
Pour les sessions réelles, il y a plus de 975 000 masques de segmentation, et pour les sessions synthétiques, il y en a plus de 113 000. La segmentation couvre différentes catégories telles que les humains, les véhicules, les obstacles et divers éléments de l'environnement.
Techniques d'annotation
Pour assurer des données de haute qualité, les annotations du dataset sont réalisées selon une approche systématique. Des humains annotent des images spécifiques, et ces annotations sont ensuite utilisées pour inférer des informations pour d'autres images dans la même vidéo. Cela signifie que chaque image annotée aide à améliorer la qualité des données et à faciliter l'analyse.
Le dataset est structuré pour identifier différents éléments dans la scène comme des “choses” (comme les piétons et les véhicules) et des “trucs” (comme le ciel et les routes). Cette distinction est essentielle pour des tâches comme la détection d'objets et la classification de scènes.
Comparaison de SANPO avec d'autres datasets
D'autres datasets ont été créés pour des tâches comme la conduite autonome et la détection d'objets. Cependant, la plupart d'entre eux n'incluent pas le niveau de détail présent dans SANPO, surtout en ce qui concerne les perspectives humaines. Beaucoup de datasets existants se concentrent principalement sur les véhicules ou les environnements structurés, tandis que SANPO met l'accent sur l'imprévisibilité et la complexité des interactions humaines quotidiennes.
Bien que des datasets comme SCAND et Ego4D capturent des perspectives égocentriques, ils manquent souvent des annotations complètes nécessaires pour la segmentation sémantique. SANPO répond à cela en fournissant à la fois des données de profondeur et de segmentation, ce qui en fait une ressource précieuse pour diverses applications de recherche.
Références et évaluations
Pour aider les chercheurs à évaluer l'efficacité de différents modèles utilisant le dataset SANPO, des références ont été établies. Ces références leur permettent d'évaluer à quel point les modèles existants performent face aux défis présentés par SANPO. L'évaluation comprend des tests sur l'estimation de profondeur et la segmentation sémantique, avec des métriques utilisées pour quantifier la performance.
Les résultats montrent que beaucoup de modèles existants ont du mal avec des tâches utilisant SANPO, indiquant sa nature difficile. Cela est bénéfique car cela encourage les avancées dans les technologies capables de gérer les complexités de la navigation humaine.
Directions futures
L'introduction de SANPO devrait inspirer des recherches supplémentaires dans diverses applications. Les chercheurs peuvent utiliser ce dataset pour affiner leurs modèles pour naviguer plus efficacement dans des scénarios du monde réel. Cela aidera à répondre aux défis uniques posés par la navigation égocentrique.
En soulignant l'importance des perspectives humaines dans la compréhension des environnements, SANPO vise à repousser les limites des technologies destinées à améliorer la vie humaine. Que ce soit à travers la robotique, la réalité augmentée ou les efforts d'accessibilité, ce dataset a le potentiel d'avoir un impact significatif dans plusieurs domaines.
Conclusion
En résumé, SANPO est un dataset innovant conçu pour améliorer notre compréhension de la façon dont les humains perçoivent et interagissent avec leur environnement. Il combine des vidéos du monde réel avec des données synthétiques pour créer une ressource riche pour la communauté de recherche. En se concentrant sur l'expérience humaine, SANPO est prêt à faire progresser le développement de systèmes de navigation plus efficaces et à améliorer notre compréhension globale de la compréhension des scènes.
Titre: SANPO: A Scene Understanding, Accessibility and Human Navigation Dataset
Résumé: Vision is essential for human navigation. The World Health Organization (WHO) estimates that 43.3 million people were blind in 2020, and this number is projected to reach 61 million by 2050. Modern scene understanding models could empower these people by assisting them with navigation, obstacle avoidance and visual recognition capabilities. The research community needs high quality datasets for both training and evaluation to build these systems. While datasets for autonomous vehicles are abundant, there is a critical gap in datasets tailored for outdoor human navigation. This gap poses a major obstacle to the development of computer vision based Assistive Technologies. To overcome this obstacle, we present SANPO, a large-scale egocentric video dataset designed for dense prediction in outdoor human navigation environments. SANPO contains 701 stereo videos of 30+ seconds captured in diverse real-world outdoor environments across four geographic locations in the USA. Every frame has a high resolution depth map and 112K frames were annotated with temporally consistent dense video panoptic segmentation labels. The dataset also includes 1961 high-quality synthetic videos with pixel accurate depth and panoptic segmentation annotations to balance the noisy real world annotations with the high precision synthetic annotations. SANPO is already publicly available and is being used by mobile applications like Project Guideline to train mobile models that help low-vision users go running outdoors independently. To preserve anonymization during peer review, we will provide a link to our dataset upon acceptance. SANPO is available here: https://google-research-datasets.github.io/sanpo_dataset/
Auteurs: Sagar M. Waghmare, Kimberly Wilber, Dave Hawkey, Xuan Yang, Matthew Wilson, Stephanie Debats, Cattalyya Nuengsigkapian, Astuti Sharma, Lars Pandikow, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko
Dernière mise à jour: 2024-12-19 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.12172
Source PDF: https://arxiv.org/pdf/2309.12172
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.