Création de jeux de données innovants pour la vision par ordinateur
Une nouvelle méthode utilise le mining d'images pour s'entraîner sans annotations.
― 7 min lire
Table des matières
- Une nouvelle approche pour créer des ensembles de données
- Le problème des méthodes actuelles
- Notre mécanisme de création d'ensemble de données
- L'Apprentissage auto-supervisé
- Le rôle des sciences cognitives
- Complétion Inter-View (CroCo)
- Avantages de notre méthode
- Étapes de traitement
- Évaluation de la performance des modèles
- Résultats des expériences
- Considérations futures
- Conclusion
- Source originale
- Liens de référence
Aujourd'hui, beaucoup de tâches en vision par ordinateur, comme prédire la profondeur et identifier des objets dans des images, dépendent de modèles déjà entraînés sur de grands ensembles de données. L'un des principaux défis est de rassembler des ensembles de données efficaces pour entraîner ces modèles. La plupart des ensembles de données réussis utilisés pour l'entraînement nécessitent des annotations détaillées, ce qui peut prendre du temps et coûter cher à produire.
Une nouvelle approche pour créer des ensembles de données
On propose une méthode pour créer des ensembles de données sans avoir besoin d'annotations. Ce processus consiste à rassembler des images à partir de vidéos en open source et d'environnements 3D simulés. Contrairement aux méthodes précédentes qui nécessitent une configuration minutieuse, notre approche utilise des techniques courantes de vision par ordinateur pour trouver des relations entre des images prises sous différents angles.
Le problème des méthodes actuelles
Les tâches actuelles pixel par pixel dépendent souvent de représentations construites à partir de modèles entraînés sur de grands ensembles de données étiquetés. Cependant, ces ensembles de données incluent généralement des images prises d'un seul point de vue. En essayant d'apprendre sur des structures tridimensionnelles à partir de ces images plates, les modèles ont du mal car ils manquent d'informations multi-vues nécessaires. Beaucoup des méthodes existantes utilisent aussi des techniques complexes qui reposent fortement sur la disponibilité de points de données spécifiques, y compris des données de maillage 3D et des informations sur les caméras qui sont difficiles à obtenir.
Notre mécanisme de création d'ensemble de données
Notre technique de création d'ensemble de données, que l'on appelle minage, crée deux nouveaux ensembles de données à partir de collections d'images existantes. Cela se fait en identifiant des paires d'images qui montrent la même scène sous différents angles. Cela permet aux modèles d'apprendre des représentations plus riches et utiles qui peuvent mieux informer des tâches comme la prédiction de profondeur et la Segmentation sémantique.
L'Apprentissage auto-supervisé
L'apprentissage auto-supervisé est un domaine prometteur en apprentissage automatique qui permet aux modèles d'apprendre à partir de données non étiquetées. Dans notre contexte, on utilise l'apprentissage auto-supervisé pour améliorer les capacités des modèles pour des tâches qui bénéficient d'une compréhension des structures 3D. Grâce à cette méthode, les modèles peuvent être entraînés à reconstruire des images et à apprendre des relations entre différentes vues de la même scène, améliorant ainsi leur performance sur diverses tâches.
Le rôle des sciences cognitives
La science cognitive offre des insights sur la façon dont les humains perçoivent la profondeur et les relations spatiales. Par exemple, des études suggèrent que les nourrissons développent une compréhension des structures 3D en observant des changements dans les stimuli visuels en se déplaçant. Ce principe motive notre approche, car nous extrayons des caractéristiques d'images prises sous divers angles, permettant aux modèles d'apprendre la perception de la profondeur.
Complétion Inter-View (CroCo)
Une des dernières méthodes en modélisation d'images s'appelle la Complétion Inter-View (CroCo). Cette méthode vise à reconstruire une vue d'une scène en utilisant une autre vue comme support. CroCo peut produire des résultats prometteurs, mais son utilisation est limitée par le besoin de grandes quantités de données annotées. On propose une variante qui réduit ces exigences en utilisant notre technique de minage d'ensemble de données.
Avantages de notre méthode
Pas besoin d'annotations : Notre approche allège le besoin d'annotations coûteuses et chronophages.
Scalabilité : La méthode peut être continuellement mise à l'échelle pour générer de plus grands ensembles de données, ce qui est essentiel pour améliorer la performance des modèles.
Meilleure performance : Les premières constatations suggèrent que les modèles entraînés sur nos ensembles de données minés surpassent ceux entraînés sur des ensembles de données traditionnels avec annotations dans diverses tâches.
Étapes de traitement
Identification des sources de données
Pour créer nos ensembles de données, on s'inspire de diverses sources, y compris des vidéos et des environnements 3D synthétiques. On collecte des données tout en gardant à l'esprit les considérations éthiques en se concentrant sur du contenu open source.
Minage de paires d'images
Ensuite, on cherche des paires d'images capturant le même objet ou la même scène sous différents angles. Cela permet au modèle d'en savoir plus sur la structure 3D en ayant des points de vue divers. En sélectionnant des images partageant des caractéristiques clés ou se chevauchant de manière significative, on s'assure que les données collectées seront précieuses pour l'entraînement du modèle.
Mesure de chevauchement
Pour confirmer que les paires d'images sont adaptées, on applique des techniques pour mesurer combien elles se chevauchent visuellement. On se concentre sur des paires offrant un degré de chevauchement significatif sans être des images identiques. Cet équilibre aide le modèle à mieux apprendre.
Évaluation de la performance des modèles
On réalise des expériences pour évaluer l'impact de notre ensemble de données sur la performance des modèles. Cela inclut l'entraînement sur diverses tâches comme l'Estimation de profondeur, la segmentation sémantique et la prédiction de normales de surface. Les modèles sont entraînés à la fois sur nos ensembles de données minés et sur des ensembles de données traditionnels pour comparaison.
Résultats des expériences
Estimation de profondeur améliorée : Les modèles entraînés sur notre ensemble de données montrent de meilleurs résultats d'estimation de profondeur que ceux entraînés sur des ensembles de données existants.
Segmentation sémantique améliorée : Notre approche améliore aussi l'exactitude de la segmentation sur des benchmarks standards.
Succès avec des données limitées : Même en travaillant avec moins d'exemples étiquetés, les modèles entraînés sur nos ensembles de données performent mieux que ceux entraînés sur des ensembles de données conventionnels.
Considérations futures
Limites
Bien que notre méthode montre du potentiel, il est important de reconnaître certaines limites. Par exemple, on a entraîné nos modèles avec des ressources limitées, ce qui signifie qu'ils ne sont pas encore complètement optimisés. De plus, nos ensembles de données contiennent principalement des scènes statiques plutôt que des environnements dynamiques avec des objets en mouvement.
Considérations éthiques
Alors qu'on affine nos techniques de création d'ensemble de données, on reste conscient des problèmes éthiques autour de la collecte de données. Il est crucial de prendre en compte la vie privée et les droits en utilisant des vidéos de diverses sources.
Expansion de l'ensemble de données
Les travaux futurs pourraient inclure la création d'ensembles de données encore plus grands pour l'entraînement et l'exploration d'applications dans des environnements dynamiques, où les objets sont en mouvement. Cela améliorerait encore les capacités de nos modèles.
Conclusion
Dans cette étude, on présente une méthode pour créer des ensembles de données à grande échelle nécessaires pour entraîner des modèles sur des tâches nécessitant une compréhension de la profondeur et de l'espace. Notre approche ouvre de nouvelles avenues pour la recherche et les applications pratiques en vision par ordinateur. En tirant parti de données existantes et en se concentrant sur les relations multi-vues, on peut développer des modèles plus puissants qui performent mieux dans diverses tâches dans le monde réel.
Les développements continus dans ce domaine sont passionnants et pourraient mener à des avancées significatives sur la façon dont les machines perçoivent et interprètent les informations visuelles.
Titre: MIMIC: Masked Image Modeling with Image Correspondences
Résumé: Dense pixel-specific representation learning at scale has been bottlenecked due to the unavailability of large-scale multi-view datasets. Current methods for building effective pretraining datasets heavily rely on annotated 3D meshes, point clouds, and camera parameters from simulated environments, preventing them from building datasets from real-world data sources where such metadata is lacking. We propose a pretraining dataset-curation approach that does not require any additional annotations. Our method allows us to generate multi-view datasets from both real-world videos and simulated environments at scale. Specifically, we experiment with two scales: MIMIC-1M with 1.3M and MIMIC-3M with 3.1M multi-view image pairs. We train multiple models with different masked image modeling objectives to showcase the following findings: Representations trained on our automatically generated MIMIC-3M outperform those learned from expensive crowdsourced datasets (ImageNet-1K) and those learned from synthetic environments (MULTIVIEW-HABITAT) on two dense geometric tasks: depth estimation on NYUv2 (1.7%), and surface normals estimation on Taskonomy (2.05%). For dense tasks which also require object understanding, we outperform MULTIVIEW-HABITAT, on semantic segmentation on ADE20K (3.89%), pose estimation on MSCOCO (9.4%), and reduce the gap with models pre-trained on the object-centric expensive ImageNet-1K. We outperform even when the representations are frozen, and when downstream training data is limited to few-shot. Larger dataset (MIMIC-3M) significantly improves performance, which is promising since our curation method can arbitrarily scale to produce even larger datasets. MIMIC code, dataset, and pretrained models are open-sourced at https://github.com/RAIVNLab/MIMIC.
Auteurs: Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Patrick Howe, Sharan Ranjit S, Anand Bhattad, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna
Dernière mise à jour: 2024-05-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.15128
Source PDF: https://arxiv.org/pdf/2306.15128
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/RAIVNLab/MIMIC
- https://github.com/RAIVNLab/MIMIC/blob/main/LICENSE
- https://github.com/facebookresearch/habitat-matterport3d-dataset
- https://svl.stanford.edu/gibson2/assets/GDS_agreement.pdf
- https://github.com/amir32002/3D_Street_View/blob/master/LICENSE
- https://github.com/facebookresearch/co3d/blob/main/LICENSE
- https://google.github.io/mannequinchallenge/www/download.html
- https://github.com/apple/ARKitScenes
- https://github.com/google-research-datasets/Objectron/blob/master/LICENSE
- https://kaldir.vc.in.tum.de/scannet/ScanNet_TOS.pdf
- https://kaldir.vc.in.tum.de/matterport/MP_TOS.pdf
- https://github.com/lmb-freiburg/demon/blob/master/LICENSE.txt
- https://www.image-net.org/download.php
- https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- https://groups.csail.mit.edu/vision/datasets/ADE20K/terms/
- https://github.com/StanfordVL/taskonomy/blob/master/LICENSE
- https://cocodataset.org/
- https://github.com/facebookresearch/mae/blob/main/LICENSE
- https://github.com/naver/croco/blob/master/LICENSE
- https://github.com/EPFL-VILAB/MultiMAE/blob/main/LICENSE
- https://mirrors.ctan.org/macros/latex/contrib/natbib/natnotes.pdf
- https://www.ctan.org/pkg/booktabs
- https://www.emfield.org/icuwb2010/downloads/IEEE-PDF-SpecV32.pdf
- https://mirrors.ctan.org/macros/latex/required/graphics/grfguide.pdf
- https://neurips.cc/Conferences/2022/PaperInformation/FundingDisclosure
- https://www.pamitc.org/documents/mermin.pdf