# Informatique # Vision par ordinateur et reconnaissance des formes # Intelligence artificielle # Apprentissage automatique

Création de jeux de données innovants pour la vision par ordinateur

Une nouvelle méthode utilise le mining d'images pour s'entraîner sans annotations.

2025-10-27T07:11:42+00:00 ― 7 min lire

Table des matières

Une nouvelle approche pour créer des ensembles de données
Le problème des méthodes actuelles
Notre mécanisme de création d'ensemble de données
L'Apprentissage auto-supervisé
Le rôle des sciences cognitives
Complétion Inter-View (CroCo)
Avantages de notre méthode
Étapes de traitement
Évaluation de la performance des modèles
Résultats des expériences
Considérations futures
Conclusion
Source originale
Liens de référence

Aujourd'hui, beaucoup de tâches en vision par ordinateur, comme prédire la profondeur et identifier des objets dans des images, dépendent de modèles déjà entraînés sur de grands ensembles de données. L'un des principaux défis est de rassembler des ensembles de données efficaces pour entraîner ces modèles. La plupart des ensembles de données réussis utilisés pour l'entraînement nécessitent des annotations détaillées, ce qui peut prendre du temps et coûter cher à produire.

Une nouvelle approche pour créer des ensembles de données

On propose une méthode pour créer des ensembles de données sans avoir besoin d'annotations. Ce processus consiste à rassembler des images à partir de vidéos en open source et d'environnements 3D simulés. Contrairement aux méthodes précédentes qui nécessitent une configuration minutieuse, notre approche utilise des techniques courantes de vision par ordinateur pour trouver des relations entre des images prises sous différents angles.

Le problème des méthodes actuelles

Les tâches actuelles pixel par pixel dépendent souvent de représentations construites à partir de modèles entraînés sur de grands ensembles de données étiquetés. Cependant, ces ensembles de données incluent généralement des images prises d'un seul point de vue. En essayant d'apprendre sur des structures tridimensionnelles à partir de ces images plates, les modèles ont du mal car ils manquent d'informations multi-vues nécessaires. Beaucoup des méthodes existantes utilisent aussi des techniques complexes qui reposent fortement sur la disponibilité de points de données spécifiques, y compris des données de maillage 3D et des informations sur les caméras qui sont difficiles à obtenir.

Notre mécanisme de création d'ensemble de données

Notre technique de création d'ensemble de données, que l'on appelle minage, crée deux nouveaux ensembles de données à partir de collections d'images existantes. Cela se fait en identifiant des paires d'images qui montrent la même scène sous différents angles. Cela permet aux modèles d'apprendre des représentations plus riches et utiles qui peuvent mieux informer des tâches comme la prédiction de profondeur et la Segmentation sémantique.

L'Apprentissage auto-supervisé

L'apprentissage auto-supervisé est un domaine prometteur en apprentissage automatique qui permet aux modèles d'apprendre à partir de données non étiquetées. Dans notre contexte, on utilise l'apprentissage auto-supervisé pour améliorer les capacités des modèles pour des tâches qui bénéficient d'une compréhension des structures 3D. Grâce à cette méthode, les modèles peuvent être entraînés à reconstruire des images et à apprendre des relations entre différentes vues de la même scène, améliorant ainsi leur performance sur diverses tâches.

Le rôle des sciences cognitives

La science cognitive offre des insights sur la façon dont les humains perçoivent la profondeur et les relations spatiales. Par exemple, des études suggèrent que les nourrissons développent une compréhension des structures 3D en observant des changements dans les stimuli visuels en se déplaçant. Ce principe motive notre approche, car nous extrayons des caractéristiques d'images prises sous divers angles, permettant aux modèles d'apprendre la perception de la profondeur.

Complétion Inter-View (CroCo)

Une des dernières méthodes en modélisation d'images s'appelle la Complétion Inter-View (CroCo). Cette méthode vise à reconstruire une vue d'une scène en utilisant une autre vue comme support. CroCo peut produire des résultats prometteurs, mais son utilisation est limitée par le besoin de grandes quantités de données annotées. On propose une variante qui réduit ces exigences en utilisant notre technique de minage d'ensemble de données.

Avantages de notre méthode

Pas besoin d'annotations : Notre approche allège le besoin d'annotations coûteuses et chronophages.
Scalabilité : La méthode peut être continuellement mise à l'échelle pour générer de plus grands ensembles de données, ce qui est essentiel pour améliorer la performance des modèles.
Meilleure performance : Les premières constatations suggèrent que les modèles entraînés sur nos ensembles de données minés surpassent ceux entraînés sur des ensembles de données traditionnels avec annotations dans diverses tâches.

Étapes de traitement

Identification des sources de données

Pour créer nos ensembles de données, on s'inspire de diverses sources, y compris des vidéos et des environnements 3D synthétiques. On collecte des données tout en gardant à l'esprit les considérations éthiques en se concentrant sur du contenu open source.

Minage de paires d'images

Ensuite, on cherche des paires d'images capturant le même objet ou la même scène sous différents angles. Cela permet au modèle d'en savoir plus sur la structure 3D en ayant des points de vue divers. En sélectionnant des images partageant des caractéristiques clés ou se chevauchant de manière significative, on s'assure que les données collectées seront précieuses pour l'entraînement du modèle.

Mesure de chevauchement

Pour confirmer que les paires d'images sont adaptées, on applique des techniques pour mesurer combien elles se chevauchent visuellement. On se concentre sur des paires offrant un degré de chevauchement significatif sans être des images identiques. Cet équilibre aide le modèle à mieux apprendre.

Évaluation de la performance des modèles

On réalise des expériences pour évaluer l'impact de notre ensemble de données sur la performance des modèles. Cela inclut l'entraînement sur diverses tâches comme l'Estimation de profondeur, la segmentation sémantique et la prédiction de normales de surface. Les modèles sont entraînés à la fois sur nos ensembles de données minés et sur des ensembles de données traditionnels pour comparaison.

Résultats des expériences

Estimation de profondeur améliorée : Les modèles entraînés sur notre ensemble de données montrent de meilleurs résultats d'estimation de profondeur que ceux entraînés sur des ensembles de données existants.
Segmentation sémantique améliorée : Notre approche améliore aussi l'exactitude de la segmentation sur des benchmarks standards.
Succès avec des données limitées : Même en travaillant avec moins d'exemples étiquetés, les modèles entraînés sur nos ensembles de données performent mieux que ceux entraînés sur des ensembles de données conventionnels.

Considérations futures

Limites

Bien que notre méthode montre du potentiel, il est important de reconnaître certaines limites. Par exemple, on a entraîné nos modèles avec des ressources limitées, ce qui signifie qu'ils ne sont pas encore complètement optimisés. De plus, nos ensembles de données contiennent principalement des scènes statiques plutôt que des environnements dynamiques avec des objets en mouvement.

Considérations éthiques

Alors qu'on affine nos techniques de création d'ensemble de données, on reste conscient des problèmes éthiques autour de la collecte de données. Il est crucial de prendre en compte la vie privée et les droits en utilisant des vidéos de diverses sources.

Expansion de l'ensemble de données

Les travaux futurs pourraient inclure la création d'ensembles de données encore plus grands pour l'entraînement et l'exploration d'applications dans des environnements dynamiques, où les objets sont en mouvement. Cela améliorerait encore les capacités de nos modèles.

Conclusion

Dans cette étude, on présente une méthode pour créer des ensembles de données à grande échelle nécessaires pour entraîner des modèles sur des tâches nécessitant une compréhension de la profondeur et de l'espace. Notre approche ouvre de nouvelles avenues pour la recherche et les applications pratiques en vision par ordinateur. En tirant parti de données existantes et en se concentrant sur les relations multi-vues, on peut développer des modèles plus puissants qui performent mieux dans diverses tâches dans le monde réel.

Les développements continus dans ce domaine sont passionnants et pourraient mener à des avancées significatives sur la façon dont les machines perçoivent et interprètent les informations visuelles.

Source originale

Titre: MIMIC: Masked Image Modeling with Image Correspondences

Résumé: Dense pixel-specific representation learning at scale has been bottlenecked due to the unavailability of large-scale multi-view datasets. Current methods for building effective pretraining datasets heavily rely on annotated 3D meshes, point clouds, and camera parameters from simulated environments, preventing them from building datasets from real-world data sources where such metadata is lacking. We propose a pretraining dataset-curation approach that does not require any additional annotations. Our method allows us to generate multi-view datasets from both real-world videos and simulated environments at scale. Specifically, we experiment with two scales: MIMIC-1M with 1.3M and MIMIC-3M with 3.1M multi-view image pairs. We train multiple models with different masked image modeling objectives to showcase the following findings: Representations trained on our automatically generated MIMIC-3M outperform those learned from expensive crowdsourced datasets (ImageNet-1K) and those learned from synthetic environments (MULTIVIEW-HABITAT) on two dense geometric tasks: depth estimation on NYUv2 (1.7%), and surface normals estimation on Taskonomy (2.05%). For dense tasks which also require object understanding, we outperform MULTIVIEW-HABITAT, on semantic segmentation on ADE20K (3.89%), pose estimation on MSCOCO (9.4%), and reduce the gap with models pre-trained on the object-centric expensive ImageNet-1K. We outperform even when the representations are frozen, and when downstream training data is limited to few-shot. Larger dataset (MIMIC-3M) significantly improves performance, which is promising since our curation method can arbitrarily scale to produce even larger datasets. MIMIC code, dataset, and pretrained models are open-sourced at https://github.com/RAIVNLab/MIMIC.

Auteurs: Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Patrick Howe, Sharan Ranjit S, Anand Bhattad, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna

Dernière mise à jour: 2024-05-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.15128

Source PDF: https://arxiv.org/pdf/2306.15128

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Liens de référence

Sujets référencés

Plus d'auteurs

Vision par ordinateur et reconnaissance des formes Évaluer les modèles texte-image avec TIFA

Une nouvelle méthode pour évaluer la qualité des images basée sur des descriptions textuelles.

2025-12-06T22:50:42+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Mesurer la cohérence des modèles de vision à travers les tâches

Un nouveau jeu de données teste la cohérence des modèles de vision sur différentes tâches.

2025-12-04T05:00:42+00:00 ― 8 min lire

Calcul et langage Aperçus sur les modèles de génération de mots-clés

Une analyse des modèles de génération de phrases clés et de leur efficacité.

2025-11-23T17:15:54+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Approches innovantes pour le développement de jeux de données multimodaux

Un nouveau référentiel vise à améliorer la qualité des jeux de données multimodaux pour de meilleures performances des modèles.

2025-11-23T01:51:36+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Améliorer les modèles vision-langage pour le matching des attributs d'objet

Cet article parle d'améliorer les modèles vision-langage pour mieux associer objets et attributs.

2025-11-20T08:33:12+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes UrbanIR : Faire avancer le rendu de scènes urbaines

UrbanIR transforme des vidéos uniques en visuels urbains réalistes sous différents éclairages.

2025-10-30T16:26:00+00:00 ― 8 min lire

Apprentissage automatique Amorçage Neural : Adapter des Gros Modèles avec Peu de Données

Une technique pour améliorer la performance du modèle avec un minimum d'exemples étiquetés.

2025-10-30T04:11:18+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Objaverse-XL : Une étape marquante dans la collecte de données 3D

Objaverse-XL propose plus de 10 millions d'objets 3D divers pour le développement de technologies avancées.

2025-10-21T11:21:54+00:00 ― 7 min lire

Création de jeux de données innovants pour la vision par ordinateur

Une nouvelle méthode utilise le mining d'images pour s'entraîner sans annotations.

#Une nouvelle approche pour créer des ensembles de données

#Le problème des méthodes actuelles

#Notre mécanisme de création d'ensemble de données

#L'Apprentissage auto-supervisé

#Le rôle des sciences cognitives

#Complétion Inter-View (CroCo)

#Avantages de notre méthode

#Étapes de traitement

#Identification des sources de données

#Minage de paires d'images

#Mesure de chevauchement

#Évaluation de la performance des modèles

#Résultats des expériences

#Considérations futures

#Limites

#Considérations éthiques

#Expansion de l'ensemble de données

#Conclusion