Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Apprentissage automatique

Combler le fossé entre les croquis et les photos

Une nouvelle méthode aide les ordinateurs à relier des croquis à de vraies images de façon efficace.

― 7 min lire


Innovations deInnovations decorrespondance entrecroquis et photomachines en images réelles.l'interprétation des croquis par lesDe nouvelles méthodes améliorent
Table des matières

Comprendre comment les croquis se rapportent aux images du monde réel, c'est pas facile pour les ordinateurs. Les humains peuvent facilement relier un simple dessin à l'objet qu'il représente, même si le dessin est pas super réaliste. Notre but, c'est d'aider les machines à faire pareil. Ça peut être utile dans plein de domaines, de l'art à la technologie.

On a mis au point une nouvelle méthode pour aider les ordinateurs à apprendre la connexion entre les croquis et les images en créant un dataset spécial et un système d'entraînement. On a rassemblé pas mal de données et utilisé l'Apprentissage auto-supervisé, ce qui veut dire que le système apprend sans avoir besoin de trop d'intervention humaine.

Besoin d'apprentissage de correspondance

Les humains peuvent comprendre les croquis à différents niveaux, en reconnaissant pas juste ce que le croquis représente, mais aussi comment les parties du croquis se rapportent aux parties de l'objet réel. Par exemple, en regardant un croquis de voiture, les gens peuvent identifier les roues, les fenêtres, et d'autres caractéristiques, et comprendre comment elles se rapportent à la vraie voiture.

Cependant, apprendre aux machines à comprendre ça, c'est pas simple. Le challenge, c'est les différences entre les photos colorées et les simples dessins au trait. Même si beaucoup de systèmes ont été créés pour aider les ordinateurs à comprendre les images, ils ont souvent du mal à comparer les croquis et les photos.

Création d'un nouveau benchmark

Pour résoudre ce problème, on a créé un nouveau benchmark appelé PSC6K. Ce dataset inclut 150 000 marquages de points clés à partir de 6 250 paires de croquis et photos dans 125 catégories d'objets. Ça s'appuie sur des datasets existants pour donner une compréhension plus détaillée de comment les croquis correspondent aux images.

Chaque point clé dans le dataset représente une partie d'un objet à la fois dans le croquis et la photo. Donc, un point sur un croquis de chat devrait correspondre à la même position sur la photo d'un vrai chat.

Méthodologie

On a développé une méthode d'apprentissage auto-supervisé pour identifier ces points clés. Notre système découpe le processus en deux parties principales : un encodeur de caractéristiques qui analyse les images et un estimateur de déformation qui les aligne.

Encodeur de caractéristiques

L'encodeur de caractéristiques fait partie du système qui apprend à représenter à la fois les croquis et les photos d'une manière qui permet de les comparer. Il utilise une technique appelée apprentissage contrastif, qui différencie les images similaires et différentes. L'encodeur se concentre sur l'alignement des paires de croquis et de photos, apprenant à comprendre quelles caractéristiques correspondent entre les deux.

Estimateur de déformation

Une fois que les caractéristiques ont été encodées, la prochaine étape est d'aligner le croquis et la photo. C'est là qu'intervient l'estimateur de déformation. Il prédit comment transformer la photo pour qu'elle corresponde au croquis. L'objectif est de maximiser la similarité entre les deux images après la transformation.

Rassemblement d'Annotations

Pour s'assurer que notre dataset est précis, on avait besoin d'un peu d'aide humaine. On a fait appel à 1 384 personnes pour annoter les points clés dans nos paires croquis-photos. Ils ont vu un croquis et devaient marquer les points correspondants sur la photo.

Chaque paire photo-croquis a reçu trois ensembles d'annotations pour chaque point clé. En utilisant la moyenne de ces annotations, on a créé un point clé de vérité de base pour chaque paire. Ça a permis d'assurer qu'on avait des données fiables pour entraîner notre système.

Évaluation de notre modèle

On a comparé la performance de notre modèle avec plusieurs autres systèmes. On a mesuré à quel point notre système pouvait prédire les points correspondants entre croquis et photos. Nos résultats ont montré que notre méthode surpassait de nombreuses techniques existantes.

Cependant, on a aussi remarqué qu'il y avait encore des différences entre les performances de notre modèle et celles des humains. Ça indique qu'il y a encore du chemin à faire pour rapprocher la compréhension des machines de la perception humaine.

Défis de compréhension des croquis

Bien que notre modèle ait montré des résultats prometteurs, il y a des domaines où il a encore des difficultés. Les dessins humains mettent souvent l'accent sur certaines caractéristiques tout en en ignorant d'autres, ce qui rend la tâche de trouver des correspondances plus complexe. De plus, les croquis manquent des indices de couleur et de texture qui aident à la correspondance des photos.

Ça veut dire que la capacité de reconnaître et d'aligner les caractéristiques dans les croquis nécessite une approche différente de celle qui a traditionnellement été utilisée pour les photos. Le succès de notre modèle dans ce domaine suggère qu'il avance dans la bonne direction, mais qu'il doit encore surmonter des défis spécifiques.

Apprentissage auto-supervisé

L'apprentissage auto-supervisé a gagné pas mal d'attention récemment. Ça permet aux modèles d'apprendre sans avoir besoin de grands datasets étiquetés, qui sont souvent difficiles à obtenir. Au lieu de ça, les modèles apprennent en trouvant des motifs dans les données qu'ils reçoivent.

Dans notre travail, on a utilisé l'apprentissage auto-supervisé pour entraîner notre modèle sur les vastes données qu'on a collectées. Cette approche a aidé notre modèle à mieux comprendre comment les croquis et les photos se rapportent l'un à l'autre sans nécessiter une étiquetage humaine excessive des données.

Résultats et constats

On a découvert que notre modèle pouvait efficacement saisir les relations entre croquis et photos. Les comparaisons avec les méthodes existantes ont montré que notre approche établissait une nouvelle norme pour ce type d'apprentissage de correspondance.

Malgré ces améliorations, nos résultats ont toujours montré des écarts entre les prédictions de la machine et la compréhension humaine. Ces écarts mettent en évidence la nécessité de continuer à travailler pour rendre les systèmes d'apprentissage machine capables d'interpréter efficacement les informations visuelles comme le font les humains.

Conclusion

En résumé, on a développé un système qui favorise une meilleure compréhension de la correspondance entre photos et croquis. Notre travail a fourni un nouveau benchmark et une méthode auto-supervisée avancée qui surpasse les techniques précédentes.

Bien qu'on ait fait des progrès significatifs, il reste des défis à relever. Les travaux futurs peuvent se concentrer sur le rapprochement entre la compréhension machine et celle des humains dans ce domaine. On espère que ces avancées pousseront les limites de la manière dont les machines interprètent les données visuelles, menant à des systèmes encore plus intelligents.

Directions futures

Les prochaines étapes dans ce domaine impliquent de peaufiner encore notre modèle. Ça inclut d'explorer comment différents styles de croquis peuvent être interprétés et de créer des méthodes plus robustes pour gérer la variabilité inhérente aux croquis réalisés par les humains.

En plus, explorer d'autres moyens d'améliorer la capacité du modèle à établir des connexions entre les images dans des conditions variées sera crucial. On vise aussi à élargir la portée de notre benchmark pour inclure des catégories et des styles de croquis et de photos plus divers.

En s'attaquant continuellement à ces défis, on peut se rapprocher de la création de systèmes qui non seulement comprennent les croquis et les photos, mais qui saisissent aussi les concepts et les relations sous-jacentes qu'ils représentent. Ça pourrait mener à des applications dans divers domaines, y compris l'art, le design, et la technologie de reconnaissance visuelle, enrichissant finalement notre interaction avec les médias visuels.

Source originale

Titre: Learning Dense Correspondences between Photos and Sketches

Résumé: Humans effortlessly grasp the connection between sketches and real-world objects, even when these sketches are far from realistic. Moreover, human sketch understanding goes beyond categorization -- critically, it also entails understanding how individual elements within a sketch correspond to parts of the physical world it represents. What are the computational ingredients needed to support this ability? Towards answering this question, we make two contributions: first, we introduce a new sketch-photo correspondence benchmark, $\textit{PSC6k}$, containing 150K annotations of 6250 sketch-photo pairs across 125 object categories, augmenting the existing Sketchy dataset with fine-grained correspondence metadata. Second, we propose a self-supervised method for learning dense correspondences between sketch-photo pairs, building upon recent advances in correspondence learning for pairs of photos. Our model uses a spatial transformer network to estimate the warp flow between latent representations of a sketch and photo extracted by a contrastive learning-based ConvNet backbone. We found that this approach outperformed several strong baselines and produced predictions that were quantitatively consistent with other warp-based methods. However, our benchmark also revealed systematic differences between predictions of the suite of models we tested and those of humans. Taken together, our work suggests a promising path towards developing artificial systems that achieve more human-like understanding of visual images at different levels of abstraction. Project page: https://photo-sketch-correspondence.github.io

Auteurs: Xuanchen Lu, Xiaolong Wang, Judith E Fan

Dernière mise à jour: 2023-07-24 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.12967

Source PDF: https://arxiv.org/pdf/2307.12967

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires