De l'esquisse au 3D : Une nouvelle approche
Cette étude présente une méthode pour créer des formes 3D à partir de croquis sans données appariées.
― 12 min lire
Table des matières
Ce papier parle d'une méthode qui transforme des Croquis en Modèles 3D sans avoir besoin de paires de croquis et de formes préexistantes pour l'Entraînement. Le nouveau modèle peut gérer différents styles de dessins, allant de simples gribouillis à des designs professionnels détaillés. Ce qui est notable, c'est qu'il fonctionne avec différents types de Formes 3D comme des grilles voxel, des designs CAO et des représentations implicites.
Les avancées récentes dans l'utilisation de gros modèles entraînés sur d'énormes ensembles de données ont montré de la promesse dans la génération de formes 3D à partir de texte ou d'images. Cependant, passer des croquis aux formes 3D reste un défi parce qu'il n'y a pas assez de jeux de données qui combinent croquis et leurs homologues 3D, et les croquis peuvent varier énormément en détail et en style.
En conditionnant un modèle génératif 3D sur des Fonctionnalités obtenues à partir d'un modèle de vision bien entraîné, cette méthode peut produire des formes cohérentes à partir de différents types d'entrées de croquis au moment de l'inférence. Les résultats suggèrent que ces fonctionnalités sont suffisamment robustes pour accommoder les différences entre les rendus et les croquis.
L'importance des croquis
À travers l'histoire, les gens ont utilisé des dessins pour exprimer des idées et des concepts complexes. Même des artistes non qualifiés, y compris des enfants, peuvent utiliser des croquis simples pour transmettre des informations sur des objets 3D. Les designers formés peuvent utiliser des croquis pour communiquer rapidement des éléments géométriques et artistiques détaillés d'un design.
La capacité de créer des modèles 3D qui capturent l'essence de simples gribouillis, tout en reflétant fidèlement des designs professionnels, pourrait faciliter la modélisation 3D pour tout le monde. Cela permettrait aussi aux designers d'explorer rapidement diverses idées et de créer des modèles virtuels qui reflètent les caractéristiques des objets du monde réel.
Défis dans la génération de formes
Les méthodes antérieures pour générer des formes 3D à partir de croquis faisaient face à des limitations. Le principal problème était le manque de données significatives de croquis et de formes 3D appariées pour l'entraînement. La plupart des modèles s'appuyaient sur des ensembles de données synthétiques ou quelques catégories d'objets spécifiques. Même quand de petits ensembles de données étaient disponibles, les méthodes existantes avaient du mal à s'adapter aux croquis avec différents niveaux de détail.
De plus, de nombreuses méthodes actuelles s'appuient sur des informations spécifiques telles que les vues et l'estimation de la profondeur, ce qui limitait leur capacité à s'adapter à différentes représentations 3D.
Pour résoudre ces problèmes, les chercheurs ont proposé d'utiliser les connaissances de grands modèles pré-entraînés image-texte. Ces modèles ont déjà montré du succès dans diverses tâches 3D, comme générer des formes à partir de texte ou optimiser des représentations 3D.
Notre approche
Ce papier présente une méthode simple mais efficace pour générer des formes 3D à partir de croquis en utilisant des modèles de vision pré-entraînés, ce qui permet de fonctionner sans avoir besoin de jeux de données appariés. L'idée centrale est de tirer parti de fonctionnalités de modèles à grande échelle entraînés qui peuvent maintenir des détails locaux même en passant entre rendus et croquis.
La méthode commence par entraîner un VQ-VAE pour obtenir des embeddings de forme. Ensuite, un transformateur masqué est entraîné pour comprendre la distribution de ces embeddings en fonction des caractéristiques des rendus synthétiques. Pendant l'étape d'inférence, le modèle utilise des caractéristiques locales dérivées du croquis pour créer la forme 3D.
Nos tests montrent qu'avec certains choix architecturaux, cette méthode peut générer plusieurs formes 3D à partir d'un seul croquis, qu'il soit simple ou complexe.
Contributions
Nous proposons la première approche pour générer des formes 3D à partir de croquis sans dépendre de jeux de données appariés. Nos expériences démontrent que notre méthode peut se généraliser à travers divers ensembles de données avec des croquis de complexités différentes.
De plus, nous avons mené des évaluations complètes pour explorer divers composants de notre méthode, mettant en avant les facteurs qui soutiennent la génération réussie de formes zéro-shot à partir de croquis.
Travaux connexes
Modèles génératifs en 3D
Des avancées significatives ont été notées dans les modèles génératifs pour créer des formes 3D sous divers formats, y compris des voxels, CAO et représentations de maillage. Les recherches passées se sont principalement concentrées sur le développement de modèles génératifs basés sur VQ-VAE, GAN ou modèles de diffusion. Notre approche relie les croquis aux formes 3D à travers plusieurs représentations, en utilisant VQ-VAE mais adaptable aux modèles GAN ou de diffusion.
Apprentissage zéro-shot en 3D
De grands modèles pré-entraînés ont été appliqués de manière créative à de nombreuses tâches 3D en aval. Les premières études ont utilisé des modèles comme CLIP pour la génération 3D directement à partir de texte. Plus récemment, des modèles tels que Stable Diffusion ont été appliqués à la génération de formes et même à l'ajout de textures. À notre connaissance, notre travail est le premier à examiner la génération de formes 3D zéro-shot directement à partir de croquis en utilisant des modèles pré-entraînés.
Génération de formes à partir de croquis
Plusieurs modèles supervisés ont été appliqués pour générer des formes 3D à partir de croquis. Certaines méthodes estiment la profondeur et les normales à partir de plusieurs points de vue, d'autres utilisent des CNN pour générer des formes basées sur des croquis initiaux. Bien que ces modèles aient eu du succès, ils nécessitent généralement des données appariées. Notre approche est différente en ce sens que nous ne dépendons pas du tout de jeux de données appariés.
Vue d'ensemble de notre méthode
Notre approche se concentre sur la génération de formes 3D à partir de croquis de complexités variées sans nécessiter de jeux de données appariés. Les données d'entraînement consistent en des formes 3D qui peuvent prendre diverses représentations et leurs rendus multi-vues.
Il y a deux principales étapes d'entraînement impliquées. D'abord, nous convertissons les formes en une séquence d'indices discrets (embeddings de forme) en utilisant un VQ-VAE. Dans la deuxième étape, nous utilisons un modèle génératif basé sur un transformateur pour comprendre ces indices conditionnés par des caractéristiques extraites des rendus 3D. Les caractéristiques extraites alimentent le transformateur via un mécanisme d'attention croisée.
Lors de la génération de formes, nous utilisons une méthode itérative pour développer des indices de forme à partir des caractéristiques de croquis. Une fois ces indices complets, ils peuvent être décodés en une forme 3D.
Entraînement de l'autoencodeur discret
Dans la première étape, nous utilisons un autoencodeur pour dériver une séquence compressée d'indices discrets représentant des formes. Le VQ-VAE permet de modéliser des formes 3D dans un espace compact, facilitant la génération de modèles de haute qualité.
Les formes 3D sont transformées en séquences d'indices à l'aide d'un encodeur, qui sont ensuite traitées dans la prochaine étape par un modèle basé sur un transformateur.
Transformateur masqué
La deuxième étape se concentre sur l'entraînement d'un modèle qui génère des indices de forme en fonction des croquis. Nous y parvenons en utilisant un transformateur qui modèle la séquence d'indices discrets conditionnés sur les caractéristiques des rendus 3D.
Au cours de l'entraînement, une partie des indices est masquée au hasard, et l'objectif est de prédire ces indices masqués en utilisant les informations fournies. Ce processus permet au modèle d'apprendre à générer des formes en fonction des caractéristiques locales.
Expérimentations
Ensemble de données et évaluation
Nous avons utilisé deux sous-ensembles principaux de l'ensemble de données ShapeNet pour notre expérimentation. Le premier sous-ensemble, ShapeNet13, se compose de 13 catégories, tandis que le second, ShapeNet55, comprend toutes les 55 catégories de l'ensemble de données. Nous avons également utilisé un autre ensemble de données pour entraîner notre modèle CAO.
Pour l'évaluation, nous avons testé notre modèle contre divers ensembles de données de croquis qui incluent à la fois des croquis professionnels et occasionnels, tels que l'ensemble de données ShapeNet-Sketch et d'autres, afin d'évaluer de manière exhaustive les performances de notre modèle.
Métriques d'évaluation
Pour évaluer notre modèle, nous avons utilisé deux principales métriques : la précision de classification et l'évaluation humaine. La précision de classification garantit que les formes générées s'alignent avec leurs croquis correspondants.
Les évaluations humaines donnent un aperçu de la manière dont nos modèles 3D générés conservent les détails importants des croquis d'origine. Des travailleurs de plateformes en ligne ont été invités à identifier quel modèle généré correspondait le mieux au croquis donné, ce qui nous aide à comprendre la qualité de nos résultats.
Résultats
Formes générées
Des échantillons des formes 3D générées montrent que notre méthode fonctionne bien à travers une gamme de types de croquis. Le modèle peut gérer des croquis allant de simples gribouillis à des designs professionnels plus compliqués, générant des formes 3D qui sont reconnaissables et conservent l'essence des croquis originaux.
Résultats de l'évaluation humaine
Dans les études d'évaluation humaine, des travailleurs en groupe ont été invités à identifier quel modèle 3D correspondait le mieux au croquis. Les résultats ont montré que notre méthode produisait un pourcentage élevé de modèles correctement identifiés à travers divers ensembles de données. Il était plus facile pour les évaluateurs de reconnaître les modèles liés à des croquis contenant suffisamment de détails, bien que certains ensembles de données, en particulier ceux remplis d'éléments d'arrière-plan, aient rendu cela difficile.
Comparaison avec d'autres modèles
Nous avons comparé notre méthode zéro-shot avec des modèles supervisés entraînés sur des jeux de données appariés. Notre modèle a surpassé les autres dans la génération de formes reconnaissables, démontrant que les fonctionnalités pré-entraînées sont efficaces pour créer des modèles 3D à partir de croquis.
Insights sur les modèles pré-entraînés
Nous avons mené des études approfondies sur plusieurs modèles pré-entraînés, analysant leur performance en ce qui concerne les caractéristiques locales et l'architecture globale. Les résultats indiquent que les caractéristiques locales des grilles de ces modèles donnent de bien meilleurs résultats que l'utilisation de représentations de caractéristiques globales. La taille et la diversité de l'ensemble de données d'entraînement impactent aussi l'efficacité du modèle.
Directions futures
Les travaux futurs se concentreront sur l'entraînement du modèle sur des ensembles de données plus vastes avec des formes 3D plus variées et sur l'amélioration du VQ-VAE pour mieux capturer les fonctionnalités locales. Nous pourrions aussi explorer comment combiner des croquis avec du texte pour la conditionnalité pourrait créer un modèle plus flexible capable de produire des résultats encore meilleurs.
Conclusion
La méthode décrite démontre une avancée significative dans la génération de formes 3D à partir de croquis. En tirant parti des modèles pré-entraînés, nous pouvons former des modèles 3D précis et polyvalents à partir de croquis sans avoir besoin de jeux de données appariés. Cela ouvre de nouvelles avenues pour le design et la modélisation, rendant cela plus accessible à un public plus large.
Impact sociétal
La capacité de convertir des croquis en modèles 3D pourrait avoir un grand impact sur des domaines comme l'architecture, la conception de produits, le jeu vidéo et le divertissement. Cela permet des processus de conception plus rapides et plus efficaces, mais cela soulève aussi des inquiétudes concernant le déplacement d'emplois à mesure que la technologie progresse dans ces domaines.
Considérations éthiques
Comme pour toute technologie émergente, il est crucial de considérer les implications éthiques et de travailler à réduire les impacts sociaux qui pourraient découler de l'adoption généralisée.
Titre: Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation
Résumé: Significant progress has recently been made in creative applications of large pre-trained models for downstream tasks in 3D vision, such as text-to-shape generation. This motivates our investigation of how these pre-trained models can be used effectively to generate 3D shapes from sketches, which has largely remained an open challenge due to the limited sketch-shape paired datasets and the varying level of abstraction in the sketches. We discover that conditioning a 3D generative model on the features (obtained from a frozen large pre-trained vision model) of synthetic renderings during training enables us to effectively generate 3D shapes from sketches at inference time. This suggests that the large pre-trained vision model features carry semantic signals that are resilient to domain shifts, i.e., allowing us to use only RGB renderings, but generalizing to sketches at inference time. We conduct a comprehensive set of experiments investigating different design factors and demonstrate the effectiveness of our straightforward approach for generation of multiple 3D shapes per each input sketch regardless of their level of abstraction without requiring any paired datasets during training.
Auteurs: Aditya Sanghi, Pradeep Kumar Jayaraman, Arianna Rampini, Joseph Lambourne, Hooman Shayani, Evan Atherton, Saeid Asgari Taghanaki
Dernière mise à jour: 2023-07-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.03869
Source PDF: https://arxiv.org/pdf/2307.03869
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.