TAPS3D : Une nouvelle façon de générer des modèles 3D
TAPS3D automatise la création d'objets 3D à partir de texte sans avoir besoin de données étiquetées.
― 5 min lire
Table des matières
Créer des Objets 3D, c'est super important dans plein de domaines comme les jeux vidéo, le cinéma, ou la réalité virtuelle. Mais souvent, les artistes qualifiés mettent beaucoup de temps à réaliser ces modèles 3D détaillés. Des méthodes récentes utilisent l'apprentissage profond pour automatiser la création d'objets 3D, mais les résultats manquent souvent de contrôle sur l'apparence des objets selon des descriptions spécifiques.
Le Problème
Beaucoup de systèmes existants pour générer des Formes 3D à partir de descriptions textuelles rencontrent des défis importants. Certains nécessitent des étiquettes précises ou prennent un temps fou pour créer des modèles. Il y a des efforts pour utiliser des modèles existants pour accélérer le processus, mais ça dépend encore d'une optimisation énorme pendant la création de chaque objet, ce qui les rend moins pratiques.
Notre Solution : TAPS3D
Pour résoudre ces problèmes, on vous présente une nouvelle approche appelée TAPS3D. Ce modèle génère des formes 3D à partir de prompts textuels sans avoir besoin de données d'entraînement étiquetées ou de longs temps d'optimisation après l'entrée. Au lieu d'utiliser des textes étiquetés existants, TAPS3D génère des "pseudo légendes" pour les données de forme 3D à partir d'images 2D rendues.
Comment Ça Marche
Le cadre TAPS3D a deux parties principales. La première crée des pseudo légendes pour les formes 3D. Ces légendes sont faites en prenant des mots pertinents d'un outil qui comprend les images et le texte (CLIP) et en construisant des phrases autour. La deuxième partie utilise ces légendes pour guider la génération des formes 3D.
Générer des Pseudo Légendes
Pour générer des légendes utiles, on commence par construire un vocabulaire de mots pertinents. On cherche des noms et des adjectifs qui peuvent décrire des objets, surtout ceux d'un dataset existant de formes 3D.
Une fois qu'on a le vocabulaire, on analyse les Images rendues et on les associe aux mots du vocabulaire pour former des phrases candidates. Les phrases les plus adaptées sont ensuite choisies comme pseudo légendes pour décrire les formes 3D.
Créer des Formes 3D
Ensuite, on prend ces légendes et on les envoie à un générateur 3D pré-entraîné. Ce générateur utilise du bruit comme entrée, mais on enrichit cette entrée en ajoutant des caractéristiques des légendes. Le modèle apprend à créer des formes qui correspondent aux significations des légendes.
En fixant les poids du générateur original, on se concentre sur l'entraînement pour aligner les formes générées avec les légendes, ce qui permet une meilleure génération d'objets 3D.
Améliorer la Qualité
Pour améliorer la qualité des formes générées, on utilise aussi une technique qui aide le modèle à générer des textures plus fines et des géométries plus variées. On compare les images générées avec de vraies images des objets pour s'assurer qu'elles ont l'air bien et on utilise des variations d'arrière-plan pour garder l'accent sur les objets.
Pourquoi C'est Important
Cette méthode réduit non seulement le besoin de fabriquer à la main des modèles 3D avec soin, mais elle accélère aussi le processus global. Les utilisateurs peuvent rapidement produire des formes 3D de haute qualité à partir de simples descriptions textuelles, ce qui peut mener à des applications plus larges dans plein de domaines.
Travaux Connexes
Il y a quelques domaines clés liés à TAPS3D qui méritent d'être mentionnés. Les méthodes précédentes pour générer des formes 3D à partir de texte reposent généralement sur un entraînement entièrement supervisé avec des données étiquetées ou des approches basées sur l'optimisation, qui peuvent être vraiment lentes.
Comparaison avec D'autres Méthodes
Méthodes Supervisées : Ces approches utilisent des données étiquetées mais nécessitent un travail considérable pour créer et maintenir ces données. Elles peuvent produire des résultats de haute qualité mais manquent de flexibilité à cause de la dépendance aux étiquettes.
Approches Optimisées : Des méthodes comme NeRF (Neural Radiance Fields) produisent des formes 3D à partir de texte mais prennent souvent trop de temps. TAPS3D vise à résoudre ce problème de vitesse tout en éliminant le besoin de données étiquetées.
Applications Pratiques
Avec TAPS3D, les utilisateurs peuvent générer rapidement divers objets 3D comme des voitures, des chaises, des tables, et des motos, simplement en utilisant des prompts textuels. Les applications potentielles s'étendent à de nombreuses industries, y compris le jeu, le design, l'éducation, et plus encore.
Conclusion
TAPS3D représente un progrès significatif dans la génération d'objets 3D à partir de descriptions textuelles. En utilisant des pseudo légendes et en optimisant le processus de génération, on réduit la dépendance aux données étiquetées et on permet une création plus rapide et flexible de modèles 3D.
En résumé, ce nouveau cadre permet aux utilisateurs de créer des formes 3D de haute qualité tout en économisant du temps et en réduisant la complexité du processus. Ça ouvre la porte à une utilisation plus large dans différents domaines, permettant aux utilisateurs moyens de générer des objets 3D sans avoir besoin de compétences avancées en modélisation 3D.
Titre: TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision
Résumé: In this paper, we investigate an open research task of generating controllable 3D textured shapes from the given textual descriptions. Previous works either require ground truth caption labeling or extensive optimization time. To resolve these issues, we present a novel framework, TAPS3D, to train a text-guided 3D shape generator with pseudo captions. Specifically, based on rendered 2D images, we retrieve relevant words from the CLIP vocabulary and construct pseudo captions using templates. Our constructed captions provide high-level semantic supervision for generated 3D shapes. Further, in order to produce fine-grained textures and increase geometry diversity, we propose to adopt low-level image regularization to enable fake-rendered images to align with the real ones. During the inference phase, our proposed model can generate 3D textured shapes from the given text without any additional optimization. We conduct extensive experiments to analyze each of our proposed components and show the efficacy of our framework in generating high-fidelity 3D textured and text-relevant shapes.
Auteurs: Jiacheng Wei, Hao Wang, Jiashi Feng, Guosheng Lin, Kim-Hui Yap
Dernière mise à jour: 2023-03-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.13273
Source PDF: https://arxiv.org/pdf/2303.13273
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.