Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Calcul et langage# Apprentissage automatique

SceneCraft : Transformer du texte en scènes 3D

SceneCraft crée des scènes 3D à partir de texte, rendant le design plus facile et plus efficace.

― 4 min lire


SceneCraft : Du code à laSceneCraft : Du code à lamagie 3Dépoustouflantes sans effort.Transforme le texte en scènes 3D
Table des matières

SceneCraft est un nouvel outil qui transforme des descriptions écrites en code Blender, ce qui est une manière de programmer des scènes 3D. Il peut gérer des arrangements complexes avec plein d'objets 3D différents. L'outil utilise une méthode intelligente qui combine différentes compétences pour faciliter la création de scènes.

Comment ça marche SceneCraft

  1. Planification de la scène : SceneCraft commence par planifier la scène. Il fait une carte qui montre comment les différents objets se rapportent les uns aux autres. Ça aide à bien organiser les objets 3D.

  2. Écriture de code : En se basant sur la carte, SceneCraft écrit des scripts Python qui décrivent où chaque objet doit aller dans la scène. Il traduit les relations en instructions claires que Blender peut comprendre.

  3. Test et amélioration : Ensuite, SceneCraft utilise un modèle spécial pour regarder les images qu'il crée à partir du code. Si les images ne correspondent pas bien aux descriptions, SceneCraft affine le code pour améliorer la scène. Ce processus de va-et-vient continue jusqu'à ce que le résultat soit satisfaisant.

  4. Apprentissage par l'expérience : SceneCraft a aussi un système d'apprentissage. Il garde une trace des morceaux de code utiles qu'il génère, ce qui l'aide à s'améliorer avec le temps sans avoir besoin d'aide extérieure.

Avantages de SceneCraft

  • SceneCraft fait mieux que les outils similaires pour créer des scènes complexes.
  • Il peut prendre des descriptions détaillées de films et recréer les scènes avec précision.
  • Il peut guider la génération de vidéos en utilisant les scènes 3D qu'il crée.

Applications

SceneCraft peut être utile dans plein de domaines, y compris :

  • Architecture : Concevoir des bâtiments et des espaces.
  • Jeux : Créer des environnements de jeu immersifs.
  • Réalité virtuelle : Construire des mondes virtuels engageants.
  • Production cinématographique : Aider à créer des scènes visuelles pour des films.

Comparaison de SceneCraft avec d'autres outils

Les modèles précédents avaient du mal à créer des scènes complètes avec plusieurs objets parce qu'ils étaient limités. SceneCraft imite la façon dont les artistes humains conçoivent des scènes en fragmentant la tâche en parties plus petites, ce qui permet un placement plus réfléchi de chaque objet. Ça le rend plus efficace et précis.

Le processus de SceneCraft

  1. Collecte d'actifs : SceneCraft rassemble les modèles 3D nécessaires en fonction du texte d'entrée.
  2. Décomposition de la scène : Il décompose la scène en parties plus petites pour gérer la complexité.
  3. Création de relations : Un graphe est créé pour montrer comment les actifs se rapportent les uns aux autres en termes d'espace.
  4. Optimisation de la mise en page : En utilisant divers scores, SceneCraft trouve le meilleur positionnement pour chaque actif.
  5. Boucle de rétroaction : L'outil affine sans cesse ses résultats en fonction de la façon dont ils correspondent à la vision originale jusqu'à ce que la scène ait l'air correcte.

Composants clés de SceneCraft

  • Récupération d'actifs : SceneCraft récupère des modèles 3D dans une grande base de données en se basant sur les descriptions d'entrée.
  • Graphes de scène : Il crée une carte visuelle qui montre comment les différents objets se rapportent les uns aux autres.
  • Mécanisme de rétroaction : Après chaque création de scène, son exactitude est révisée et améliorée.
  • Bibliothèque de compétences : Avec le temps, SceneCraft apprend des fonctions de codage courantes pour rationaliser les projets futurs.

Évaluation de SceneCraft

Les tests ont montré que SceneCraft performe mieux que ses concurrents en ayant une précision supérieure dans le rendu des scènes. Les utilisateurs ont beaucoup apprécié la qualité des scènes 3D, en appréciant leur alignement avec les descriptions.

En résumé, SceneCraft se démarque comme un outil avancé pour transformer du texte en environnements 3D riches et multi-facettes. Son approche innovante de la création de scènes et de l'auto-amélioration ouvre la voie à de futurs développements dans le design et la visualisation.

Source originale

Titre: SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code

Résumé: This paper introduces SceneCraft, a Large Language Model (LLM) Agent converting text descriptions into Blender-executable Python scripts which render complex scenes with up to a hundred 3D assets. This process requires complex spatial planning and arrangement. We tackle these challenges through a combination of advanced abstraction, strategic planning, and library learning. SceneCraft first models a scene graph as a blueprint, detailing the spatial relationships among assets in the scene. SceneCraft then writes Python scripts based on this graph, translating relationships into numerical constraints for asset layout. Next, SceneCraft leverages the perceptual strengths of vision-language foundation models like GPT-V to analyze rendered images and iteratively refine the scene. On top of this process, SceneCraft features a library learning mechanism that compiles common script functions into a reusable library, facilitating continuous self-improvement without expensive LLM parameter tuning. Our evaluation demonstrates that SceneCraft surpasses existing LLM-based agents in rendering complex scenes, as shown by its adherence to constraints and favorable human assessments. We also showcase the broader application potential of SceneCraft by reconstructing detailed 3D scenes from the Sintel movie and guiding a video generative model with generated scenes as intermediary control signal.

Auteurs: Ziniu Hu, Ahmet Iscen, Aashi Jain, Thomas Kipf, Yisong Yue, David A. Ross, Cordelia Schmid, Alireza Fathi

Dernière mise à jour: 2024-03-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.01248

Source PDF: https://arxiv.org/pdf/2403.01248

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires