Trasformare schizzi 2D in modelli 3D
Un nuovo approccio per trasformare schizzi architettonici 2D in modelli 3D modificabili.
― 7 leggere min
Indice
- Il problema con i metodi attuali
- Un nuovo approccio
- Valutazione del nuovo metodo
- Design architettonico e modelli 3D
- Sfide dei metodi attuali di Ricostruzione 3D
- Obiettivi del progetto
- Vantaggi del nuovo metodo
- Lavori correlati
- Come funziona la ricostruzione 3D
- Creazione di dati per l'addestramento
- Descrittori di scena
- Classificazione degli oggetti e miglioramento
- Addestramento e risultati
- Conclusione e direzioni future
- Fonte originale
Creare modelli 3D a partire da disegni 2D è un compito importante, specialmente in architettura. I metodi tradizionali hanno alcuni problemi. Spesso creano modelli difficili da modificare o che sembrano grezzi. Questo articolo presenta un nuovo modo per costruire modelli 3D partendo da un solo schizzo 2D, aiutando architetti e designer a lavorare in modo più efficiente.
Il problema con i metodi attuali
I metodi attuali per creare modelli 3D da schizzi 2D di solito producono output come voxel, nuvole di punti o mesh. Ognuno di questi ha i suoi svantaggi. Ad esempio, i modelli generati possono avere superfici ruvide e forme strane. Questo rende difficile per gli architetti apportare modifiche o affinare i loro progetti.
Gli architetti iniziano spesso con schizzi 2D per fare brainstorming. Una volta deciso il design, lo traducono in un modello 3D per avere un'idea più chiara. Questo processo può richiedere molto tempo. I metodi esistenti per convertire schizzi in modelli 3D non funzionano bene per i design architettonici, che di solito coinvolgono forme semplici.
Un nuovo approccio
Il nuovo metodo descritto qui cerca di risolvere questi problemi. Utilizza un tipo speciale di machine learning chiamato trasformatore visivo. Questo sistema prevede quello che chiamiamo un "descrittore di scena" a partire da un'unica immagine wireframe. Questo descrittore include dettagli come il tipo di oggetti, le loro dimensioni, posizione e rotazione.
Una volta ottenute queste informazioni, possiamo utilizzare Software di modellazione 3D popolari, come Blender o Rhino Grasshopper, per creare modelli 3D dettagliati e modificabili. Questa integrazione semplifica il processo di design, rendendo più facile per gli architetti creare e modificare i loro progetti basati sui loro schizzi 2D.
Valutazione del nuovo metodo
Per testare questo nuovo approccio, abbiamo creato due set di esempi: uno con scene semplici e l'altro con scene più complesse. I risultati hanno mostrato che il modello ha funzionato bene per scene semplici ma ha faticato con gli esempi più complessi.
Design architettonico e modelli 3D
Nell'architettura, fare schizzi è fondamentale. Questi schizzi sono il primo passo per creare un design. Una volta scelto un concetto, deve essere rappresentato in un modello 3D. Questo aiuta tutti coinvolti a comprendere meglio il progetto.
Tuttavia, trasformare schermi 2D in modelli 3D può richiedere molto tempo. Anche se alcune ricerche precedenti si sono concentrate su questa conversione, spesso non affrontano le sfide uniche del design architettonico. I modelli comuni non rappresentano accuratamente le strutture architettoniche, che di solito sono fatte di forme semplici.
Ricostruzione 3D
Sfide dei metodi attuali diMetodi come voxel e nuvole di punti spesso non forniscono il livello di dettaglio necessario in architettura. D'altra parte, i formati mesh possono portare a risultati problematici, come superfici irregolari e bordi poco chiari. Queste limitazioni ostacolano il processo di design e rendono difficile per gli architetti apportare le necessarie modifiche al loro lavoro.
Al contrario, il nostro nuovo approccio mira a collegare senza soluzione di continuità il processo di schizzo con il software di modellazione 3D. Questo potrebbe migliorare notevolmente il modo in cui lavorano i designer.
Obiettivi del progetto
L'obiettivo del nostro progetto è chiaro: sviluppare un modello di machine learning che possa creare un modello 3D di un edificio a partire da un singolo schizzo 2D. Il modello deve integrarsi facilmente nel software di modellazione 3D standard, consentendo modifiche rapide.
Il trasformatore visivo che abbiamo addestrato prende un'immagine e produce un elenco di "descrittori di scena". Questi descrittori dettagliano la forma, la posizione, la rotazione e le dimensioni di ogni oggetto nella scena. Abbiamo programmato Rhino Grasshopper per prendere questo output e costruire la scena.
Vantaggi del nuovo metodo
Il nostro progetto non punta solo a velocizzare la modellazione 3D in architettura. Anche i robot che si basano su sistemi di visione potrebbero beneficiarne, grazie a descrittori di scena semplificati. Ricostruendo una scena 3D grezza a partire da un'immagine semplice, i robot possono comprendere meglio l'ambiente circostante e interagire efficacemente con gli oggetti.
Lavori correlati
Ci sono ricerche in corso sull'uso del machine learning per la ricostruzione 3D. Esistono molti metodi, ma il nostro approccio combina diversi elementi di segmentazione semantica e classificazione degli oggetti. Un progetto simile, Sketch2CAD, richiede agli utenti di disegnare con precisione. Il nostro metodo consente maggiore libertà negli stili di disegno, poiché accettiamo schizzi disegnati a mano.
Come funziona la ricostruzione 3D
Attualmente, le pratiche comuni per la ricostruzione 3D spesso utilizzano modelli di machine learning end-to-end. Questi modelli possono generare forme 3D da un'immagine singola o da più immagini. Spesso, l'output è sotto forma di voxel, mesh poligonale o nuvola di punti.
Una sfida significativa con questi modelli è la loro capacità limitata di generalizzare. Di solito costruiscono modelli specifici per classe che possono creare solo forme all'interno di una categoria ristretta. Il nostro progetto mira a superare questo problema prevedendo una gamma più ampia di forme.
Creazione di dati per l'addestramento
Per addestrare il nostro modello, abbiamo creato un programma in Rhino Grasshopper per generare dati sintetici. Questo includeva lo sviluppo sia di una scena 3D che del corrispondente rendering dei bordi 2D. Abbiamo creato due set di dati: uno per scene semplici e un altro per scene complesse.
Le scene 3D includono più forme come cubi, cilindri e piramidi, scelte per rappresentare tipici edifici residenziali. Il set di dati semplice contiene solo cubi e cilindri senza rotazione, mentre il set di dati complesso include forme varie con rotazioni casuali.
Descrittori di scena
Per ogni scena, creiamo un elenco di parametri chiamato "descrittore di scena". Questo descrittore include dettagli sul numero di oggetti, le loro forme, posizioni, rotazioni e dimensioni.
Per raccogliere dati, rendiamo più immagini 2D da diversi angoli per ogni scena. Ci assicuriamo di avere una buona varietà nelle nostre immagini per aiutare il modello a imparare efficacemente. Per ogni scena, produciamo due tipi di immagini: una con informazioni dettagliate sui bordi e una con bordi di base.
Classificazione degli oggetti e miglioramento
Abbiamo sviluppato il nostro modello utilizzando il framework Pix2Seq, che tratta la rilevazione degli oggetti come un problema di generazione di testo. Il nostro modello utilizza un encoder per leggere un'immagine e un decoder per creare una sequenza di token che dettagliano gli oggetti.
Addestrando il modello con set di dati specifici, abbiamo notato quanto bene ha ricostruito scene 3D a partire da disegni semplici. Il modello impara a prevedere la disposizione delle forme migliorando la precisione lungo il percorso.
Addestramento e risultati
Per preparare il modello all'uso nel mondo reale, inizialmente lo abbiamo addestrato utilizzando un set di dati semplice. Dopo aver completato test di successo su scene facili, abbiamo provato il set di dati più complesso. Sfortunatamente, il modello non ha funzionato bene con le scene intricate.
Questo fallimento potrebbe derivare dall'aumento della complessità delle scene, che ha introdotto più rumore nel processo di apprendimento del modello. La generazione casuale dei set di dati potrebbe anche aver causato una mancanza di contesto, rendendo difficile per il modello comprendere le relazioni tra gli oggetti.
Conclusione e direzioni future
Il nostro progetto introduce un metodo promettente per convertire schizzi 2D in modelli architettonici 3D, migliorando sia la velocità che l'efficienza nel processo di design. Anche se abbiamo dimostrato con successo risultati con schizzi semplici, rimangono sfide nella ricostruzione di scene complesse.
Il modello attuale ha limitazioni, in particolare con oggetti che hanno forme complesse. La ricostruzione 3D a partire da un'immagine singola è un problema complicato, ma il nostro approccio fornisce un nuovo modo per affrontare queste sfide.
In futuro, speriamo di affinare ulteriormente i nostri metodi ed esplorare come il nostro modello può essere migliorato per gestire design più complessi. Integrando in modo fluido nel software di modellazione 3D consolidato, questo progresso potrebbe portare a applicazioni pratiche sia in architettura che nella robotica.
Titolo: Sketch2CADScript: 3D Scene Reconstruction from 2D Sketch using Visual Transformer and Rhino Grasshopper
Estratto: Existing 3D model reconstruction methods typically produce outputs in the form of voxels, point clouds, or meshes. However, each of these approaches has its limitations and may not be suitable for every scenario. For instance, the resulting model may exhibit a rough surface and distorted structure, making manual editing and post-processing challenging for humans. In this paper, we introduce a novel 3D reconstruction method designed to address these issues. We trained a visual transformer to predict a "scene descriptor" from a single wire-frame image. This descriptor encompasses crucial information, including object types and parameters such as position, rotation, and size. With the predicted parameters, a 3D scene can be reconstructed using 3D modeling software like Blender or Rhino Grasshopper which provides a programmable interface, resulting in finely and easily editable 3D models. To evaluate the proposed model, we created two datasets: one featuring simple scenes and another with complex scenes. The test results demonstrate the model's ability to accurately reconstruct simple scenes but reveal its challenges with more complex ones.
Autori: Hong-Bin Yang
Ultimo aggiornamento: 2023-09-28 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.16850
Fonte PDF: https://arxiv.org/pdf/2309.16850
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.