Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanços na Geração de Modelos 3D a partir de Texto

Um novo sistema pra transformar descrições de texto em modelos 3D detalhados de maneira eficiente.

― 8 min ler


Avanço na criação deAvanço na criação demodelos 3D a partir detextopartir de simples inputs de texto.Revolucionando a criação de ativos 3D a
Índice

Criar modelos 3D de alta qualidade a partir de descrições de texto virou um objetivo importante tanto nos negócios quanto na pesquisa. Áreas como jogos, produção de filmes e realidade virtual tão precisando cada vez mais de ativos 3D. Mas, fazer esses ativos do zero pode ser bem lento e exige pessoas habilidosas. Por isso, os pesquisadores tão se empenhando pra desenvolver um modelo que consiga criar objetos 3D a partir de entradas de texto. Mas, treinar um modelo assim não é fácil. Um dos principais desafios é que não tem dados suficientes pra ensinar os modelos a relacionar descrições de texto com Formas 3D. Além disso, criar modelos 3D detalhados geralmente exige mais recursos do que fazer imagens 2D, o que adiciona à dificuldade.

Sistema de Geração em Duas Etapas

Pra enfrentar esses desafios, a gente propõe um sistema em duas etapas pra transformar texto em modelos 3D. Esse sistema tem como objetivo criar objetos 3D de qualidade em um tempo razoável. A primeira etapa gera rapidamente formas 3D básicas usando uma rede neural simples. Isso permite que os usuários testem diferentes prompts de texto e obtenham um feedback instantâneo. Uma vez que o usuário escolhe um modelo básico, a segunda etapa refina os detalhes pra produzir um ativo 3D de alta qualidade, geralmente em poucos minutos a mais.

Etapa Um: Geração Inicial de Modelos 3D

Na primeira etapa do nosso sistema, a gente usa um processo chamado modelagem por difusão, que ajuda a gerar formas 3D com base em dados 3D. Decidimos usar uma representação de tri-plano pra criar esses modelos. Um tri-plano consiste em três imagens planas alinhadas em direções diferentes, o que torna tudo mais compacto e fácil de trabalhar com redes neurais.

Pra agilizar a criação desses tri-planos, a gente utiliza um método que nos permite codificar os modelos 3D em um Espaço Latente simplificado. Ao simplificar a estrutura dos dados, conseguimos processá-la de forma mais eficiente e gerar resultados mais rápidos.

Etapa Dois: Refinamento do Modelo

Depois de gerar a forma 3D básica, a gente vai pra segunda etapa onde melhora a qualidade do modelo. Essa etapa usa técnicas de modelagem por difusão 2D pra refinar as texturas do objeto 3D. Aqui, a gente combina dois métodos, um focado no espaço latente dos modelos e o outro trabalhando diretamente nas imagens renderizadas.

O primeiro passo de refinamento utiliza métodos que atuam no espaço latente, o que pode melhorar os detalhes finos da textura. Embora essas técnicas sejam eficazes, às vezes produzem artefatos como ruído. Pra contrabalançar isso, a gente também aplica o segundo método que melhora a qualidade da superfície nas imagens renderizadas. Esse processo de refinamento em duas etapas leva só uns quatro minutos, e os resultados mostram texturas bem detalhadas que são realistas e atraentes.

Importância de Dados de Treinamento de Qualidade

Treinar um sistema pra produzir ativos 3D precisos e detalhados depende muito de ter os dados certos. No nosso caso, a gente reuniu uma grande coleção de objetos 3D e criou descrições de texto de alta qualidade pra eles. A gente garante que os dados estejam limpos e bem estruturados pra ajudar o modelo a aprender de forma eficaz. Coletamos legendas pra mais de 360.000 objetos 3D, que depois são filtradas pra manter um alto padrão.

O processo de criar legendas envolveu renderizar imagens de cada objeto de diferentes ângulos, seguido do uso de modelos de linguagem avançados pra gerar descrições detalhadas. Através desse método, a gente garante que nossas legendas sejam ricas em detalhes, melhorando a capacidade do modelo de relacionar texto a formas 3D.

Comparação com Sistemas Existentes

Nos últimos anos, várias tentativas foram feitas pra gerar modelos 3D a partir de texto. Esses métodos podem ser agrupados em dois tipos principais. A primeira abordagem usa uma rede neural simples pra gerar objetos 3D diretamente a partir de pares de texto-imagem. Esse método é rápido, mas muitas vezes produz resultados de qualidade inferior por causa dos dados de treinamento limitados.

O segundo tipo depende de métodos mais complexos que otimizam uma representação 3D com base em poderosos modelos de texto para imagem. Embora esses métodos produzam resultados de qualidade superior, eles são mais lentos e exigem mais recursos computacionais.

O nosso método combina as forças de ambas as abordagens. Permitindo uma geração rápida na primeira etapa e depois refinando os detalhes na segunda etapa, a gente alcança um equilíbrio entre velocidade e qualidade.

Entendendo a Representação de Tri-Plano

Uma das inovações principais no nosso sistema é o uso de uma representação de tri-plano pros modelos 3D. Esse método tem vantagens como ser eficiente em espaço e fácil de manusear em redes neurais. Cada tri-plano consiste em três mapas de características 2D que contêm informações essenciais pra reconstruir a forma 3D.

Quando treinamos a primeira etapa do nosso modelo, precisamos capturar características importantes dos dados 3D. Nossa escolha pela representação de tri-plano nos permite fazer isso de maneira eficiente enquanto produzimos resultados de alta qualidade.

Limpeza e Processamento de Dados

Antes de usar o conjunto de dados pra treinamento, a gente coloca um esforço significativo na limpeza e preparação dos dados. Isso envolve remover modelos 3D de baixa qualidade ou irrelevantes e garantir que os objetos restantes sejam adequados pros nossos objetivos de treinamento. O processo de limpeza focou em três áreas principais: o conteúdo dos modelos, sua precisão geométrica e qualidade das texturas.

Anotadores humanos ajudaram nesse processo, levando a um subconjunto de alta qualidade que usamos pra treinamento. Essa etapa de seleção cuidadosa melhora significativamente o desempenho do nosso sistema.

Visão Geral do Pipeline

Nosso sistema de geração de texto pra 3D segue um pipeline estruturado. Inicialmente, a gente coleta e processa um conjunto de dados de modelos 3D junto com suas legendas correspondentes. Depois, treinamos um autoencoder variacional de tri-plano (VAE) pra preparar os objetos 3D pro modelo de difusão.

A primeira etapa envolve o uso do modelo de difusão latente pra criar modelos 3D grosseiros com base nas entradas de texto. A segunda etapa refina esses modelos ainda mais usando técnicas avançadas. Essa abordagem organizada nos permite alcançar resultados melhores enquanto trabalhamos no nosso processo de geração.

Aplicações no Mundo Real

A capacidade de transformar texto em ativos 3D tem várias aplicações práticas. Na indústria de jogos, os desenvolvedores podem criar rapidamente personagens, ambientes e objetos com base em descrições simples. Da mesma forma, nos efeitos visuais pra filmes e televisão, os artistas podem projetar e visualizar ativos sem precisar criar manualmente cada item.

Aplicações de realidade virtual também vão se beneficiar muito de modelos que podem se adaptar rapidamente às entradas dos usuários, permitindo uma experiência mais imersiva. A necessidade de modelos 3D rápidos e de alta qualidade é uma força motriz por trás desses avanços.

Estudos de Usuários sobre Desempenho

Pra avaliar as capacidades do nosso sistema, a gente conduziu vários estudos com usuários. Esses estudos compararam a qualidade dos nossos modelos gerados com métodos existentes. Os participantes avaliaram fatores como quão bem os modelos combinavam com os prompts de texto originais e a qualidade visual geral.

O feedback indicou que nosso sistema superou métodos mais antigos tanto em termos de alinhamento com as entradas de texto quanto na riqueza de detalhes nos modelos 3D gerados.

Limitações e Trabalhos Futuros

Embora o sistema tenha mostrado resultados promissores, há certas limitações a serem reconhecidas. Os prompts de texto fornecidos pra gerar os ativos 3D tendem a ser simples e podem não capturar conceitos complexos. A quantidade de dados de treinamento também é menor em comparação com o que está disponível pra modelos de texto pra imagem.

Além disso, há espaço pra melhoria na geração de representações 3D precisas a partir de prompts de texto mais complicados. Trabalhos futuros vão envolver abordar essas limitações aumentando o tamanho do conjunto de dados e refinando a habilidade do modelo de interpretar descrições complexas.

Conclusão

Resumindo, o sistema de geração em duas etapas de texto pra 3D oferece uma abordagem promissora pra criar ativos 3D detalhados a partir de texto simples. Ao combinar uma geração inicial rápida com um refinamento cuidadoso, a gente alcança resultados de alta qualidade que atendem às necessidades de várias aplicações. O foco em dados de treinamento de qualidade e um pipeline bem estruturado ainda melhora o desempenho do modelo. Desenvolvimentos futuros vão buscar superar as limitações existentes e expandir as capacidades desse sistema inovador.

Fonte original

Título: 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors

Resumo: We present a two-stage text-to-3D generation system, namely 3DTopia, which generates high-quality general 3D assets within 5 minutes using hybrid diffusion priors. The first stage samples from a 3D diffusion prior directly learned from 3D data. Specifically, it is powered by a text-conditioned tri-plane latent diffusion model, which quickly generates coarse 3D samples for fast prototyping. The second stage utilizes 2D diffusion priors to further refine the texture of coarse 3D models from the first stage. The refinement consists of both latent and pixel space optimization for high-quality texture generation. To facilitate the training of the proposed system, we clean and caption the largest open-source 3D dataset, Objaverse, by combining the power of vision language models and large language models. Experiment results are reported qualitatively and quantitatively to show the performance of the proposed system. Our codes and models are available at https://github.com/3DTopia/3DTopia

Autores: Fangzhou Hong, Jiaxiang Tang, Ziang Cao, Min Shi, Tong Wu, Zhaoxi Chen, Shuai Yang, Tengfei Wang, Liang Pan, Dahua Lin, Ziwei Liu

Última atualização: 2024-05-06 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2403.02234

Fonte PDF: https://arxiv.org/pdf/2403.02234

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes