Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanços na Criação de Avatares 3D a partir de Imagens

Descubra como a tecnologia facilita a criação de avatares 3D realistas a partir de imagens.

― 6 min ler


Criação de Avatar 3DCriação de Avatar 3DFacilitadapartir de imagens.desenvolvimento de avatares realistas aNovos métodos facilitam o
Índice

Criar avatares humanos 3D a partir de imagens virou moda, especialmente pra usar no metaverso e na realidade aumentada (AR) ou realidade virtual (VR). Antigamente, fazer esses avatares era um trampo difícil que precisava de artistas habilidosos e ferramentas caras. Mas, com os avanços na tecnologia, principalmente em redes neurais, esse processo tá ficando mais fácil e automático.

Métodos Tradicionais

Tradicionalmente, criar avatares humanos exigia muito trabalho manual e ajustes cuidadosos. Os artistas tinham que criar modelos em ambientes controlados, ajustando cada detalhe. Recentemente, algumas ferramentas tentam facilitar isso usando técnicas de aprendizado profundo. Esses métodos podem treinar pra entender as formas humanas diretamente das imagens ou prever Mapas de Profundidade, que dão uma ideia de quão longe cada parte da imagem tá.

Novas Técnicas

As técnicas recentes combinam métodos diferentes pra criar modelos 3D melhores. Alguns métodos usam o que chamam de funções implícitas profundas. Essas funções podem determinar a forma de um humano calculando distâncias dentro de um espaço 3D. Outros dependem de métodos explícitos que preveem diretamente como as coisas parecem de um certo ângulo. Isso significa que eles podem prever formas, como mapas de profundidade, de forma mais clara do que a abordagem implícita.

Alguns métodos misturam abordagens explícitas e implícitas pra resultados melhores. Usam as duas formas pra melhorar a qualidade dos modelos criados. Isso levou pesquisadores a procurar maneiras de animar esses modelos, criando movimentos mais realistas.

Criando Avatares Realistas

Pra criar avatares que se movem naturalmente, é essencial acertar o posicionamento das articulações e os Pesos de Skinning, que são como a pele se encaixa e se move sobre o esqueleto. Muitos estudos usam modelos existentes como ponto de partida, encaixando esses templates nos novos modelos. Esse processo é conhecido como skinning inverso. Ele permite a criação de uma malha base que pode se mover de forma realista.

Métodos diretos pra prever pesos de skinning também apareceram. Usando mapas de profundidade, alguns sistemas podem estimar como cada ponto de uma malha deve se mover com base nas imagens tiradas.

Conceitos Chave

Uma das principais ideias no desenvolvimento desses avatares envolve o que se chama de Linear Blend Skinning (LBS). Essa técnica calcula como diferentes articulações afetam a posição dos vértices da malha. Quando um modelo se move, a pele se move junto, ajudando a criar um visual natural.

Nas técnicas mais avançadas, os pesquisadores preveem mapas de profundidade e LBS ao mesmo tempo. Isso significa ter uma melhor compreensão de como o modelo deve parecer de vários ângulos, enquanto também estima como ele vai se mover.

O Processo de Criação de Avatares

O processo de criação de avatares começa com a previsão de profundidade e pesos de skinning a partir das imagens. Um encoder compartilhado e uma rede de decodificadores dupla são frequentemente usados pra isso. Esse sistema analisa as imagens e fornece tanto mapas de profundidade quanto de pesos de skinning pros lados frontal e traseiro.

Depois de obter essas previsões, o próximo passo é criar uma malha inicial que pode ser usada pra formar o modelo final. Essa malha inicial geralmente é refinada ao integrar várias imagens por meio de um processo de renderização. Ao minimizar os erros na malha prevista, o resultado será um avatar mais preciso e realista.

Refinando o Modelo

Uma vez que a malha inicial é criada, ela passa por um processo de refinamento. Essa etapa garante que o modelo não só pareça bom, mas que também se mova bem quando posicionado em diferentes posições. É crucial minimizar discrepâncias entre cores, formas reais e como elas aparecem nas imagens.

Através de uma técnica chamada Neural Deferred Shading (NDS), a pose e a aparência do modelo podem ser atualizadas com base nos dados coletados. Esse processo atualiza o avatar ao tirar várias imagens de uma vez, permitindo que o sistema lide com várias poses e ângulos sem perder detalhes.

Vantagens da Abordagem

A abordagem discutida permite mais flexibilidade e precisão. Ao não restringir o número de imagens que podem ser usadas, oferece versatilidade pra criar modelos de diferentes perspectivas. Seja uma imagem ou várias, o sistema pode construir e refinar avatares de forma eficaz.

Além disso, o método pode se ajustar pra erros que podem surgir das poses ou dos pesos de skinning. Isso significa que, mesmo que as imagens de entrada iniciais não sejam perfeitas, o avatar final ainda pode parecer bom.

Desafios na Área

Apesar dos avanços na criação de avatares humanos, alguns desafios permanecem. Por exemplo, capturar movimentos de roupas soltas e cabelo com precisão ainda é um problema. Muitos métodos existentes se enrolam com esses elementos, já que costumam depender de templates pré-definidos que podem não se adaptar bem a variações de estilo e ajuste.

Além disso, garantir que todas as partes do avatar estejam visíveis e definidas corretamente pode levar a problemas. Por exemplo, regiões como axilas ou coxas podem não receber a atenção adequada, resultando em lacunas no modelo final.

O Futuro da Criação de Avatares

Olhando pra frente, os pesquisadores estão focando em melhorar como esses avatares são criados. Há um grande interesse em capturar aspectos mais realistas dos avatares, incluindo como roupas e cabelos se movem naturalmente. Conquistar isso requer combinar métodos atuais com técnicas generativas, permitindo designs de avatares mais variados e realistas.

O objetivo é fazer com que esses avatares não sejam apenas visualmente atraentes, mas também funcionais em espaços virtuais. Essa evolução vai apoiar uma gama mais ampla de aplicações, melhorando as interações no metaverso e aprimorando experiências em ambientes AR e VR.

Conclusão

Resumindo, criar avatares humanos 3D realistas e “dirigíveis” a partir de imagens apresenta possibilidades empolgantes. Com os avanços contínuos em tecnologia e técnicas, os processos que antes exigiam um esforço manual significativo estão agora caminhando em direção à automação e eficiência. À medida que esses métodos continuam a evoluir, podemos esperar ver uma maior variedade de avatares realistas que podem melhorar nossas experiências em ambientes virtuais.

Fonte original

Título: CanonicalFusion: Generating Drivable 3D Human Avatars from Multiple Images

Resumo: We present a novel framework for reconstructing animatable human avatars from multiple images, termed CanonicalFusion. Our central concept involves integrating individual reconstruction results into the canonical space. To be specific, we first predict Linear Blend Skinning (LBS) weight maps and depth maps using a shared-encoder-dual-decoder network, enabling direct canonicalization of the 3D mesh from the predicted depth maps. Here, instead of predicting high-dimensional skinning weights, we infer compressed skinning weights, i.e., 3-dimensional vector, with the aid of pre-trained MLP networks. We also introduce a forward skinning-based differentiable rendering scheme to merge the reconstructed results from multiple images. This scheme refines the initial mesh by reposing the canonical mesh via the forward skinning and by minimizing photometric and geometric errors between the rendered and the predicted results. Our optimization scheme considers the position and color of vertices as well as the joint angles for each image, thereby mitigating the negative effects of pose errors. We conduct extensive experiments to demonstrate the effectiveness of our method and compare our CanonicalFusion with state-of-the-art methods. Our source codes are available at https://github.com/jsshin98/CanonicalFusion.

Autores: Jisu Shin, Junmyeong Lee, Seongmin Lee, Min-Gyu Park, Ju-Mi Kang, Ju Hong Yoon, Hae-Gon Jeon

Última atualização: 2024-07-15 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.04345

Fonte PDF: https://arxiv.org/pdf/2407.04345

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes