Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Método Inovador para Gerar Expressões Faciais Dinâmicas

Um novo modelo gera expressões faciais e animações 3D realistas.

― 6 min ler


Geração de ExpressõesGeração de ExpressõesFaciais Dinâmicasrealistas.Um modelo para animações faciais 3D
Índice

Criar Expressões Faciais realistas para personagens é uma tarefa complexa com muitas aplicações. Este artigo apresenta um novo método para gerar expressões faciais 3D ao longo do tempo, que chamamos de expressões faciais 4D. O método pode ser aplicado a qualquer malha facial 3D, tornando-o flexível e útil.

Estrutura Generativa

O processo inclui duas etapas principais. Primeiro, treinamos um modelo que aprende a partir de sequências de pontos de referência faciais, que são pontos no rosto que ajudam a entender a forma e o movimento. Em segundo lugar, o modelo gera sequências de malhas com base nesses pontos, permitindo que animemos o rosto de forma detalhada.

Usamos um tipo específico de modelo chamado Denoising Diffusion Probabilistic Model (DDPM). Esse modelo mostrou um desempenho forte na geração de imagens e sons em outros campos. Embora possa funcionar sem condições, também podemos guiar a geração usando várias entradas, como rótulos para expressões específicas, descrições em texto ou sequências parciais de movimentos.

O Desafio da Geração de Expressões Faciais

Gerar expressões faciais é complicado por causa da sutileza envolvida. Nossas reações a movimentos faciais são muito sensíveis, e criá-las requer uma compreensão profunda de como os rostos funcionam. Tradicionalmente, isso dependia de artistas qualificados, mas avanços recentes em tecnologia nos permitiram usar algoritmos para reconstruir movimentos faciais.

Notamos que, enquanto algumas técnicas capturam bem os movimentos corporais, a geração de expressões faciais não é tão avançada. Muitos métodos existentes focam na análise de vídeos 2D e não consideram a criação de novas expressões que podem não ter sido capturadas antes. Modelos generativos como as Redes Geradoras Adversariais (GANs) avançaram aqui, mas geralmente se concentram mais em movimentos corporais do que em expressões faciais.

Nossa Abordagem

Neste trabalho, enfrentamos o desafio de gerar expressões faciais dinâmicas, uma área que não recebeu muita atenção. A maioria dos conjuntos de dados nesse campo consiste em malhas 3D detalhadas com milhares de pontos, tornando o treinamento complexo e intensivo em recursos. Para facilitar, simplificamos nossa abordagem focando em um conjunto menor de pontos de referência importantes que representam características faciais chave, como os olhos, nariz e boca.

Nosso objetivo é criar um modelo que possa produzir expressões faciais diversas e realistas que se alinhem bem com a forma como os rostos realmente se movem. Tentativas anteriores de modelar como as expressões faciais mudam ao longo do tempo dependeram de certos modelos estatísticos. Em contraste, estamos usando um DDPM, que teve sucesso em outros domínios, como geração de imagens e áudios.

Modelo Denoising Diffusion Probabilistic (DDPM)

Um DDPM funciona adicionando ruído gradualmente aos dados de entrada originais até que se tornem irreconhecíveis, e então aprende a reverter esse processo. Isso significa que ele pode começar com ruído aleatório e gradualmente transformá-lo de volta em dados claros, como uma sequência de expressões faciais. Essa reversão é feita usando um modelo aprendido que captura como o ruído influencia os dados.

A vantagem de usar esse modelo é que, uma vez treinado, podemos realizar uma variedade de tarefas sem precisar re-treiná-lo para cada condição específica. Por exemplo, podemos mudar as expressões com base em rótulos de entrada, preencher partes faltantes de uma sequência ou adaptar as expressões geradas para se ajustarem a diferentes estruturas faciais.

Aplicações do Nosso Modelo

Nosso modelo pode lidar com várias tarefas:

  1. Controle de Expressão: Podemos gerar expressões faciais com base em rótulos específicos. Por exemplo, se a entrada diz "feliz", o modelo produzirá uma sequência mostrando uma expressão feliz.

  2. Controle por Texto: Também podemos guiar o modelo com descrições em texto. Se dissermos, "de um rosto neutro para um sorriso", o modelo gerará essa transição.

  3. Preenchimento de Expressões: Quando dado uma sequência parcial de movimentos faciais, o modelo pode preencher o que está faltando. Isso é similar a como o inpainting funciona no processamento de imagens.

  4. Geração Adaptativa à Geometria: O modelo pode criar expressões que se ajustem à forma única do rosto de uma pessoa enquanto ainda seguem o rótulo desejado.

Deformação de Malha Guiada por Pontos de Referência

Uma vez que geramos a sequência de pontos de referência, é essencial converter isso em uma sequência de malha animada, que representa o rosto 3D completo. Usamos um processo chamado arquitetura encoder-decoder para isso. O encoder recebe a sequência de pontos de referência e a malha do rosto neutro, enquanto o decoder produz a malha animada final.

Esse processo garante que a animação gerada preserve as características únicas da estrutura do rosto enquanto se adapta às mudanças sugeridas pelos dados de referência.

Resultados Experimentais

Para validar nossa abordagem, usamos conjuntos de dados existentes preenchidos com várias expressões faciais 3D. Treinamos nosso modelo para produzir expressões de alta qualidade que são flexíveis e consistentes com os dados originais. Ao comparar nossos resultados com métodos tradicionais, descobrimos que nosso modelo não só produziu expressões realistas, mas também o fez de uma maneira que poderia ser adaptada para diferentes aplicações.

Vantagens do Nosso Método

  • Eficiência: Usando um DDPM, nosso método pode ser treinado de uma maneira que não requer enormes quantidades de tipos específicos de dados, tornando-o menos intensivo em recursos.

  • Flexibilidade: A capacidade de se adaptar a várias tarefas sem extensivo re-treinamento significa que pode ser aplicado em diferentes contextos sem grandes complicações.

  • Qualidade: As expressões faciais geradas são realistas e capturam mudanças sutis, tornando-as adequadas para animação e criação de personagens.

Conclusão

Desenvolvemos um método poderoso para gerar expressões faciais dinâmicas 3D através de um DDPM. Essa nova abordagem oferece flexibilidade no controle de expressões usando várias formas de entrada, levando a animações faciais de alta qualidade e diversas. Nosso trabalho estabelece uma base para futuros avanços em animação de personagens e sistemas de reconhecimento.

Com esse modelo eficaz e adaptável, podemos vislumbrar uma gama maior de aplicações, incluindo filmes, jogos e realidade virtual, onde expressões realistas de personagens melhoram significativamente a experiência do usuário. À medida que a tecnologia continua a evoluir, o potencial para mais melhorias e desenvolvimentos nessa área parece promissor.

Ao fornecer um sistema que combina técnicas de ponta com métodos estabelecidos, abrimos novas avenidas para pesquisadores e desenvolvedores interessados em animação facial. A capacidade do nosso modelo de lidar com tarefas complexas com facilidade e eficiência o torna uma ferramenta valiosa no mundo da tecnologia de animação.

Fonte original

Título: 4D Facial Expression Diffusion Model

Resumo: Facial expression generation is one of the most challenging and long-sought aspects of character animation, with many interesting applications. The challenging task, traditionally having relied heavily on digital craftspersons, remains yet to be explored. In this paper, we introduce a generative framework for generating 3D facial expression sequences (i.e. 4D faces) that can be conditioned on different inputs to animate an arbitrary 3D face mesh. It is composed of two tasks: (1) Learning the generative model that is trained over a set of 3D landmark sequences, and (2) Generating 3D mesh sequences of an input facial mesh driven by the generated landmark sequences. The generative model is based on a Denoising Diffusion Probabilistic Model (DDPM), which has achieved remarkable success in generative tasks of other domains. While it can be trained unconditionally, its reverse process can still be conditioned by various condition signals. This allows us to efficiently develop several downstream tasks involving various conditional generation, by using expression labels, text, partial sequences, or simply a facial geometry. To obtain the full mesh deformation, we then develop a landmark-guided encoder-decoder to apply the geometrical deformation embedded in landmarks on a given facial mesh. Experiments show that our model has learned to generate realistic, quality expressions solely from the dataset of relatively small size, improving over the state-of-the-art methods. Videos and qualitative comparisons with other methods can be found at \url{https://github.com/ZOUKaifeng/4DFM}.

Autores: Kaifeng Zou, Sylvain Faisan, Boyang Yu, Sébastien Valette, Hyewon Seo

Última atualização: 2024-04-15 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.16611

Fonte PDF: https://arxiv.org/pdf/2303.16611

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes