Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Criando Humanos Digitais Realistas Através de Movimentos Sincronizados

Um método para gerar personagens digitais expressivos usando dados de áudio e vídeo.

― 8 min ler


Movimentos SincronizadosMovimentos Sincronizadosem Humanos Digitaissíntese de áudio e vídeo.Gerando avatares expressivos usando
Índice

No mundo de hoje, costumamos nos comunicar através de plataformas digitais. Isso se tornou comum em muitas áreas, como aulas online, entrevistas virtuais, sessões de terapia, robôs sociais, design de personagens e criação de mundos virtuais. Para tornar essas experiências mais envolventes, é importante criar humanos digitais realistas que possam expressar emoções através de suas faces e movimentos corporais. No entanto, essa tarefa é bastante desafiadora, pois as expressões humanas podem ser complexas e variadas.

As pessoas mostram emoções usando múltiplas formas de comunicação ao mesmo tempo. Isso inclui sua fala, expressões faciais e gestos corporais. Quando essas diferentes formas trabalham juntas, ajudam a transmitir uma forte sensação de presença. Nesta discussão, focaremos na geração de movimentos 3D de humanos digitais, garantindo que suas expressões faciais e gestos corporais estejam em sincronia com o áudio de sua fala.

Normalmente, métodos existentes se concentram em diferentes partes desse problema, como fazer personagens gerados por computador falarem sincronizando seus movimentos labiais com palavras faladas ou criando gestos que acompanham a fala. Algumas técnicas mais novas podem gerenciar tanto os movimentos do corpo quanto da cabeça ao mesmo tempo, mas geralmente se concentram apenas em um número limitado de falantes e suas emoções específicas. Outros métodos podem usar uma gama mais ampla de movimentos, mas não combinam efetivamente essas diferentes formas de comunicação.

Para enfrentar o problema de criar movimentos faciais e corporais sincronizados, nosso objetivo é desenvolver uma técnica que possa gerar personagens digitais 3D expressivos usando dados de vídeo regulares. Nossa abordagem depende de equipamentos de vídeo acessíveis que possam capturar as informações necessárias para animações. Ao usar gravações de vídeo comuns, podemos tornar a geração de humanos digitais expressivos acessível a um público mais amplo.

Principais Contribuições

Nosso trabalho foca no desenvolvimento de um método para gerar expressões faciais e movimentos corporais sincronizados com base na fala. Alguns dos principais destaques de nossa abordagem incluem:

  1. Criação de Expressões Sincronizadas: Nosso método gera tanto expressões faciais quanto gestos de parte superior do corpo que correspondem ao áudio da fala. Isso é alcançado por meio de um processo de aprendizado que captura as relações entre os diferentes elementos.

  2. Precisão Aprimorada: Mostramos que nosso método reduz erros tanto em movimentos faciais quanto corporais em comparação com técnicas existentes. Isso demonstra as vantagens de sincronizar as duas saídas em vez de tratá-las separadamente.

  3. Uso de Tecnologia Comum: Ao contrário de outros métodos que requerem equipamentos caros, nossa abordagem utiliza dados obtidos de câmeras de vídeo regulares. Isso torna possível criar personagens digitais expressivos sem a necessidade de hardware especializado.

  4. Avaliação da Qualidade dos Movimentos: Por meio de várias avaliações e estudos, confirmamos que os movimentos produzidos por nosso método são percebidos positivamente pelos observadores. Também propusemos uma nova maneira de medir a qualidade dos movimentos faciais.

  5. Desenvolvimento de Conjunto de Dados: Expandimos um conjunto de dados existente para incluir marcos faciais juntamente com gestos corporais. Este novo conjunto de dados pode ser valioso para estudos futuros e avanços nessa área.

Compreendendo o Problema

Para se comunicar efetivamente em um espaço digital, avatares humanos precisam representar emoções de forma realista. Isso envolve criar movimentos faciais e corporais que não apenas pareçam naturais, mas também correspondam ao ritmo e ao tom da fala. No entanto, gerar esses movimentos sincronizados é um problema complexo. Devemos considerar tanto a diversidade das emoções humanas quanto a necessidade de expressões distintas para diferentes indivíduos.

Em muitos casos, métodos anteriores abordaram aspectos desse problema separadamente. Alguns focam exclusivamente nos movimentos labiais, enquanto outros tratam de gestos. Essa separação pode levar a saídas que não combinam efetivamente os dois elementos, resultando em personagens digitais menos convincentes.

O que torna essa tarefa tão difícil é a ampla gama de expressões que um humano pode exibir enquanto fala. Além disso, capturar a relação sutil entre fala e sinais não verbais é essencial para criar personagens que pareçam reais e envolventes.

A Abordagem

Nosso método usa gravações de áudio da fala juntamente com imagens de vídeo para sintetizar expressões faciais e movimentos corporais sincronizados. Aqui está uma visão geral de como funciona:

Coleta e Processamento de Dados

  1. Entrada de Vídeo: Começamos com dados de vídeo RGB regulares. Essas filmagens incluem o rosto e o corpo do falante, e focamos na extração de pontos específicos de interesse conhecidos como marcos.

  2. Identificação de Marcos: Usando técnicas especializadas, identificamos marcos 3D esparsos no rosto e na parte superior do corpo. Isso nos ajuda a estabelecer uma base para os movimentos que queremos criar.

  3. Normalização de Dados: Para melhorar a consistência, normalizamos a visão da filmagem de vídeo. Isso significa que ajustamos a posição dos marcos para garantir que permaneçam estáveis e reconhecíveis ao longo da gravação.

Aprendizado e Síntese

Uma vez que temos nossos dados preparados, prosseguimos com o processo de aprendizado:

  1. Aprendizado Multimodal: Nossa abordagem combina diferentes formas de dados, incluindo áudio, transcrições de texto da fala, identidade do falante e os marcos identificados. Isso ajuda o sistema a aprender como esses diferentes elementos se relacionam entre si.

  2. Geração de Movimento: Em seguida, criamos as sequências necessárias para tanto expressões faciais quanto gestos corporais. Isso envolve garantir que os movimentos estejam em sincronia com o que está sendo dito.

  3. Controle de Qualidade: Para garantir a qualidade dos movimentos gerados, usamos um discriminador. Este componente avalia os movimentos sintetizados e fornece feedback para melhorar seu realismo e coerência.

Avaliação

Após o processo de síntese, realizamos uma avaliação minuciosa para verificar o quão bem nosso método funciona. Isso envolve avaliações tanto quantitativas quanto qualitativas:

  1. Métricas Quantitativas: Medimos a qualidade dos movimentos gerados usando métricas específicas que avaliam a precisão dos marcos faciais e poses corporais.

  2. Estudos com Usuários: Conduzimos estudos com participantes humanos para medir sua percepção dos movimentos sintetizados. Isso nos dá uma ideia de quão realistas e envolventes nossos personagens digitais parecem para os espectadores.

Trabalhos Relacionados

Houve uma rica quantidade de pesquisas sobre como os humanos expressam emoções através de vários meios. Estudos anteriores mostraram que as emoções são expressas simultaneamente através de expressões faciais, tons vocais e gestos. Compreender essas expressões multimodais é essencial para criar avatares digitais convincentes.

Técnicas de Síntese de Movimento

Numerosas técnicas foram propostas para sintetizar expressões faciais e movimentos corporais. Algumas se concentram em aspectos específicos, como sincronização labial ou uso de dados faciais densos. Outras tentam gerar gestos com base em diferentes modalidades de entrada.

No entanto, a maioria das abordagens existentes tem dificuldade em combinar efetivamente expressões faciais e movimentos corporais, garantindo que estejam alinhados com o áudio da fala. Nosso método busca preencher essa lacuna ao utilizar uma integração abrangente de dados visuais e auditivos.

Experimentos e Resultados

Conduzimos vários experimentos para avaliar a eficácia do nosso método. Os resultados foram promissores e indicaram melhorias em relação às técnicas existentes.

Avaliações Quantitativas

  1. Medições de Precisão: Comparámos nosso método com outras abordagens de síntese existentes e observamos reduções significativas nos erros relacionados a marcos faciais e movimentos corporais.

  2. Qualidade do Movimento Sincronizado: Nossas avaliações confirmaram que a sincronização das expressões faciais e corporais levou a movimentos mais naturais e críveis.

Resultados de Estudos com Usuários

Os participantes em nossos estudos com usuários avaliaram os movimentos sintetizados de forma positiva em relação à plausibilidade e sincronização. Isso indica que nossos personagens digitais foram percebidos como realistas e emocionalmente expressivos.

Conclusão

Nosso trabalho apresenta um avanço significativo na síntese de expressões faciais e corporais sincronizadas para personagens digitais. Ao depender de dados de vídeo regulares e empregar uma abordagem de aprendizado multimodal, criamos um método que pode gerar humanos digitais expressivos e envolventes.

Apesar dos sucessos notados, ainda existem limitações em nosso trabalho. A dependência de marcos esparsos pode não capturar o mesmo nível de detalhe que scans faciais de alta qualidade. Melhorias futuras envolverão a extração de representações mais detalhadas para aprimorar a qualidade das expressões sintetizadas.

Além disso, planejamos explorar a incorporação de movimentos da parte inferior do corpo para criar personagens 3D totalmente interativos que possam se envolver em vários cenários. O desempenho em tempo real em dispositivos cotidianos também é uma área que desejamos explorar mais a fundo.

Ao desenvolver essas técnicas, esperamos tornar a criação de humanos digitais expressivos mais acessível e eficaz para várias aplicações no mundo digital.

Fonte original

Título: Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs

Resumo: We present a multimodal learning-based method to simultaneously synthesize co-speech facial expressions and upper-body gestures for digital characters using RGB video data captured using commodity cameras. Our approach learns from sparse face landmarks and upper-body joints, estimated directly from video data, to generate plausible emotive character motions. Given a speech audio waveform and a token sequence of the speaker's face landmark motion and body-joint motion computed from a video, our method synthesizes the motion sequences for the speaker's face landmarks and body joints to match the content and the affect of the speech. We design a generator consisting of a set of encoders to transform all the inputs into a multimodal embedding space capturing their correlations, followed by a pair of decoders to synthesize the desired face and pose motions. To enhance the plausibility of synthesis, we use an adversarial discriminator that learns to differentiate between the face and pose motions computed from the original videos and our synthesized motions based on their affective expressions. To evaluate our approach, we extend the TED Gesture Dataset to include view-normalized, co-speech face landmarks in addition to body gestures. We demonstrate the performance of our method through thorough quantitative and qualitative experiments on multiple evaluation metrics and via a user study. We observe that our method results in low reconstruction error and produces synthesized samples with diverse facial expressions and body gestures for digital characters.

Autores: Uttaran Bhattacharya, Aniket Bera, Dinesh Manocha

Última atualização: 2024-11-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.18068

Fonte PDF: https://arxiv.org/pdf/2406.18068

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes