Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Gráficos

Transformando a Dublagem com Tecnologia Visual

Um novo método de dublagem melhora a sincronização labial pra deixar a experiência do espectador melhor.

― 7 min ler


Tecnologia de Dublagem deTecnologia de Dublagem dePróxima Geraçãotranquila.pra uma experiência de visualizaçãoRevolucionando a sincronização labial
Índice

Dublagem é o processo de traduzir conteúdo de vídeo de uma língua pra outra. Tradicionalmente, isso significava trocar só as trilhas de áudio, mantendo o vídeo do jeito que tá. Isso pode fazer com que a experiência de assistir fique meio ruim, já que os lábios das pessoas não combinam com o novo áudio. Recentemente, uma nova abordagem chamada Dublagem Visual foi desenvolvida. A dublagem visual tem como objetivo recriar os movimentos labiais de um ator em um vídeo pra sincronizar com um áudio novo em outra língua. Quando feita da forma certa, a dublagem visual pode mudar como o público ao redor do mundo assiste a conteúdos que foram filmados originalmente em uma língua que não entendem.

O que faz a dublagem ser bem-sucedida?

Pra um método de dublagem funcionar bem, ele precisa atender a alguns requisitos:

  1. Realismo: Os lábios precisam parecer naturais, pra que quem assiste não se distraia. Isso significa que a qualidade do vídeo deve ser alta e os movimentos labiais devem combinar bastante com o áudio.
  2. Versatilidade: Deve funcionar com todos os atores, desde estrelas famosas até quem tem papéis menores, e só precisar de alguns segundos do diálogo deles pra isso.
  3. Velocidade: Adicionar um novo ator ao modelo não deve demorar muito. Um método que precise de dias de treinamento não vai ser prático.
  4. Preservação do Estilo: O estilo único do ator deve continuar visível no vídeo dublado. Os lábios e dentes deles devem aparecer como no vídeo original.

Nossa abordagem para dublagem

Nosso método, chamado Dublagem para Todos, permite a reconstrução do movimento labial ao trocar as línguas dos vídeos. Esse novo método resolve as falhas tanto dos modelos de dublagem visual genéricos quanto dos específicos.

  • Modelos genéricos podem funcionar com qualquer vídeo e áudio sem precisar de treinamento extra. No entanto, muitas vezes eles perdem as características únicas do ator e podem ter erros visuais.
  • Modelos específicos podem produzir dublagem visual quase perfeita, mas precisam de muitos dados da mesma pessoa, o que leva um tempo considerável pra coletar e treinar.

Dublagem para Todos combina os pontos fortes de ambas as abordagens. Ele usa um sistema que aprende a recriar os movimentos labiais com base em vários atores e depois se adapta a cada ator específico com mínimos dados. Isso significa que conseguimos alcançar uma dublagem visual de Alta qualidade com apenas alguns segundos de filmagem, tornando possível dublar qualquer ator, desde estrelas principais até figurantes.

Principais características do nosso modelo

  1. Alta Qualidade: Nossa abordagem cria vídeos que são visualmente atraentes e realistas.
  2. Menos Dados Necessários: Precisamos só de alguns segundos de dados de um ator pra produzir resultados de qualidade.
  3. Treinamento Rápido: Adicionar um novo ator ao nosso modelo é muito mais rápido em comparação com métodos tradicionais.
  4. Estilos Únicos de Atores: O modelo captura e reflete as características únicas de diferentes atores.

Como construímos nosso modelo

Desenhamos nosso modelo pra lidar com a dublagem em duas etapas principais: transformando áudio em movimentos labiais e depois gerando o vídeo. Esse processo em duas etapas nos permite focar nas características únicas de cada ator enquanto mantemos a qualidade geral do vídeo.

Etapa 1: Áudio para Movimento Labial

Usamos uma tecnologia avançada de animação dirigida pela fala pra controlar os movimentos labiais do ator com base no áudio. Essa tecnologia permite que a gente se adapte ao estilo de fala do ator, garantindo que os movimentos labiais sincronizados pareçam naturais.

Etapa 2: Geração de Vídeo

Depois de acertar os movimentos labiais, a gente cria o vídeo de verdade. Amostramos texturas pros movimentos labiais e misturamos isso com as frames originais do vídeo. Uma rede especial chamada StyleGAN2 nos ajuda a gerar frames fotorealistas.

Pra garantir que o vídeo seja estável e livre de falhas, fornecemos ao modelo várias frames antes e depois da frame alvo. Isso ajuda a criar um vídeo suave e coeso.

Treinando nosso modelo

Pra treinar nosso modelo, usamos um grande conjunto de dados com muitos atores diferentes. Inicialmente, compartilhamos os pesos da rede entre todas as identidades pra aprender características comuns. No entanto, cada ator tem suas texturas únicas. Então, enquanto a estrutura geral é compartilhada, o modelo se ajusta pra capturar os detalhes de cada ator.

Quando introduzimos um novo ator, rapidamente adaptamos o modelo usando uma pequena quantidade de dados, permitindo que mantenhamos a qualidade enquanto aceleramos o processo de treinamento.

Reduzindo Erros com Pós-processamento

Embora nosso modelo faça um bom trabalho, às vezes ele pode produzir pequenos erros nas bordas do rosto no vídeo. Pra corrigir isso, aplicamos uma etapa de pós-processamento onde comparamos as frames geradas com as originais. Isso ajuda a corrigir erros e melhorar a aparência geral ao misturar as partes geradas e reais do vídeo.

Testando nosso modelo

Pra ver como nosso modelo se sai, realizamos vários testes comparando-o com outros métodos de ponta. Avaliamos a qualidade visual, o quão bem os lábios combinavam com o áudio e se as características únicas do ator foram preservadas.

Estudos com Usuários

Nos nossos estudos com usuários, mostramos clipes a eles e pedimos que avaliassem diferentes métodos de dublagem com base em três critérios:

  1. Qualidade Visual: O quão atraente o vídeo parece.
  2. Qualidade de Sincronização Labial: O quão bem os movimentos labiais combinaram com o áudio.
  3. Qualidade Idiossincrática: O quão próximo o vídeo dublado se parecia com o estilo original do ator.

Resultados

Os resultados mostraram que os usuários geralmente preferiam nosso método em comparação com outros, especialmente em casos onde tivermos dados limitados. Isso indica que nosso modelo é eficaz e alcança alta qualidade mesmo quando os dados de treinamento são escassos.

Limitações e Trabalhos Futuros

Embora nosso método seja bem eficaz, ele não é perfeito. Alguns pequenos erros visuais ainda podem aparecer, especialmente nas bordas do rosto. Acreditamos que isso pode ser melhorado ainda mais treinando o modelo separadamente só na região facial, o que deve aumentar a performance.

Outra área pra melhorar é a velocidade das etapas de preparação envolvidas na criação de um modelo 3D do rosto. Esperamos explorar técnicas mais rápidas que ajudem a tornar o processo mais eficiente no futuro.

Considerações Éticas

Como em qualquer tecnologia, há preocupações éticas a considerar. Nosso método tem o potencial de criar conteúdos enganosos, como deepfakes, que podem levar à desinformação. Pra gerenciar esses riscos de forma responsável, planejamos limitar o acesso ao nosso modelo e saídas a pesquisadores em instituições acreditadas.

Conclusão

Dublagem para Todos é uma ferramenta poderosa que melhora a forma como conseguimos traduzir conteúdo de vídeo, não só mudando o áudio, mas também modificando o vídeo pra deixar a experiência mais realista. Usando tecnologia de ponta, criamos um modelo capaz de dublagem de alta qualidade com menos dados e tempos de treinamento mais rápidos, enquanto preservamos os estilos únicos de cada ator. À medida que continuamos a refinar nossa abordagem, nosso objetivo é promover usos positivos dessa tecnologia, incentivando a troca cultural enquanto tomamos cuidado com seu potencial de uso indevido.

Fonte original

Título: Dubbing for Everyone: Data-Efficient Visual Dubbing using Neural Rendering Priors

Resumo: Visual dubbing is the process of generating lip motions of an actor in a video to synchronise with given audio. Recent advances have made progress towards this goal but have not been able to produce an approach suitable for mass adoption. Existing methods are split into either person-generic or person-specific models. Person-specific models produce results almost indistinguishable from reality but rely on long training times using large single-person datasets. Person-generic works have allowed for the visual dubbing of any video to any audio without further training, but these fail to capture the person-specific nuances and often suffer from visual artefacts. Our method, based on data-efficient neural rendering priors, overcomes the limitations of existing approaches. Our pipeline consists of learning a deferred neural rendering prior network and actor-specific adaptation using neural textures. This method allows for $\textbf{high-quality visual dubbing with just a few seconds of data}$, that enables video dubbing for any actor - from A-list celebrities to background actors. We show that we achieve state-of-the-art in terms of $\textbf{visual quality}$ and $\textbf{recognisability}$ both quantitatively, and qualitatively through two user studies. Our prior learning and adaptation method $\textbf{generalises to limited data}$ better and is more $\textbf{scalable}$ than existing person-specific models. Our experiments on real-world, limited data scenarios find that our model is preferred over all others. The project page may be found at https://dubbingforeveryone.github.io/

Autores: Jack Saunders, Vinay Namboodiri

Última atualização: 2024-01-11 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2401.06126

Fonte PDF: https://arxiv.org/pdf/2401.06126

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes