Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Som# Visão computacional e reconhecimento de padrões# Processamento de Áudio e Fala

Gerando Sons Realistas a partir de Vídeos Silenciosos

A pesquisa explora o deep learning pra criar áudio que combine com conteúdo de vídeo silencioso.

― 8 min ler


Geração de Som para VídeoGeração de Som para VídeoSilenciosopara clipes de vídeo silenciosos.Modelos de deep learning geram sons
Índice

Criar sons realistas para vídeos e filmes não é uma tarefa fácil. Tradicionalmente, profissionais chamados de artistas Foley fazem sons usando objetos do dia a dia que combinam com o que tá acontecendo na tela. Eles criam trilhas sonoras sincronizando esses sons com as imagens, tipo usando luvas de boxe pra sons de socos ou amassando plástico pra imitar passos. Este estudo busca construir um sistema inteligente que assiste vídeos e gera sons realistas pra acompanhar usando aprendizado profundo, que é um tipo de programa de computador que aprende com dados.

O Desafio da Geração de Áudio

Tem várias dificuldades quando se trata de gerar sons a partir de vídeos sem som. Primeiro, não é só fazer sons realistas; o sistema tem que criar uma variedade de formas de onda pra imitar diferentes fontes de som. Por exemplo, precisa diferenciar entre o som de um motor de carro e um bebê chorando. Segundo, os vídeos mostram só uma quantidade limitada de quadros por segundo, geralmente de 30 a 60, enquanto o áudio toca a uma qualidade muito mais alta, que pode ser de 8.000 a 44.100 vezes por segundo. Essa diferença faz com que o sistema tenha que adivinhar grandes partes do som baseado em imagens paradas do vídeo. Além disso, sons que o espectador não consegue ver no vídeo também precisam ser considerados, como sirenes distantes ou conversas fora da câmera. Isso adiciona mais uma camada de dificuldade.

Outro desafio é pegar detalhes visuais relevantes do vídeo. Quais partes do vídeo são importantes pra prever sons específicos? Como lidamos com várias dicas visuais ao mesmo tempo? Essas são perguntas críticas que o sistema precisa responder pra ser bem-sucedido.

Arquiteturas de Modelos

O estudo testa três tipos diferentes de modelos pra gerar sons de vídeos sem som. Todos os três modelos buscam combinar dados de áudio com informações visuais. Eles são treinados pra produzir áudio em duas faixas que se parecem com os sons de vídeos do YouTube e vídeos caseiros gravados pelos pesquisadores.

O primeiro modelo é uma CNN de fusão profunda. Essa estrutura funciona processando tanto o áudio gerado quanto os dados visuais juntos pra produzir sons ligados aos próximos quadros do vídeo. O segundo modelo se baseia na arquitetura Wavenet, adicionando o contexto do vídeo como um passo inicial. Esse modelo foca em prever a próxima amostra de áudio em vez de uma sequência. Por fim, o terceiro modelo usa uma arquitetura de transformador que também combina o contexto do áudio com dados visuais pra criar a próxima amostra de áudio. O estudo descobriu que o modelo de transformador mostrou mais potencial, conseguindo combinar sons de baixa frequência com dicas visuais, mas teve dificuldade com sons mais complexos.

Trabalhos Relacionados

Nos últimos anos, houve um progresso significativo nas técnicas de geração de áudio. Trabalhos iniciais na geração de áudio avançaram com a criação de modelos que fazem ondas sonoras brutas. Modelos mais recentes mostraram que os transformadores também podem gerar áudio de forma eficaz. Nossa pesquisa se inspira nessas abordagens pra moldar os modelos usados pra gerar som a partir de vídeos.

Em termos de compreensão de vídeo, novas metodologias surgiram pra analisar dados de vídeo de maneira eficaz. Isso inclui modelos que combinam características de vídeo com texto ou criam legendas para vídeos. Da mesma forma, os modelos neste estudo precisam aprender características que conectam vídeo e áudio.

O estudo se baseia em trabalhos anteriores que tentaram gerar áudio baseado em informações visuais. Esses modelos anteriores usaram codificadores de vídeo e geradores de som, mas nosso trabalho introduz várias técnicas modernas de geração de áudio.

Fontes de Dados

A pesquisa utiliza duas fontes de dados de vídeo: vídeos do YouTube e vídeos caseiros. Os autores baixam vídeos do YouTube com uma biblioteca Python e gravam seus próprios vídeos em smartphones.

Processamento de Dados

Pra facilitar o trabalho com os dados brutos, os pesquisadores precisam processá-los e reduzir a resolução. Eles leem e redimensionam dados de áudio e vídeo usando bibliotecas Python específicas. O objetivo é criar um conjunto de dados combinado que vincule quadros de vídeo a sequências de áudio correspondentes. Pra lidar com dados faltantes, eles preenchem lacunas com zeros pra manter os tamanhos consistentes.

Incorporação do Contexto do Vídeo

Pra ajudar os modelos a entender o contexto do vídeo, os pesquisadores criam incorporações do contexto do vídeo. Essas são feitas usando uma arquitetura CNN 3D, que processa a entrada de vídeo e a transforma em dimensões que combinam com os dados de áudio. Essa incorporação é então usada junto com os dados de áudio durante o treinamento do modelo.

Processo de Geração de Áudio

Durante a fase de geração de áudio, os modelos recebem tanto o contexto de áudio quanto o de vídeo. A cada passo, eles consideram todas as amostras de áudio geradas anteriormente até um certo comprimento. Eles também levam em conta o contexto do vídeo, que pode precisar de preenchimento se os quadros anteriores não estiverem disponíveis. As saídas de áudio são salvas e depois escritas em um arquivo assim que a geração é concluída.

Arquitetura de Fusão Profunda

A arquitetura de fusão profunda gera sequências de áudio inteiras correspondentes a quadros de vídeo de maneira única. Ela processa o contexto de áudio e vídeo simultaneamente e combina as saídas após cada etapa de processamento. Esse método é menos eficaz, produzindo sons que não se alinham bem com as características do vídeo e, às vezes, resultando em barulho indesejado.

Arquitetura Baseada em Wavenet

O modelo Wavenet captura uma ampla gama de frequências, mas muitas vezes soa como barulho. Ele gerou resultados melhores para alguns vídeos do que a abordagem de fusão profunda, mas ainda assim não conseguiu captar claramente os sons ligados aos eventos do vídeo. As saídas não capturaram consistentemente os sons vinculados aos quadros do vídeo.

Arquitetura de Transformador de Áudio e Vídeo

O modelo de transformador produziu os melhores resultados, gerando o áudio mais realista quando emparelhado com vídeo. Ele capturou com precisão os sons de eventos, como ruídos de motor ou aplausos. No entanto, teve dificuldade com sons mais sutis e ficou perto de zero em algumas cenas da natureza.

Principais Insights

Dessa pesquisa, vários insights importantes ficam claros. Primeiro, usar métodos avançados de geração de áudio junto com o contexto do vídeo não só é possível, mas também eficaz. A arquitetura do transformador provou ser capaz de gerar sons correspondentes aos quadros do vídeo, sugerindo que pode ser aplicada a várias tarefas sonoras.

Segundo, alimentar modelos de geração de áudio com o contexto do vídeo desde o começo melhora os resultados. Quando os modelos sabiam o que esperar da cena antes de gerar o som, produziram um áudio melhor que combinava bem com as imagens.

Por último, enquanto o contexto do vídeo pode ajudar na geração de som, ele tem limitações. Os modelos foram melhores em prever sons claros, como gritos ou ruído de motor, mas tiveram dificuldades com áudio mais complexo. Isso pode ser devido à falta de detalhes sutis no contexto do vídeo, o que leva a falhas em capturar aqueles sons delicados.

Limitações do Trabalho

Os pesquisadores reconhecem as limitações do trabalho deles. Os modelos foram treinados em vídeos individuais e focaram em prever sons para seções não vistas desses mesmos vídeos. Essa abordagem acelerou os testes, mas significa que os modelos podem não se generalizar bem para outros tipos de dados de vídeo.

Trabalho Futuro

Olhando pra frente, os pesquisadores esperam expandir seu modelo de transformador e treiná-lo com um conjunto de dados mais extenso e variado. Eles acreditam que isso pode levar a melhores resultados. Além disso, buscam melhorar a técnica de incorporação do contexto do vídeo, permitindo que o modelo se concentre em diferentes aspectos do vídeo pra previsões de som mais precisas.

Conclusão

Essa pesquisa estabelece a base pra criar áudio a partir de vídeos sem som usando métodos de aprendizado profundo. Embora os resultados sejam promissores, ainda há muito espaço pra melhorias e explorações nesse campo empolgante.

Fonte original

Título: An Initial Exploration: Learning to Generate Realistic Audio for Silent Video

Resumo: Generating realistic audio effects for movies and other media is a challenging task that is accomplished today primarily through physical techniques known as Foley art. Foley artists create sounds with common objects (e.g., boxing gloves, broken glass) in time with video as it is playing to generate captivating audio tracks. In this work, we aim to develop a deep-learning based framework that does much the same - observes video in it's natural sequence and generates realistic audio to accompany it. Notably, we have reason to believe this is achievable due to advancements in realistic audio generation techniques conditioned on other inputs (e.g., Wavenet conditioned on text). We explore several different model architectures to accomplish this task that process both previously-generated audio and video context. These include deep-fusion CNN, dilated Wavenet CNN with visual context, and transformer-based architectures. We find that the transformer-based architecture yields the most promising results, matching low-frequencies to visual patterns effectively, but failing to generate more nuanced waveforms.

Autores: Matthew Martel, Jackson Wagner

Última atualização: 2023-08-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.12408

Fonte PDF: https://arxiv.org/pdf/2308.12408

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes