Geração de Som Inovadora para Modelos Humanos em 3D
Um novo método melhora a criação de som para modelos humanos 3D realistas.
― 8 min ler
Índice
- A Importância do Som em Modelos 3D
- Desafios na Renderização de Som
- Vantagens das Primitivas Acústicas
- Visão Geral do Sistema
- Dados de Entrada
- Estágios de Processamento
- Codificação de Características
- Fusão de Características
- Processo de Renderização de Som
- Localizações e Pesos Previstos
- Renderizando o Campo Sonoro
- Função de Perda e Treinamento
- Métricas de Avaliação
- Resultados Experimentais
- Conjunto de Dados Usado
- Detalhes de Implementação
- Comparação de Desempenho
- Visualizando Sons
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
Enquanto a criação de modelos humanos 3D realistas para mídias visuais, como jogos e filmes, melhorou bastante, os sons que esses modelos fazem foram, em grande parte, deixados de lado. Este trabalho apresenta uma nova maneira de gerar sons de alta qualidade que vêm de um corpo humano, capturando tudo, desde fala até passos.
Usamos posições corporais 3D junto com Áudios gravados de um microfone acoplado na cabeça para criar um ambiente sonoro completo. Nosso método permite a renderização precisa de sons em qualquer Espaço 3D, fazendo parecer que o som está realmente vindo de uma pessoa presente.
Para fazer isso de forma eficiente e rápida, pegamos ideias de técnicas de renderização gráfica que usam formas simples, que chamamos de "primitivas acústicas". Essas primitivas nos ajudam a criar representações sonoras que são muito menores e podem produzir sons que parecem mais próximos do corpo do que os métodos anteriores.
A Importância do Som em Modelos 3D
Criar humanos 3D realistas é importante, especialmente para aplicações em jogos e realidade virtual (VR). Muitas ferramentas modernas, como MetaHumans e Codec Avatars, permitem modelos visuais impressionantes. No entanto, acompanhar as imagens com sons correspondentes não recebeu tanta atenção.
A representação sonora precisa é vital para uma experiência 3D crível. Quando as pessoas veem um humano virtual, esperam ouvir sons que correspondam aos seus movimentos ou ações. Atualmente, a pesquisa em criar sons espaciais para esses humanos virtuais está em falta.
Neste trabalho, focamos em dois requisitos principais:
- Precisamos ser capazes de renderizar sons em qualquer ponto de um espaço 3D gerado por um humano virtual.
- O ambiente sonoro deve ser controlável, ou seja, pode ser ajustado em tempo real com base nos movimentos e sons emitidos.
Desafios na Renderização de Som
Os métodos anteriores geralmente usavam uma única representação complexa do som ao redor de um corpo humano, dificultando a captura precisa dos sons próximos ao corpo. As abordagens passadas também exigiam bastante poder computacional e não conseguiam fornecer resultados em tempo real.
Para resolver essas questões, propomos um novo método usando componentes sonoros menores, ou primitivas acústicas. Cada primitiva é uma pequena esfera ligada a pontos no corpo humano. Em vez de depender de um modelo complicado, somamos o som produzido por cada primitiva para gerar um ambiente sonoro preciso. Esse método permite modelar sons muito próximos do corpo com facilidade.
Vantagens das Primitivas Acústicas
Melhor Renderização de Campo Próximo: Métodos tradicionais teriam dificuldades em criar sons próximos ao corpo. Nossa abordagem acomoda isso usando muitas primitivas sonoras pequenas, permitindo uma representação sonora realista mesmo a distâncias curtas.
Representação Sonora Compacta: Ao invés de usar um modelo complexo, criamos representações sonoras mais simples e menores, o que torna a modelagem sonora geral muito mais rápida.
Renderização de Som Eficiente: Nosso método pode prever coeficientes sonoros diretamente, evitando processos complexos tradicionais que retardam a renderização do som. Isso significa que podemos criar sons em tempo real com base nos movimentos do corpo e sons captados pelo microfone.
Visão Geral do Sistema
Desenhamos um sistema que usa informações de áudio e de posição corporal para criar ambientes sonoros. Esse sistema é formado por várias partes que trabalham juntas para capturar, processar e renderizar sons.
Dados de Entrada
O sistema recebe dados de:
- Sinais de áudio capturados com um microfone acoplado na cabeça.
- Poses corporais 3D que descrevem a posição das articulações no corpo humano.
O objetivo é criar representações sonoras em uma localização 3D específica com base nesses dados.
Estágios de Processamento
- Aprendendo Primitivas Acústicas: O primeiro passo é capturar os campos sonoros gerados pelo corpo usando os dados de entrada.
- Renderizando Áudio com Primitivas: Uma vez que as primitivas acústicas são aprendidas, usamos elas para gerar ondas sonoras nos locais desejados.
Codificação de Características
Codificação de Pose
Os movimentos do corpo fornecem informações cruciais sobre como os sons são produzidos no espaço. Codificamos esses movimentos em um formato que captura seus aspectos temporais. Isso nos ajuda a entender como o som muda ao longo do tempo conforme o corpo se move.
Codificação de Áudio
Como o áudio pode vir de várias partes do corpo, enquanto é gravado na cabeça, consideramos esse pequeno atraso de tempo ao processar os sons. Isso nos permite criar características de áudio que refletem o som real vindo do corpo.
Fusão de Características
Mesclamos as características de áudio e pose codificadas em uma única representação. Essa fusão permite que nosso modelo utilize efetivamente os dois tipos de dados, melhorando a precisão dos sons gerados.
Processo de Renderização de Som
O processo de renderização de som envolve calcular como cada primitiva acústica contribui para o ambiente sonoro geral. A localização de cada primitiva muda à medida que o corpo se move, então precisamos levar em conta essas mudanças com precisão.
Localizações e Pesos Previstos
Calculamos as novas localizações de cada primitiva ajustando para quaisquer deslocamentos aprendidos. Além disso, diferentes primitivas terão impactos variados no som final com base em sua importância em momentos específicos.
Renderizando o Campo Sonoro
Para criar o campo sonoro que um ouvinte escuta, transformamos a posição de cada primitiva em um formato apropriado para renderização. Somando todos os sons renderizados de cada primitiva, conseguimos produzir o campo sonoro final.
Função de Perda e Treinamento
Para treinar nosso modelo, usamos uma função de perda que compara os sinais de áudio gerados com o áudio real. Ao otimizar essa perda, melhoramos o desempenho do modelo na renderização de sons precisos.
Métricas de Avaliação
Medimos o sucesso da nossa renderização de som usando:
- Relação Sinal-Distorção (SDR): Essa métrica indica a qualidade geral do som produzido.
- Erro de Amplitude: Isso mostra quão próximo o som renderizado está do original em termos de distribuição de energia.
- Erro de Fase: Isso avalia quão precisamente o timing das ondas sonoras se alinha com o som original.
Resultados Experimentais
Nosso modelo mostrou resultados comparáveis aos modelos de ponta em termos de qualidade sonora, ao mesmo tempo em que era significativamente mais rápido. Ele também é capaz de renderizar sons próximos ao corpo, o que métodos anteriores tinham dificuldade em realizar.
Conjunto de Dados Usado
Para validar nossa abordagem, usamos um conjunto de dados disponível publicamente que captura dados de áudio e visuais sincronizados em ambientes controlados. Esse conjunto de dados é especificamente projetado para pesquisa em modelagem sonora e corporal.
Detalhes de Implementação
Em nossa configuração experimental, utilizamos uma taxa de amostragem específica para áudio e taxa de quadros para dados corporais. O modelo foi treinado usando GPUs contemporâneas, permitindo um processamento eficiente.
Comparação de Desempenho
Ao comparar nosso método com abordagens existentes, descobrimos que nosso sistema teve desempenho semelhante em qualidade sonora, mas com uma velocidade de processamento muito mais rápida. Isso significa que nosso método é não só eficaz, mas também prático para aplicações em tempo real.
Visualizando Sons
Criamos visualizações para representar como diferentes sons foram produzidos pelo corpo virtual. Essas visualizações revelaram que o sistema combinou corretamente os sons às suas localizações de origem.
Direções Futuras
Embora nosso sistema mostre potencial, ainda há espaço para melhorias. Potenciais desenvolvimentos futuros podem incluir:
- Reduzir a dependência de configurações complexas de microfone para facilitar a coleta de dados sonoros.
- Generalizar essa abordagem para trabalhar com uma variedade maior de fontes de áudio além de humanos.
Conclusão
Nosso trabalho apresenta um método para criar ambientes sonoros diretamente a partir de movimentos corporais e sinais de áudio. Usando primitivas acústicas, mantemos a qualidade do som enquanto melhoramos significativamente a velocidade, permitindo experiências de áudio realistas em configurações 3D, como realidade virtual e jogos.
Essa nova abordagem oferece uma base que pode abrir caminho para futuros avanços na tecnologia de renderização sonora, tornando os ambientes virtuais mais ricos e imersivos para os usuários.
Título: Modeling and Driving Human Body Soundfields through Acoustic Primitives
Resumo: While rendering and animation of photorealistic 3D human body models have matured and reached an impressive quality over the past years, modeling the spatial audio associated with such full body models has been largely ignored so far. In this work, we present a framework that allows for high-quality spatial audio generation, capable of rendering the full 3D soundfield generated by a human body, including speech, footsteps, hand-body interactions, and others. Given a basic audio-visual representation of the body in form of 3D body pose and audio from a head-mounted microphone, we demonstrate that we can render the full acoustic scene at any point in 3D space efficiently and accurately. To enable near-field and realtime rendering of sound, we borrow the idea of volumetric primitives from graphical neural rendering and transfer them into the acoustic domain. Our acoustic primitives result in an order of magnitude smaller soundfield representations and overcome deficiencies in near-field rendering compared to previous approaches.
Autores: Chao Huang, Dejan Markovic, Chenliang Xu, Alexander Richard
Última atualização: 2024-07-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.13083
Fonte PDF: https://arxiv.org/pdf/2407.13083
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.