Unindo Som e Movimento na Música
Uma nova abordagem pra combinar canto e dança usando técnicas avançadas de computador.
― 6 min ler
Índice
- O Conjunto de Dados RapVerse
- Unindo Som e Movimento
- Por que o Texto é Importante
- Desafios Enfrentados
- Criando o Conjunto de Dados RapVerse
- Como Geramos Som e Movimento Juntos
- Avaliando Nosso Sistema
- Comparando com Outros Métodos
- Resultados de Nossos Experimentos
- Limitações e Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
Criar música e dança juntos sempre fez parte da expressão humana. É um desafio emocionante combinar canto e movimentos de dança em um único sistema. Este trabalho busca gerar cantos e movimentos corporais a partir apenas das palavras de uma canção. Tradicionalmente, os pesquisadores analisavam o canto e o movimento separadamente, mas a gente quer ver como eles podem trabalhar juntos para criar uma experiência mais animada.
O Conjunto de Dados RapVerse
Para ajudar com essa tarefa, criamos um conjunto de dados especial chamado RapVerse. Esse conjunto contém uma grande coleção de músicas de rap, incluindo as letras, as vozes cantadas e os movimentos 3D dos corpos dos intérpretes. Com esse conjunto, queremos descobrir o quão bem conseguimos misturar canto e movimento usando técnicas avançadas de computador.
O conjunto de dados RapVerse é dividido em duas partes:
Subset de Rap-Vocal: Esta parte tem 108 horas de canto de rap sem música de fundo. Coletamos as letras e os cantos de vários artistas de rap online e garantimos que tudo se encaixasse bem.
Subset de Rap-Motion: Esta parte contém cerca de 27 horas de vídeos de performance mostrando os movimentos corporais dos artistas de rap. Coletamos isso de vídeos disponíveis online e fizemos questão de que os movimentos corresponderem ao canto.
Unindo Som e Movimento
Acreditamos que som e movimento estão intimamente ligados, especialmente quando se trata de expressar emoções ou ideias. Se um desses elementos sabe o que o outro está fazendo, conseguimos criar uma experiência mais rica. Isso significa que, se o canto tem emoção, a dança também pode acompanhar isso, tornando tudo mais natural.
Neste trabalho, a gente se pergunta: Será que as máquinas conseguem aprender a não só cantar, mas também se mover como humanos? Acreditamos que, conectando bem a voz e os movimentos do corpo, podemos melhorar muito a forma como interagimos com o conteúdo digital.
Por que o Texto é Importante
Acreditamos que as letras das músicas são a melhor maneira de começar. As palavras contam uma história profunda e ajudam a transmitir sentimentos. Elas nos dão uma forma significativa de conectar diferentes tipos de conteúdo. Enquanto alguns trabalhos anteriores usaram notas musicais ou comandos de voz, achamos que as letras oferecem mais profundidade.
Em vez de fazer um sistema que gera o canto primeiro e depois tenta descobrir os movimentos, queremos criar um sistema que gera tudo ao mesmo tempo. Essa abordagem evita erros que podem acontecer quando cada parte trabalha separadamente, como quando um mal-entendido no canto pode levar a movimentos estranhos.
Desafios Enfrentados
Um dos principais desafios é encontrar dados suficientes que tenham vozes cantadas, movimentos e letras correspondentes, tudo junto. Outros conjuntos de dados muitas vezes perdem uma dessas partes. Também precisamos de um sistema que consiga criar som e movimento baseado apenas nas letras, sem precisar esperar uma parte terminar antes de começar a outra.
Criando o Conjunto de Dados RapVerse
Enfrentamos várias etapas para criar o conjunto de dados RapVerse. Para a parte vocal, precisávamos encontrar muitas músicas e suas letras online. Usamos ferramentas para nos ajudar a coletar essas informações, garantindo que só escolhemos conteúdos de alta qualidade. Depois de coletar, separamos as vozes da música de fundo para deixar só as vozes cantadas.
Para a parte do movimento, encontramos centenas de vídeos de performance. Procuramos vídeos onde os intérpretes estavam totalmente visíveis e o áudio estava claro. Usando um software, traduzimos os sons em texto para alinhar corretamente as letras. Uma vez que coletamos os vídeos, os processamos para anotar os movimentos com precisão.
Como Geramos Som e Movimento Juntos
Para gerar vocais e movimentos, usamos modelos de computador avançados. O primeiro passo é codificar o canto e os movimentos do corpo em uma forma que as máquinas possam entender. Fazemos isso transformando o canto e os movimentos em tokens - pequenas partes que representam pedaços de som ou movimento.
Para o som, isolamos as partes vocais e processamos suas características. Para o movimento, usamos uma abordagem semelhante, quebrando os movimentos em peças discretas. Uma vez que temos essas peças, usamos um tipo especial de modelo chamado transformer, que pode prever os próximos tokens com base no que já foi gerado.
Ao combinar tokens de todas as três áreas - letras, vocais e movimentos - conseguimos treinar um sistema que aprende a gerar tudo junto.
Avaliando Nosso Sistema
Para ver como nosso sistema se sai, olhamos para múltiplos fatores. Para as vozes cantadas, pedimos para as pessoas avaliarem o quão naturais as vozes soam. Para os movimentos, analisamos quão realistas os movimentos parecem e o quão bem eles sincronizam com o canto.
Também comparamos nossos resultados com outros métodos existentes para ver se nossa abordagem é melhor. Nosso sistema mostrou grande potencial, pois gera movimentos que se alinham bem com o ritmo da música.
Comparando com Outros Métodos
Gastamos um tempo analisando os Sistemas existentes. Por exemplo, existem sistemas apenas para gerar vocais ou apenas para movimentos. Nosso método, que combina os dois, mostrou que pode igualar ou até superar esses sistemas especializados.
Ao usar nossa abordagem, não enfrentamos os mesmos problemas que aqueles que geram vocais primeiro e depois movimentos. Nossa maneira combinada ajuda a evitar erros e produz resultados que parecem mais coesos.
Resultados de Nossos Experimentos
Nossos experimentos mostram que nosso método pode produzir vocais de canto de alta qualidade e movimentos corporais realistas a partir apenas das letras. Na verdade, a qualidade do canto compete com sistemas dedicados à geração de vocais, e os movimentos mostram um alto nível de realismo.
Os resultados provaram que a estrutura de geração combinada não apenas funciona, mas também traz um novo padrão de como vozes e movimentos podem ser criados juntos.
Limitações e Direções Futuras
Enquanto nossa pesquisa atual se concentra na música rap, vemos um grande potencial para expandir isso além de um único gênero. As ferramentas e métodos poderiam ser adaptados para outros estilos musicais com os conjuntos de dados certos.
No futuro, estamos ansiosos para explorar a criação de performances que incluam múltiplos artistas, aumentando o realismo dos concertos virtuais e experiências musicais colaborativas.
Conclusão
Nosso trabalho em integrar geração vocal e de movimento a partir de texto lírico abre portas para novas possibilidades em tecnologias de performance e conteúdo digital. O objetivo não é apenas criar som e movimento, mas gerar experiências que se sintam vivas e envolventes. Ao aproveitar esses avanços, podemos criar ambientes mais interativos e imersivos para entretenimento, jogos e além.
Em resumo, o sucesso da nossa abordagem combinada demonstra o potencial de reformular como pensamos sobre música e movimento, fornecendo um caminho para interações digitais mais dinâmicas no futuro.
Título: RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text
Resumo: In this work, we introduce a challenging task for simultaneously generating 3D holistic body motions and singing vocals directly from textual lyrics inputs, advancing beyond existing works that typically address these two modalities in isolation. To facilitate this, we first collect the RapVerse dataset, a large dataset containing synchronous rapping vocals, lyrics, and high-quality 3D holistic body meshes. With the RapVerse dataset, we investigate the extent to which scaling autoregressive multimodal transformers across language, audio, and motion can enhance the coherent and realistic generation of vocals and whole-body human motions. For modality unification, a vector-quantized variational autoencoder is employed to encode whole-body motion sequences into discrete motion tokens, while a vocal-to-unit model is leveraged to obtain quantized audio tokens preserving content, prosodic information, and singer identity. By jointly performing transformer modeling on these three modalities in a unified way, our framework ensures a seamless and realistic blend of vocals and human motions. Extensive experiments demonstrate that our unified generation framework not only produces coherent and realistic singing vocals alongside human motions directly from textual inputs but also rivals the performance of specialized single-modality generation systems, establishing new benchmarks for joint vocal-motion generation. The project page is available for research purposes at https://vis-www.cs.umass.edu/RapVerse.
Autores: Jiaben Chen, Xin Yan, Yihang Chen, Siyuan Cen, Qinwei Ma, Haoyu Zhen, Kaizhi Qian, Lie Lu, Chuang Gan
Última atualização: 2024-05-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2405.20336
Fonte PDF: https://arxiv.org/pdf/2405.20336
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.