Avanços nos Métodos de Previsão de Movimento das Mãos
Uma nova abordagem melhora a precisão e a diversidade dos gestos das mãos em ambientes virtuais.
― 7 min ler
Índice
- O Problema
- Nossa Abordagem
- Criação de Dataset
- Resultados
- Conclusão
- Trabalho Futuro
- Insights Técnicos
- Métricas de Avaliação
- Conjuntos de Dados e Configurações Experimentais
- Detalhes da Implementação
- Resultados do Estudo com Usuários
- Resultados Visuais
- Complexidade do Modelo
- Insights Adicionais
- Resumo
- Fonte original
- Ligações de referência
Gestos das mãos são uma parte chave da comunicação humana, especialmente em situações onde usamos avatares virtuais, como em videogames ou reuniões virtuais. Mas criar gestos realistas e diversos com base nos movimentos do corpo é um desafio e tanto. Muitos métodos que foram usados antes tratam as duas mãos como se movessem juntas, ignorando as ações únicas de cada mão. Isso pode levar a animações meio irreais. Neste artigo, a gente descreve um novo método que foca em separar as ações de cada mão, permitindo gestos mais naturais e variados.
O Problema
Quando tentamos prever gestos 3D das mãos a partir dos movimentos do corpo de alguém, enfrentamos alguns grandes desafios. Primeiro, os movimentos das duas mãos costumam ser bem diferentes. Uma mão pode estar se movendo bastante enquanto a outra tá parada ou se mexendo devagar. Segundo, os gestos precisam combinar com o tempo dos movimentos do corpo. Por último, pode ter muitos gestos diferentes que se encaixam na mesma posição do corpo. Métodos anteriores não deram conta dessas questões, por isso precisamos de uma nova abordagem.
Nossa Abordagem
Para resolver o problema, desenvolvemos um método em duas partes. A primeira parte prevê gestos das mãos com base nos movimentos do corpo, e a segunda parte adiciona variedade a esses gestos.
Primeira Etapa: Prevendo Gestos Naturais das Mãos
Na primeira etapa, queremos prever gestos realistas para as duas mãos. Criamos caminhos separados para cada mão para ajudar a capturar seus movimentos únicos. Depois, adicionamos um sistema de memória especial que ajuda a entender como o corpo e cada mão interagem. Isso ajuda a criar gestos que parecem mais naturais.
Desembaraço das Mãos
Para prever os gestos das mãos com precisão, a gente separa as ações de cada mão usando uma estrutura especializada. Isso ajuda a focar nos movimentos individuais de cada mão.
Memória Espacial
Introduzimos um sistema de memória que guarda informações sobre como a posição do corpo afeta os gestos das mãos. Quando queremos prever o próximo gesto, dá pra olhar de volta no que já aconteceu e como cada mão se moveu em relação ao corpo. Isso ajuda a criar movimentos mais realistas.
Memória Temporal
Além da memória espacial, também criamos um sistema que acompanha como os gestos das mãos mudam ao longo do tempo. Isso garante que, conforme o corpo se move, os gestos das mãos continuem conectados. Isso é importante porque os gestos das mãos devem fluir naturalmente com os movimentos do corpo.
Usando Transformers
Usamos uma tecnologia chamada transformers para melhorar ainda mais nossas previsões. Isso permite uma comunicação melhor entre o corpo e as mãos no nosso modelo.
Segunda Etapa: Adicionando Diversidade
Uma vez que temos nossas previsões iniciais da primeira etapa, passamos para a segunda etapa. Aqui, a gente foca em gerar uma variedade de gestos das mãos a partir das previsões iniciais.
Memória Prototípica
Temos um banco de memória que guarda exemplos de gestos realistas das mãos. Com base na previsão inicial, conseguimos buscar o exemplo mais próximo dessa memória para criar gestos diversos.
Amostragem com MCMC
Para produzir diferentes variações de gestos das mãos, usamos um método chamado amostragem de Cadeia de Markov Monte Carlo (MCMC). Isso ajuda a ajustar as previsões iniciais levemente para criar novos gestos variados, mantendo sua realismo.
Criação de Dataset
Um dos problemas com os métodos anteriores foi a falta de dados diversos. Para resolver isso, criamos um novo dataset. Coletamos dados de várias pessoas fazendo palestras TED, capturando mais de 134.000 sequências de gestos das mãos. Esse dataset nos permite trabalhar com uma gama muito mais ampla de movimentos das mãos do que antes.
Resultados
Fizemos vários experimentos para ver como nosso método funciona. Testamos nossa abordagem contra outros métodos de ponta, e os resultados mostraram que nosso método superou a maioria em termos de realismo e diversidade dos gestos.
Comparações com Outros Métodos
Comparamos nossas previsões iniciais com as de outras técnicas. Nosso método consistentemente produziu gestos mais naturais, ou seja, as mãos se moveram de uma forma que as pessoas esperam.
Estudo com Usuários
Para validar ainda mais nossas descobertas, reunimos um grupo de pessoas para avaliar as animações. Eles avaliaram quão naturais e suaves os movimentos pareciam. Os resultados mostraram que os participantes acharam as animações do nosso método as melhores.
Conclusão
Criar gestos realistas e diversos das mãos a partir dos movimentos do corpo é complicado, mas introduzimos um método que melhora bastante os esforços anteriores. Ao focar nos movimentos únicos de cada mão e garantir que eles estejam sincronizados com os movimentos do corpo, conseguimos criar animações que parecem e soam naturais. Nossa nova abordagem e grande dataset abrem caminho para futuros avanços nas animações de avatares e interações virtuais.
Trabalho Futuro
No futuro, planejamos melhorar nosso método de amostragem para garantir transições ainda mais suaves entre os gestos. Isso vai ajudar a tornar as animações ainda mais críveis e fluidas.
Insights Técnicos
Desembaraço das Mãos
Nossa abordagem utiliza um método chamado desembaraço das mãos, que separa efetivamente os gestos de cada mão. Isso permite uma representação mais precisa de como cada mão se move de forma independente.
Sistemas de Memória
A integração dos sistemas de memória espacial e temporal ajuda a manter o contexto dos movimentos do corpo enquanto prevê os gestos. Isso leva a resultados mais coerentes e realistas.
Transformers
Usar a tecnologia de transformers facilita melhores conexões entre os movimentos do corpo e das mãos. Isso resulta em uma sincronização melhor e uma naturalidade geral.
Métricas de Avaliação
Para avaliar nossos resultados, usamos várias métricas, incluindo a distância entre os gestos das mãos gerados e os movimentos reais. Também analisamos medições específicas das mãos para garantir que nossas previsões se alinhassem bem com o esperado.
Conjuntos de Dados e Configurações Experimentais
Utilizamos dois conjuntos de dados principais para nossos experimentos, B2H e TED Hands. Cada conjunto de dados apresentou desafios distintos, permitindo que testássemos nosso método de forma abrangente.
Detalhes da Implementação
A implementação do nosso método foi feita usando frameworks comuns de machine learning. Treinamos nossos modelos com parâmetros específicos para alcançar os melhores resultados, garantindo um equilíbrio entre desempenho e eficiência.
Resultados do Estudo com Usuários
O estudo com usuários indicou um forte apoio à eficácia do nosso método. Os participantes notaram melhorias na fluidez e na qualidade natural dos gestos produzidos pela nossa abordagem em comparação a outras.
Resultados Visuais
As comparações visuais mostraram como nosso método gerou gestos das mãos realistas. As animações eram suaves e diversas, refletindo uma ampla gama de movimentos possíveis, mantendo-se contextualizadas.
Complexidade do Modelo
Embora nosso modelo seja mais complexo em termos de computação comparado a métodos mais simples, os benefícios em qualidade e diversidade dos gestos justificam essa complexidade adicional. O tempo de inferência confirma que nosso método pode operar de forma eficiente em aplicações em tempo real.
Insights Adicionais
Os vários componentes do nosso método trabalham juntos para criar um sistema robusto para prever gestos das mãos. Cada parte, desde o desembaraço das mãos até a utilização de sistemas de memória, agrega valor à saída final, garantindo que continuemos na vanguarda da previsão de gestos das mãos em avatares animados.
Resumo
Resumindo, apresentamos um método inovador para prever gestos 3D das mãos a partir dos movimentos do corpo, com base em técnicas inovadoras de machine learning e coleta de dados. Ao abordar as falhas anteriores, estabelecemos um novo padrão do que é possível no campo das interações de avatares virtuais.
Título: Diverse 3D Hand Gesture Prediction from Body Dynamics by Bilateral Hand Disentanglement
Resumo: Predicting natural and diverse 3D hand gestures from the upper body dynamics is a practical yet challenging task in virtual avatar creation. Previous works usually overlook the asymmetric motions between two hands and generate two hands in a holistic manner, leading to unnatural results. In this work, we introduce a novel bilateral hand disentanglement based two-stage 3D hand generation method to achieve natural and diverse 3D hand prediction from body dynamics. In the first stage, we intend to generate natural hand gestures by two hand-disentanglement branches. Considering the asymmetric gestures and motions of two hands, we introduce a Spatial-Residual Memory (SRM) module to model spatial interaction between the body and each hand by residual learning. To enhance the coordination of two hand motions wrt. body dynamics holistically, we then present a Temporal-Motion Memory (TMM) module. TMM can effectively model the temporal association between body dynamics and two hand motions. The second stage is built upon the insight that 3D hand predictions should be non-deterministic given the sequential body postures. Thus, we further diversify our 3D hand predictions based on the initial output from the stage one. Concretely, we propose a Prototypical-Memory Sampling Strategy (PSS) to generate the non-deterministic hand gestures by gradient-based Markov Chain Monte Carlo (MCMC) sampling. Extensive experiments demonstrate that our method outperforms the state-of-the-art models on the B2H dataset and our newly collected TED Hands dataset. The dataset and code are available at https://github.com/XingqunQi-lab/Diverse-3D-Hand-Gesture-Prediction.
Autores: Xingqun Qi, Chen Liu, Muyi Sun, Lincheng Li, Changjie Fan, Xin Yu
Última atualização: 2023-03-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.01765
Fonte PDF: https://arxiv.org/pdf/2303.01765
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.