Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanço na Síntese de Movimento Humano para Interação com Objetos

Um novo método melhora a simulação de movimento humano ao interagir com objetos.

― 6 min ler


Nova Método para SínteseNova Método para Síntesede Movimento Realistasimulações e animações.Melhorando a interação humano-objeto em
Índice

Criar movimentos humanos realistas que interagem com objetos é importante pra áreas como videogames, realidade virtual e robótica. Na vida real, as pessoas usam o corpo pra lidar com vários objetos enquanto fazem tarefas. Este trabalho se concentra em como gerar movimentos humanos de corpo inteiro ao interagir com objetos grandes.

O Problema

As pessoas costumam manipular vários objetos no dia a dia. Por exemplo, podem puxar um mop, mover uma lâmpada ou colocar itens numa mesa. Simular essas ações com precisão num computador é um desafio. Embora tenha havido progresso em fazer personagens animados se moverem em resposta a objetos fixos, não se fez muito com objetos em movimento. A maioria dos dados existentes foca em pessoas se movendo em torno de itens fixos.

A Abordagem

Pra resolver isso, a gente propõe um novo método chamado Síntese de Movimento Humano Guiada por Movimento de Objeto (OMOMO). Esse sistema usa um tipo de modelo conhecido como difusão pra criar movimentos de corpo inteiro só com base em como um objeto tá se movendo. O primeiro passo no OMOMO prevê onde as mãos da pessoa devem estar, com base no movimento do objeto. O segundo passo usa essas posições das mãos pra criar os movimentos do corpo todo. Esse método em duas etapas garante que as mãos permaneçam em contato com o objeto, levando a ações mais realistas.

Além disso, a gente desenhou um sistema que captura movimentos humanos usando só um smartphone preso ao objeto. Essa abordagem permite gravar como as pessoas se movem enquanto interagem com vários objetos apenas filmando elas.

Coleta de Dados

Um dos maiores desafios é a falta de conjuntos de dados de alta qualidade que mostrem como os humanos se movem enquanto interagem com objetos. Pra preencher essa lacuna, a gente coletou um grande conjunto de dados com modelos 3D de 15 objetos comuns e os movimentos humanos correspondentes por quase 10 horas.

Os objetos que focamos incluem itens do dia a dia como um aspirador, um mop e uma cadeira. Pra coletar os modelos 3D, filmamos vídeos de cada objeto e usamos um software pra criar as formas 3D a partir desses vídeos. Também capturamos dados de movimento humano usando tecnologia de captura de movimento, que ajuda a registrar como as pessoas se movem em tempo real.

Metodologia

Captura de Movimento de Objeto

Selecionamos cuidadosamente os objetos pro nosso estudo. Cada objeto foi filmado de diferentes ângulos pra criar um modelo 3D detalhado. Usando software, removemos qualquer ruído e refinamos os modelos pra garantir que fossem precisos pro nosso estudo.

Captura de Movimento Humano

Pra capturar como os humanos interagem com esses objetos, convidamos voluntários pra realizar várias tarefas enquanto usavam sensores de movimento. Cada sessão durou cerca de 1,5 a 2 horas, durante as quais gravamos suas interações com os objetos.

Processamento de Dados

Depois de coletar os dados, processamos pra organizar as informações sobre as formas dos objetos e os movimentos humanos. Usamos diferentes técnicas pra garantir que os dados estivessem limpos e adequados pros nossos modelos.

Design do Sistema

Síntese em Duas Etapas

Nosso sistema OMOMO tem um processo em duas etapas. Na primeira etapa, focamos em prever as posições das mãos com base em como os objetos estão se movendo. Isso garante que as mãos estejam corretamente posicionadas nos objetos durante a interação.

Na segunda etapa, pegamos as posições previstas das mãos e geramos movimentos de corpo inteiro. Essa abordagem nos permite manter um contato realista com o objeto, fazendo as ações parecerem mais críveis.

Modelo de Difusão

O coração do OMOMO está em usar um modelo de difusão. Esse modelo ajuda a criar novos dados adicionando ruído gradualmente e depois removendo de forma controlada. O resultado é uma saída mais refinada que representa os movimentos humanos desejados interagindo com objetos.

Resultados

Fizemos vários testes pra ver como nosso sistema se saiu. Comparamos o OMOMO com métodos existentes, incluindo versões simples do nosso sistema e outras técnicas estabelecidas. Os resultados mostraram que nosso modelo em duas etapas produziu interações mais realistas e manteve um contato melhor entre as mãos e os objetos.

Métricas de Avaliação

Pra avaliar nosso sistema, analisamos vários fatores:

  • Precisão do Movimento: Medimos quão de perto os movimentos gerados correspondiam aos movimentos reais gravados.
  • Plauzibilidade Física: Isso envolveu checar se as mãos estavam em contato com os objetos como deveriam e determinar se alguma parte do corpo estava passando pelos objetos.

No geral, nosso método superou as alternativas com base nesses critérios.

Estudos com Usuários

Pra validar ainda mais nossos resultados, realizamos estudos com usuários. Os participantes foram mostrados pares de sequências de movimento (uma do nosso método e uma de referência) e perguntados qual parecia mais natural. O feedback indicou que as saídas do nosso sistema foram preferidas pela sua realismo.

Limitações

Apesar dos sucessos, há limitações na nossa abordagem. Pra começar, os conjuntos de dados atuais não refletem adequadamente como dedos e mãos realizam tarefas detalhadas como agarrar ou manipulação fina. Como resultado, alguns movimentos gerados podem parecer irreais.

Outra limitação é o tratamento do contato intermitente com os objetos. Nosso sistema atualmente garante que as mãos permaneçam em contato, o que significa que ele tem dificuldades com cenários onde as mãos podem levantar brevemente de um objeto.

Futuro

Pra melhorar nosso método, pesquisas futuras poderiam introduzir modelos melhores que considerem movimentos mais complexos das mãos. Adicionar simulações baseadas em física também poderia ajudar a reduzir anomalias nos movimentos e melhorar o realismo.

A gente também planeja expandir nosso conjunto de dados pra incluir interações mais diversas e intrincadas. Isso proporcionaria uma base melhor pra treinar modelos que possam lidar com uma variedade maior de tarefas e objetos.

Conclusão

Em resumo, apresentamos uma nova estrutura pra sintetizar movimento humano que interage com objetos. Focando em como os objetos se movem, nosso método gera movimentos humanos de corpo inteiro que são mais realistas do que as abordagens anteriores. A capacidade do nosso sistema de capturar essas interações usando um smartphone abre novas oportunidades pra aplicações práticas em animação e robótica.

Enquanto continuamos a desenvolver essa tecnologia, esperamos criar simulações ainda mais realistas do comportamento humano, tornando ambientes virtuais mais ricos e envolventes.

Fonte original

Título: Object Motion Guided Human Motion Synthesis

Resumo: Modeling human behaviors in contextual environments has a wide range of applications in character animation, embodied AI, VR/AR, and robotics. In real-world scenarios, humans frequently interact with the environment and manipulate various objects to complete daily tasks. In this work, we study the problem of full-body human motion synthesis for the manipulation of large-sized objects. We propose Object MOtion guided human MOtion synthesis (OMOMO), a conditional diffusion framework that can generate full-body manipulation behaviors from only the object motion. Since naively applying diffusion models fails to precisely enforce contact constraints between the hands and the object, OMOMO learns two separate denoising processes to first predict hand positions from object motion and subsequently synthesize full-body poses based on the predicted hand positions. By employing the hand positions as an intermediate representation between the two denoising processes, we can explicitly enforce contact constraints, resulting in more physically plausible manipulation motions. With the learned model, we develop a novel system that captures full-body human manipulation motions by simply attaching a smartphone to the object being manipulated. Through extensive experiments, we demonstrate the effectiveness of our proposed pipeline and its ability to generalize to unseen objects. Additionally, as high-quality human-object interaction datasets are scarce, we collect a large-scale dataset consisting of 3D object geometry, object motion, and human motion. Our dataset contains human-object interaction motion for 15 objects, with a total duration of approximately 10 hours.

Autores: Jiaman Li, Jiajun Wu, C. Karen Liu

Última atualização: 2023-09-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.16237

Fonte PDF: https://arxiv.org/pdf/2309.16237

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes