Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanços na Captura de Movimento 3D Sem Marcadores

Um novo método pra rastreamento preciso de movimento 3D usando dados de vídeo.

― 8 min ler


Revolucionando aRevolucionando atecnologia de captura demovimentoprecisão na análise de movimento 3D.O rastreamento sem marcadores melhora a
Índice

O rastreamento preciso de movimentos 3D do corpo humano é importante em várias áreas, como reabilitação, prevenção de lesões e diagnóstico de saúde. Isso permite que a gente veja como o corpo é afetado por diferentes movimentos.

Os sistemas tradicionais de captura de movimento que usam marcadores são caros. Eles exigem muita grana, tempo e conhecimento técnico. Além disso, conseguir dados de alta qualidade com rótulos corretos é complicado. Os métodos existentes que não usam marcadores enfrentam desafios. Muitas vezes, eles têm dificuldades em detectar os pontos-chave corretamente, o que leva a medições corporais imprecisas.

Este trabalho apresenta um novo método que pode nos dar dados de movimento 3D diretamente de dois ângulos de vídeo. Ele leva em consideração como o corpo se move e como as diferentes partes do corpo interagem. Para treinar o modelo, criamos dados de treinamento sintéticos que mostram com precisão os movimentos do corpo alinhando modelos com dados humanos reais.

Nossos testes mostram que esse novo método supera abordagens anteriores, mesmo quando treinado apenas com Dados Sintéticos. Isso abre portas para melhores maneiras de capturar movimentos humanos a partir de vídeos.

Introdução

Capturar movimento humano é essencial para várias aplicações. Sistemas que usam marcadores reflexivos são considerados o padrão ouro para rastreamento de movimento. No entanto, eles são caros e consomem muito tempo. Eles também limitam os movimentos naturais do corpo, tornando-os menos desejáveis.

Os sistemas de captura de movimento sem marcadores têm chamado a atenção pela sua relação custo-benefício. Esses sistemas dependem da estimativa dos movimentos do corpo com base em pontos 2D detectados. No entanto, muitos desses métodos enfrentam dificuldades porque muitas vezes usam dados que não são rotulados corretamente. Enquanto a imagem de raios-X poderia fornecer rótulos precisos, também é caro e impraticável para uso diário.

Além disso, não existem muitos conjuntos de dados grandes com dados precisos necessários para desenvolver sistemas confiáveis de rastreamento de movimento. Essa escassez torna difícil criar modelos que funcionem em várias situações.

Para enfrentar esses desafios, este trabalho se concentra em três estratégias principais:

  1. Criar dados sintéticos: Isso ajuda a superar o problema da falta de dados rotulados de alta qualidade.
  2. Adicionar Restrições biomecânicas: Isso garante que os movimentos preditos pelo modelo permaneçam realistas.
  3. Realizar experimentos detalhados: Isso demonstrará a capacidade do modelo de funcionar em diferentes conjuntos de dados.

A estimativa cinemática refere-se à compreensão de como as diferentes partes do corpo se movem umas em relação às outras ao longo do tempo. Estimar esse movimento com precisão é crucial para aplicações relacionadas à saúde e esportes, onde saber a pressão nas articulações é vital.

Sistemas que capturam movimento usando marcadores são bem aceitos nessa área. No entanto, como mencionado anteriormente, eles são caros e podem restringir o movimento natural. Como resultado, muitos pesquisadores estão buscando desenvolver métodos que não dependam de marcadores.

Avanços recentes em deep learning impulsionaram o progresso na estimativa de pose humana 3D. Combinando essas técnicas avançadas com modelos biomecânicos, podemos analisar os movimentos humanos de forma mais eficaz. No entanto, há uma lacuna notável entre esses dois campos de estudo.

O principal problema é que os dados de articulações 2D usados em métodos padrão de estimativa de pose podem frequentemente estar anatomica e incorretamente posicionados. Isso leva a erros nos dados cinemáticos 3D produzidos. Além disso, muitos métodos não levam em conta as restrições biomecânicas, resultando em movimentos que não parecem realistas.

A falta de grandes conjuntos de dados com dados de movimento 3D precisos é outro desafio significativo. A melhor maneira de capturar movimentos das articulações é através de técnicas de imagem, como raios-X, que não são práticas para uso frequente. Embora alguns conjuntos de dados tenham sido coletados usando sistemas com marcadores, eles geralmente sofrem com ruído e problemas de sincronização.

Este trabalho introduz um framework de captura de movimento sem marcadores que leva dois ângulos de vídeo como entrada. O método começa extraindo características desses vídeos. Em vez de identificar locais específicos das articulações do corpo, ele amostra pontos diretamente dos quadros. Dada a natureza dinâmica do movimento humano, essas características são ainda refinadas usando informações ao longo do tempo.

Para enfrentar a falta de conjuntos de dados com dados de movimento precisos, produzimos vídeos sintéticos integrando dados de várias fontes. Alinhamos o modelo esquelético com dados de movimento humano para criar um novo conjunto de dados. Esse conjunto de dados inclui variações em roupas, iluminação e ângulos de câmera, tornando-o mais realista.

Metodologia

Criando Dados Sintéticos

Para ajudar na captura e análise de movimento, criamos um conjunto de dados sintético que captura com precisão os movimentos humanos. Esse conjunto de dados combina um modelo esquelético com malhas e movimentos humanos derivados de outros conjuntos de dados. Fazendo isso, garantimos que os dados não sejam apenas precisos, mas também abrangentes em cobrir vários movimentos e aparências.

Para começar a gerar os dados sintéticos, alinhamos um modelo esquelético com malhas humanas. Em seguida, geramos sequências de movimento usando articulações e ângulos derivados de um conjunto de dados bem conhecido que captura movimentos diversos. Variando tipos de roupas, condições de iluminação e posições de câmera, melhoramos o realismo dos nossos vídeos sintéticos.

Arquitetura da Rede

O modelo proposto consiste em duas partes principais:

  1. Codificador de Características de Quadro: Esta parte processa cada quadro do vídeo de entrada para criar uma representação compacta das características.
  2. Refinamento de Características Espácio-Temporais: Esta parte melhora as características iniciais adicionando informações de vários quadros ao longo do tempo.

Os dados do vídeo capturados de dois ângulos diferentes são primeiro codificados em um conjunto de características. Em vez de exigir detecção explícita das articulações, amostramos pontos dentro do quadro. As características extraídas dos quadros são então refinadas para incorporar informações espaciais e temporais.

Função de Perda

O modelo usa uma combinação de diferentes funções de perda para garantir precisão nas previsões. Essas perdas ajudam o modelo a aprender de forma eficaz e melhorar suas previsões ao longo do tempo.

  1. Ângulos das Articulações: Medimos a diferença entre os ângulos de articulação previstos e os reais.
  2. Restrições Biomecânicas: Impomos regras que restringem os movimentos das articulações a faixas realistas para garantir a correção anatômica.
  3. Escalas dos Segmentos do Corpo: Acompanhamos as variações de tamanho das diferentes partes do corpo e garantimos que elas estejam alinhadas com as expectativas.
  4. Posições dos Pontos Chave: Também monitoramos as posições dos pontos-chave no corpo para garantir precisão durante o movimento.

Resultados

Realizamos testes extensivos em nosso conjunto de dados sintético, bem como em dois conjuntos de dados do mundo real para verificar a eficácia do nosso método proposto. Em todos os testes, nossa abordagem mostrou um desempenho superior em comparação com outros métodos, especificamente em termos de erros de ângulo das articulações e erros de posição das articulações 3D.

Não só nosso modelo se destacou em ambientes sintéticos, mas também conseguiu generalizar bem para configurações do mundo real. Essa é uma vantagem significativa, pois indica que nosso modelo pode ser aplicado de forma eficaz em uma variedade de cenários.

Os resultados dos nossos experimentos confirmam que os dados sintéticos que geramos são de alta qualidade. Isso permite que nosso modelo seja robusto e adaptável, abrindo caminho para futuros desenvolvimentos na área de captura de movimento.

Discussão

Embora o método proposto mostre grande promessa em melhorar a estimativa cinemática 3D, ele tem algumas limitações. A qualidade visual dos dados sintéticos e a variedade de movimentos representados precisam de mais desenvolvimento. Além disso, o tamanho da arquitetura do modelo pode precisar ser otimizado para aplicações do mundo real.

Trabalhos futuros podem se concentrar em melhorar a qualidade visual dos dados sintéticos usando técnicas de treinamento avançadas. Incluir uma variedade maior de ações humanas e poses de indivíduos reais também fortalecerá o desempenho do modelo.

Em conclusão, este trabalho apresenta uma nova abordagem de captura de movimento sem marcadores que demonstra um desempenho impressionante, especialmente quando treinada apenas com dados sintéticos. Os resultados indicam um forte potencial para aplicações no mundo real, particularmente em saúde e treinamento esportivo. O uso inovador de modelos biomecânicos combinado com técnicas de deep learning representa um passo positivo em frente no campo da análise de movimento.

Fonte original

Título: 3D Kinematics Estimation from Video with a Biomechanical Model and Synthetic Training Data

Resumo: Accurate 3D kinematics estimation of human body is crucial in various applications for human health and mobility, such as rehabilitation, injury prevention, and diagnosis, as it helps to understand the biomechanical loading experienced during movement. Conventional marker-based motion capture is expensive in terms of financial investment, time, and the expertise required. Moreover, due to the scarcity of datasets with accurate annotations, existing markerless motion capture methods suffer from challenges including unreliable 2D keypoint detection, limited anatomic accuracy, and low generalization capability. In this work, we propose a novel biomechanics-aware network that directly outputs 3D kinematics from two input views with consideration of biomechanical prior and spatio-temporal information. To train the model, we create synthetic dataset ODAH with accurate kinematics annotations generated by aligning the body mesh from the SMPL-X model and a full-body OpenSim skeletal model. Our extensive experiments demonstrate that the proposed approach, only trained on synthetic data, outperforms previous state-of-the-art methods when evaluated across multiple datasets, revealing a promising direction for enhancing video-based human motion capture

Autores: Zhi-Yi Lin, Bofan Lyu, Judith Cueto Fernandez, Eline van der Kruk, Ajay Seth, Xucong Zhang

Última atualização: 2024-03-05 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.13172

Fonte PDF: https://arxiv.org/pdf/2402.13172

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes