Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanços na Recuperação de Formas 3D a partir de Vídeos

Um novo método melhora a precisão e a eficiência na captura de formas 3D de várias pessoas.

― 5 min ler


Avanço na Recuperação deAvanço na Recuperação deFormas 3Drastreamento 3D de várias pessoas.Novo método melhora a eficiência do
Índice

Recuperar formas 3D de várias pessoas a partir de vídeos é super importante pra entender interações em várias situações, tipo realidade virtual e terapia física. Os métodos tradicionais dependem de várias etapas, que incluem detectar e rastrear cada pessoa uma de cada vez. Essa abordagem em várias etapas tem suas limitações porque não considera como as pessoas interagem ao longo do tempo, resultando em problemas de precisão.

A Nova Abordagem: CoordFormer

Pra superar esses desafios, foi apresentada uma nova abordagem chamada CoordFormer. Esse método consegue recuperar várias formas 3D em uma só etapa, ao contrário dos métodos mais antigos que precisam de várias etapas. O CoordFormer aprende diretamente como as pessoas se relacionam no espaço e no tempo, tornando tudo mais rápido e eficiente.

Como Funciona o CoordFormer

O CoordFormer usa um tipo especial de mecanismo de atenção chamado Atenção Consciente da Coordenação (CAA). Esse mecanismo ajuda a manter detalhes precisos no nível do pixel enquanto rastreia as posições das pessoas no vídeo. Também tem uma técnica chamada Atenção do Centro do Corpo (BCA), que foca nas prováveis posições do centro do corpo de cada pessoa. A combinação dessas técnicas permite que o CoordFormer produza resultados melhores do que os métodos anteriores.

Melhorias de Desempenho

Testes em um conjunto de dados conhecido como 3DPW mostraram que o CoordFormer se saiu melhor do que os melhores métodos anteriores. Ele conseguiu reduzir os erros nas medições em porcentagens notáveis e também foi 40% mais rápido. Isso significa que o CoordFormer consegue recuperar formas 3D de maneira mais precisa e rápida em comparação com os métodos antigos.

Como Outros Métodos Funcionam

A maioria dos métodos existentes para a recuperação de formas 3D a partir de vídeos opera em duas etapas principais. Primeiro, eles usam um sistema de detecção de pessoas bidimensional (2D) pra encontrar indivíduos nos vídeos. Depois, eles rastreiam essas pessoas em diferentes quadros. Esse método em duas etapas geralmente enfrenta dificuldades quando as pessoas se sobrepõem ou quando há imprecisões na detecção. O desempenho depende muito das etapas de detecção e rastreamento, resultando em tempos de processamento mais lentos e potenciais imprecisões.

Benefícios do Método de Uma Etapa

Com o design de uma única etapa do CoordFormer, o sistema aprende a detectar e rastrear pessoas ao mesmo tempo. Essa abordagem cria várias sequências de formas 3D de uma vez, tornando todo o processo mais eficiente. O novo modelo também capta como as pessoas se movem juntas, ajudando a entregar formas 3D mais realistas.

Recursos Principais do CoordFormer

O CoordFormer integra duas inovações principais pra melhorar seu desempenho. O mecanismo de Atenção do Centro do Corpo permite que o modelo foque onde as pessoas estão no vídeo. Esse foco possibilita uma melhor extração das características relevantes necessárias pra criar formas 3D precisas. A Atenção Consciente da Coordenação mantém o rastreio dos detalhes no nível do pixel, garantindo que as formas representem com precisão os movimentos da pessoa enquanto interage com outras.

Resultados Experimentais

O desempenho do CoordFormer foi validado através de testes extensivos no conjunto de dados 3DPW, conhecido por sua complexidade. Os resultados mostraram que ele superou significativamente os métodos anteriores em termos de precisão. Essas descobertas ressaltaram a importância de entender as posições e movimentos de várias pessoas nos vídeos, fundamental pra aplicações como interações virtuais ou terapias de reabilitação.

Aplicações no Mundo Real

As melhorias oferecidas pelo CoordFormer podem beneficiar várias áreas, especialmente aquelas que precisam analisar o comportamento de grupos. Por exemplo, em ambientes de realidade virtual, o rastreamento preciso de múltiplos usuários melhora a experiência geral. Similarmente, na terapia física, entender como os pacientes se movem pode levar a melhores planos de tratamento.

Limitações Atuais e Direções Futuras

Embora o CoordFormer mostre grande potencial, ele ainda tem limitações. Atualmente, ele tem dificuldades em recuperar formas de pessoas que estão completamente ocultas da vista. Pesquisas futuras poderiam focar em maneiras de melhorar o processo de recuperação para indivíduos ocluídos, utilizando as informações temporais capturadas nos dados do vídeo.

Conclusão

A introdução do CoordFormer representa um passo significativo na recuperação de formas 3D de múltiplas pessoas a partir de vídeos. Ao combinar detecção, rastreamento e modelagem de formas em uma única etapa, oferece uma solução mais eficiente e precisa em comparação com os métodos tradicionais de várias etapas. À medida que a tecnologia avança, o CoordFormer pode abrir novas avenidas pra pesquisas e aplicações na compreensão do comportamento em grupo em diversas situações.

Fonte original

Título: Coordinate Transformer: Achieving Single-stage Multi-person Mesh Recovery from Videos

Resumo: Multi-person 3D mesh recovery from videos is a critical first step towards automatic perception of group behavior in virtual reality, physical therapy and beyond. However, existing approaches rely on multi-stage paradigms, where the person detection and tracking stages are performed in a multi-person setting, while temporal dynamics are only modeled for one person at a time. Consequently, their performance is severely limited by the lack of inter-person interactions in the spatial-temporal mesh recovery, as well as by detection and tracking defects. To address these challenges, we propose the Coordinate transFormer (CoordFormer) that directly models multi-person spatial-temporal relations and simultaneously performs multi-mesh recovery in an end-to-end manner. Instead of partitioning the feature map into coarse-scale patch-wise tokens, CoordFormer leverages a novel Coordinate-Aware Attention to preserve pixel-level spatial-temporal coordinate information. Additionally, we propose a simple, yet effective Body Center Attention mechanism to fuse position information. Extensive experiments on the 3DPW dataset demonstrate that CoordFormer significantly improves the state-of-the-art, outperforming the previously best results by 4.2%, 8.8% and 4.7% according to the MPJPE, PAMPJPE, and PVE metrics, respectively, while being 40% faster than recent video-based approaches. The released code can be found at https://github.com/Li-Hao-yuan/CoordFormer.

Autores: Haoyuan Li, Haoye Dong, Hanchao Jia, Dong Huang, Michael C. Kampffmeyer, Liang Lin, Xiaodan Liang

Última atualização: 2023-08-20 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.10334

Fonte PDF: https://arxiv.org/pdf/2308.10334

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes