Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanços na Estimação de Posição 3D com Câmeras de Profundidade

Novo método estima poses humanas em 3D usando câmeras de profundidade não calibradas.

― 8 min ler


Estimação de Pose 3D comEstimação de Pose 3D comCâmeras de Profundidadepreciso de poses humanas.Método inovador para rastreamento
Índice

Nos últimos anos, entender como as pessoas se movem em três dimensões a partir de diferentes ângulos de câmera se tornou uma área de estudo importante. Isso é especialmente verdadeiro para aplicações na saúde, esportes e entretenimento. O foco aqui é em como estimar as poses 3D de várias pessoas usando várias câmeras de profundidade que não estão perfeitamente alinhadas entre si. Esse processo é útil em várias áreas, mas tem seus desafios, principalmente quando as câmeras não estão calibradas.

Contexto

Métodos tradicionais para estimar poses 3D normalmente dependem de muitas câmeras RGB bem alinhadas ou câmeras de profundidade calibradas. Essas configurações geralmente exigem um arranjo preciso das câmeras para criar um modelo 3D preciso. Infelizmente, isso nem sempre é viável em situações do mundo real. Muitas áreas têm limitações, como obstruções ou menos ângulos de câmera, limitando a capacidade de capturar dados precisos sobre o movimento humano.

Objetivo

O objetivo principal é desenvolver um método que possa estimar as poses 3D de várias pessoas usando algumas câmeras de profundidade não calibradas. Essas câmeras fornecem não apenas imagens RGB, mas também informações de profundidade, que podem ajudar a criar modelos 3D mais precisos das poses humanas. Nossa abordagem visa funcionar de forma eficaz mesmo quando as câmeras não estão perfeitamente calibradas ou posicionadas.

Visão Geral do Método

O método proposto funciona em alguns passos claros:

  1. Detectar Poses 2D: O primeiro passo é identificar poses 2D a partir da visão de cada câmera usando um algoritmo de detecção de pose confiável.

  2. Extrair Recursos: Após obter as poses 2D, o próximo passo envolve extrair características 3D das Imagens RGB-D. Esses dados ajudam a conectar poses entre diferentes ângulos de câmera.

  3. Estimativa da Pose da Câmera: O método usa os recursos extraídos para estimar a posição e orientação de cada câmera.

  4. Estimativa da Pose 3D: Finalmente, usa a triangulação para criar uma representação 3D precisa das poses humanas com base nas posições das câmeras e nas características extraídas anteriormente.

Detalhes do Processo

Passo 1: Detectar Poses 2D

Para começar, usamos tecnologia existente que pode detectar corpos humanos em imagens. Isso é feito gerando caixas delimitadoras 2D ao redor dos indivíduos e identificando os pontos chave em seus corpos, como articulações. Com câmeras de profundidade, podemos aprimorar esse processo integrando informações de profundidade, o que ajuda a determinar a distância de cada ponto chave em relação à câmera.

Passo 2: Extrair Recursos 3D

Uma vez que as poses 2D são detectadas, precisamos conectar essas poses entre várias vistas. Para isso, extraímos características de aparência das imagens RGB-D, que incluem tanto os dados de cor quanto de profundidade. Usando um modelo especial projetado para dados 3D, conseguimos classificar e agrupar essas características para encontrar correspondências entre pontos chave de diferentes ângulos de câmera. Esse agrupamento é crucial, pois ajuda a fazer associações mais precisas entre indivíduos nas visões da câmera.

Passo 3: Estimativa da Pose da Câmera

Em seguida, focamos em descobrir a posição e orientação de cada câmera. O desempenho dessa estimativa depende muito da qualidade das características extraídas no passo anterior. Aplicamos técnicas geométricas junto com os dados de profundidade para melhorar a precisão. Considerando as relações espaciais entre os pontos chave observados nas imagens, conseguimos refinar as poses das câmeras e garantir que elas se alinhem com precisão à cena sendo observada.

Passo 4: Estimativa da Pose 3D

Depois de obter as poses das câmeras, podemos agora triangular as localizações 3D dos pontos chave identificados. Isso significa que usamos as posições das câmeras e as informações de pose 2D para reconstruir as coordenadas 3D dos corpos humanos. Para melhorar a qualidade dessas poses 3D, impomos restrições adicionais, como as propriedades físicas naturais dos corpos humanos, garantindo que os ossos tenham um certo comprimento e que os lados esquerdo e direito do corpo sejam simétricos.

Coleta de Dados

Para avaliar o método proposto, coletamos dados usando várias câmeras de profundidade em três ambientes distintos: um escritório, uma garagem e uma sala de aula. Cada local apresentou seus próprios desafios, como variações de iluminação e diferentes quantidades de desordem. Criamos um conjunto de dados que inclui vídeos sincronizados dessas câmeras, capturando pessoas enquanto se moviam por esses espaços.

No total, gravamos milhares de quadros, garantindo uma rica variedade de movimentos e interações. Cada quadro foi cuidadosamente anotado com as poses 3D verdadeiras, permitindo que avaliássemos a precisão de nossas estimativas.

Resultados

Depois de rodar nosso método nos conjuntos de dados coletados, avaliamos seu desempenho tanto na estimativa da pose da câmera quanto na estimativa da pose 3D. Os resultados sugerem que nossa abordagem supera métodos existentes que dependem de uma abordagem baseada em regressão, especialmente ao usar câmeras não calibradas.

Estimativa da Pose da Câmera

Nossos resultados mostraram uma redução notável nos erros tanto para a rotação quanto para a posição das câmeras em comparação com métodos tradicionais. Essa melhoria pode ser atribuída à integração de informações de profundidade, que ajuda a resolver ambigüidades que surgem ao usar apenas dados RGB.

Estimativa da Pose 3D

Ao avaliar a precisão das poses 3D, nosso método demonstrou uma alta porcentagem de partes do corpo corretamente estimadas. Ao incorporar restrições de profundidade, nossa abordagem reduziu efetivamente o ruído e os erros introduzidos durante o processo de triangulação.

Discussão

Vantagens

O método proposto traz várias vantagens. Primeiro, permite uma estimativa precisa da pose humana 3D usando menos câmeras em comparação com estratégias existentes. Isso o torna prático para aplicações do mundo real onde montar redes extensas de câmeras pode ser impraticável ou impossível.

Além disso, o uso de informações de profundidade melhora significativamente a capacidade de resolver problemas comuns enfrentados por métodos tradicionais apenas com RGB. Isso leva a resultados mais robustos e confiáveis.

Desafios

Apesar desses benefícios, ainda existem alguns desafios. Um grande desafio é garantir que todas as partes relevantes do corpo estejam visíveis para pelo menos uma câmera. Se partes do corpo estiverem bloqueadas por obstáculos, isso pode levar a dados incompletos e estimativas de pose imprecisas.

Fatores ambientais, como variações de iluminação e superfícies reflexivas, também podem impactar a qualidade das informações de profundidade. Portanto, é preciso dar atenção cuidadosa às condições sob as quais os dados são coletados.

Conclusão

Resumindo, o método proposto demonstra uma abordagem promissora para a estimativa de pose humana 3D usando câmeras de profundidade não calibradas. Ao aproveitar tanto os dados RGB quanto os de profundidade, podemos criar um framework confiável que funciona de forma eficaz em ambientes diversos. Os resultados de nossos experimentos mostram que nossa abordagem pode superar métodos existentes baseados em regressão, tornando-se uma contribuição valiosa para os campos da visão computacional e análise de movimento.

À medida que a tecnologia continua a avançar, há oportunidades empolgantes para melhorar este método, incluindo a incorporação de fontes de dados adicionais e o aprimoramento dos algoritmos usados para estimativa de pose. As possíveis aplicações deste trabalho abrangem vários domínios, sugerindo um futuro brilhante para a estimativa de pose humana 3D.

Trabalhos Futuros

Olhando para o futuro, várias avenidas podem ser exploradas para aprimorar e expandir este trabalho. Essas incluem:

  1. Melhorar as Técnicas de Coleta de Dados: Coletar dados em ambientes mais variados e com diferentes tipos de interações poderia ajudar a melhorar a robustez dos modelos.

  2. Integrar Mais Sensores: Usar tipos adicionais de sensores, como LiDAR, junto com câmeras RGB-D poderia melhorar ainda mais a precisão e confiabilidade das estimativas de pose.

  3. Processamento em Tempo Real: Desenvolver métodos que permitam o processamento em tempo real dos dados poderia abrir novas possibilidades para aplicações em áreas como jogos, segurança e saúde.

  4. Estudos de Interação do Usuário: Realizar estudos que envolvem sujeitos humanos interagindo com a tecnologia pode fornecer insights valiosos sobre como esses sistemas podem ser melhorados para uso prático.

Em conclusão, o campo da estimativa de pose humana 3D está repleto de potencial. Com pesquisa e desenvolvimento contínuos, melhorias significativas podem ser feitas em métodos existentes, levando a aplicações mais precisas e versáteis em várias áreas.

Fonte original

Título: Multi-Person 3D Pose Estimation from Multi-View Uncalibrated Depth Cameras

Resumo: We tackle the task of multi-view, multi-person 3D human pose estimation from a limited number of uncalibrated depth cameras. Recently, many approaches have been proposed for 3D human pose estimation from multi-view RGB cameras. However, these works (1) assume the number of RGB camera views is large enough for 3D reconstruction, (2) the cameras are calibrated, and (3) rely on ground truth 3D poses for training their regression model. In this work, we propose to leverage sparse, uncalibrated depth cameras providing RGBD video streams for 3D human pose estimation. We present a simple pipeline for Multi-View Depth Human Pose Estimation (MVD-HPE) for jointly predicting the camera poses and 3D human poses without training a deep 3D human pose regression model. This framework utilizes 3D Re-ID appearance features from RGBD images to formulate more accurate correspondences (for deriving camera positions) compared to using RGB-only features. We further propose (1) depth-guided camera-pose estimation by leveraging 3D rigid transformations as guidance and (2) depth-constrained 3D human pose estimation by utilizing depth-projected 3D points as an alternative objective for optimization. In order to evaluate our proposed pipeline, we collect three video sets of RGBD videos recorded from multiple sparse-view depth cameras and ground truth 3D poses are manually annotated. Experiments show that our proposed method outperforms the current 3D human pose regression-free pipelines in terms of both camera pose estimation and 3D human pose estimation.

Autores: Yu-Jhe Li, Yan Xu, Rawal Khirodkar, Jinhyung Park, Kris Kitani

Última atualização: 2024-01-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2401.15616

Fonte PDF: https://arxiv.org/pdf/2401.15616

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes