Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Melhorando a Estimação de Pose da Mão em Interações 3D

Novos métodos melhoram a precisão na detecção da posição das mãos durante as interações.

― 7 min ler


Aprimorando as TécnicasAprimorando as Técnicasde Estimativa de Pose dasMãosinterações manuais.Nova abordagem enfrenta desafios nas
Índice

Estimar a posição das mãos em um espaço 3D a partir de imagens é uma área de pesquisa bem popular. Muitas técnicas melhoraram a precisão dessa tarefa, mas ainda tem desafios significativos, especialmente quando duas mãos interagem. Quando as mãos se aproximam, elas podem se bloquear, dificultando a determinação precisa das posições.

Um grande problema é que os métodos tradicionais geralmente não levam em conta as restrições físicas que mantêm as posições das mãos realistas. Isso significa que, quando duas mãos são mostradas, elas podem se sobrepor ou se intersectar de forma errada. A gente propõe uma abordagem que usa um modelo específico para representar o espaço das mãos de forma mais eficaz, facilitando a evitação dessas intersecções.

O Desafio da Interação Mão a Mão

Interações mão a mão são complexas. Quando duas mãos estão perto, elas podem se bloquear. Isso se chama Oclusão. Além disso, os dedos podem se sobrepor, o que torna ainda mais difícil determinar onde cada mão está posicionada. Métodos simples, como tentar estimar ambas as mãos de forma independente, geralmente não trazem bons resultados. As interações entre as mãos podem fornecer informações úteis que facilitam a estimativa das posições delas.

Em estudos anteriores, pesquisadores tentaram enfrentar esses desafios usando métodos variados. Alguns usaram técnicas de otimização, enquanto outros começaram a aproveitar o aprendizado profundo. No entanto, esses métodos ainda enfrentam dificuldades quando se trata de modelar com precisão as interações entre duas mãos.

Trabalhos Relacionados

No passado, os pesquisadores focaram em estimar a posição de uma única mão, mas têm cada vez mais reconhecido a importância de estimar múltiplas mãos interagindo. As tentativas iniciais dependiam de métodos de otimização que usavam pontos identificáveis, bordas e outras características extraídas de imagens.

Com o crescimento do aprendizado profundo, novos métodos surgiram para ajudar nessa área. Várias técnicas são agora usadas para analisar imagens e aprender como estimar posições de mãos. Alguns pesquisadores usaram câmeras de profundidade para rastrear mãos, enquanto outros empregaram várias câmeras para coletar mais dados sobre as posições das mãos.

Outro método comum é usar modelos paramétricos específicos, como o modelo MANO, que simplifica a tarefa de representação da mão. Embora essas abordagens tenham mostrado melhorias, elas ainda enfrentam os desafios específicos impostos pela interação de duas mãos.

Nossa Abordagem

Neste trabalho, propomos uma estrutura abrangente para melhorar a estimativa das poses de mão em 3D em imagens, focando especificamente nas interações entre duas mãos. Nossa estrutura inclui uma nova forma de representar as formas das mãos e uma função de perda inovadora projetada para reduzir as intersecções entre as mãos.

Representação de Malha da Mão

Apresentamos um novo modelo de malha da mão, que é uma forma de representar a forma da mão de maneira mais eficaz do que os modelos tradicionais. Essa nova representação permite uma malha à prova d'água que garante que não haja buracos ou lacunas; isso é essencial para uma modelagem precisa. A malha é construída usando um esqueleto da mão e adiciona vértices para criar uma forma completa da mão.

Nosso modelo tem menos vértices do que o modelo MANO amplamente utilizado, tornando-o mais simples e fácil de trabalhar. Essa nova malha também é mais eficiente para modelar a forma volumétrica das mãos e pode ser criada rapidamente, o que é essencial para nossa rede de ocupação.

Rede de Ocupação

A parte central da nossa abordagem é uma rede de ocupação. Essa rede usa uma representação da forma da mão para determinar se um ponto no espaço 3D está dentro do volume da mão. A rede de ocupação proporciona uma representação contínua da mão que pode ajudar a identificar intersecções com precisão.

Quando duas mãos estão interagindo, precisamos verificar se um ponto está dentro do volume de alguma das mãos. A rede de ocupação nos permite modelar isso de forma eficaz. Ao codificar informações sobre a forma da mão, ela pode fornecer uma probabilidade de se um dado ponto está ocupado por uma das mãos.

Função de Perda de Interseção

Para otimizar o desempenho da nossa estrutura, introduzimos uma função de perda de interseção. Essa função aborda especificamente os desafios das mãos sobrepostas, minimizando a probabilidade de intersecções. Ela garante que, quando ambas as mãos são representadas no modelo, evitamos sobreposições irreais.

A perda de interseção funciona verificando os pontos da mão esquerda contra o modelo da mão direita e vice-versa. Essa verificação ajuda a impor restrições físicas sobre como as mãos podem interagir, resultando em estimativas mais realistas.

Experimentos e Resultados

Avaliamos nossa abordagem usando vários conjuntos de dados conhecidos, focando no conjunto de dados InterHand2.6M, que contém uma grande coleção de imagens mostrando mãos únicas e interagindo.

Desempenho no Conjunto de Dados InterHand2.6M

Usando nossos modelos treinados com a perda de interseção, notamos melhorias significativas tanto no erro médio para as articulações das mãos quanto na redução do número de interseções. Isso demonstrou que nosso método não só produz estimativas mais precisas, mas também lida melhor com as interações físicas entre as mãos do que abordagens anteriores.

Avaliação em Outros Conjuntos de Dados

Também testamos nossos modelos em outros conjuntos de dados, como os conjuntos de dados Re:InterHand e SMILE, que contêm cenários mais complexos, como a interpretação de linguagem de sinais. Os resultados desses conjuntos de dados confirmaram ainda mais que nosso método consistentemente reduz interseções de mãos e mantém um baixo erro médio na posição das articulações, provando sua eficácia em várias aplicações do mundo real.

Avaliação em Vídeos Reais

Para avaliar a aplicação prática do nosso modelo, realizamos avaliações usando vídeos do mundo real. Esses vídeos muitas vezes carecem de dados de referência precisos, tornando difícil medir a precisão. No entanto, nosso modelo melhorou com sucesso a qualidade das posições das mãos estimadas, mostrando o potencial da nossa abordagem em cenários práticos.

Conclusão

Nosso trabalho oferece uma melhoria significativa na estimativa das poses de mão 3D, especialmente quando duas mãos estão interagindo. Ao desenvolver uma nova parametrização de malha da mão, uma rede de ocupação para modelar volumes de mãos e uma função de perda de interseção que minimiza intersecções, criamos uma estrutura robusta.

Esse método aumenta a precisão da estimativa de poses de mão em vários conjuntos de dados enquanto reduz sobreposições irreais. Com mais testes e aplicações, nossa abordagem pode impactar consideravelmente os campos de visão computacional, interação humano-computador e reconhecimento de linguagem de sinais.

Fonte original

Título: Two Hands Are Better Than One: Resolving Hand to Hand Intersections via Occupancy Networks

Resumo: 3D hand pose estimation from images has seen considerable interest from the literature, with new methods improving overall 3D accuracy. One current challenge is to address hand-to-hand interaction where self-occlusions and finger articulation pose a significant problem to estimation. Little work has applied physical constraints that minimize the hand intersections that occur as a result of noisy estimation. This work addresses the intersection of hands by exploiting an occupancy network that represents the hand's volume as a continuous manifold. This allows us to model the probability distribution of points being inside a hand. We designed an intersection loss function to minimize the likelihood of hand-to-point intersections. Moreover, we propose a new hand mesh parameterization that is superior to the commonly used MANO model in many respects including lower mesh complexity, underlying 3D skeleton extraction, watertightness, etc. On the benchmark InterHand2.6M dataset, the models trained using our intersection loss achieve better results than the state-of-the-art by significantly decreasing the number of hand intersections while lowering the mean per-joint positional error. Additionally, we demonstrate superior performance for 3D hand uplift on Re:InterHand and SMILE datasets and show reduced hand-to-hand intersections for complex domains such as sign-language pose estimation.

Autores: Maksym Ivashechkin, Oscar Mendez, Richard Bowden

Última atualização: 2024-04-08 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2404.05414

Fonte PDF: https://arxiv.org/pdf/2404.05414

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes