Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanços na Geração de Poses de Mão Humana Digital

Um novo método melhora o realismo dos gestos das mãos em modelos humanos digitais.

― 7 min ler


Nova Método para GeraçãoNova Método para Geraçãode Gestos com as Mãosdas mãos em humanos digitais.Abordagem inovadora melhora as poses
Índice

Avanços recentes em inteligência artificial melhoraram muito a capacidade de criar imagens e vídeos. Uma área empolgante é a dos humanos digitais, que estão se tornando cada vez mais importantes em vários ambientes digitais. No entanto, enquanto esses modelos de humanos digitais conseguem gerar poses corporais com precisão com base em dados de esqueletos, eles têm dificuldades para produzir gestos realistas com as mãos. Isso se deve, em grande parte, à complexidade dos movimentos das mãos e à falta de dados detalhados sobre as mãos nos modelos existentes.

Este artigo fala sobre um novo método para enfrentar esses desafios, especificamente na geração de poses de mãos de alta qualidade para humanos digitais. Refinando um grande conjunto de dados e usando várias técnicas, o objetivo é melhorar a precisão e o realismo das representações de humanos digitais.

O Problema com os Modelos Atuais

As técnicas atuais de geração de humanos digitais costumam depender de dados de várias fontes, mas geralmente não capturam os detalhes intrincados dos gestos das mãos. Dois motivos principais contribuem para esse problema:

  1. Movimentos Complexos das Mãos: As mãos estão envolvidas em uma ampla gama de movimentos que são difíceis de descrever ou capturar. Como resultado, há uma falta de anotações de alta qualidade para poses de mãos em muitos conjuntos de dados.

  2. Métodos de Treinamento Limitados: Muitos métodos de treinamento atuais não se concentram especificamente nas características das mãos, levando a um desempenho ruim quando o modelo tenta gerar gestos detalhados das mãos.

Apesar das regiões das mãos nas imagens serem ricas em informações, os modelos existentes costumam ignorar esse aspecto. Para melhorar o desempenho, é crucial usar cenas que contenham um grande número de movimentos das mãos, como a língua de sinais.

Utilizando o Conjunto de Dados How2Sign

Para enfrentar os desafios da geração de gestos de mãos, utilizamos o conjunto de dados How2Sign, que inclui uma variedade de vídeos em língua de sinais. Esse conjunto é particularmente valioso porque mostra gestos e movimentos complexos das mãos. Para melhorar o conjunto de dados, selecionamos cuidadosamente quadros claros e de alta qualidade, permitindo que forneçamos dados precisos para o treinamento.

Além disso, introduzimos diferentes tipos de anotações, como anotações de esqueleto, profundidade e normais de superfície. Cada tipo oferece pontos fortes e fracos únicos, então, combiná-los nos permite criar um conjunto de treinamento mais abrangente.

Fusão Adaptativa de Controle Multimodal

Para melhorar o desempenho do modelo, desenvolvemos um sistema que combina diferentes tipos de dados de controle, como informações de profundidade e esqueleto. Essa abordagem de fusão adaptativa de controle multimodal permite que o modelo aprenda com todos os dados disponíveis, melhorando a precisão geral das poses geradas.

A rede de fusão é projetada para trabalhar com esses vários tipos de dados, ajustando dinamicamente quão peso é dado a cada tipo de informação com base em sua relevância a qualquer momento. Isso significa que, se um tipo de dado estiver confuso ou contraditório, o modelo pode confiar mais nos outros que estão mais claros, ajudando a gerar melhores resultados.

Perda Cíclica Consciente da Região (RACL)

Além da rede de fusão adaptativa, implementamos uma nova técnica de treinamento chamada Perda Cíclica Consciente da Região (RACL). Esse método foca em melhorar a qualidade de regiões específicas, como as mãos, enquanto mantém a precisão geral da pose do corpo.

A RACL funciona medindo a distância entre pontos-chave das imagens geradas e as imagens ideais de verdade. Ao enfatizar a importância dos pontos-chave das mãos durante o treinamento, incentivamos o modelo a gerar gestos de mãos mais precisos sem negligenciar a qualidade da pose geral.

Pipeline de Pré-processamento de Dados

Para garantir a qualidade dos dados usados para o treinamento, estabelecemos um pipeline de pré-processamento de dados abrangente. Esse pipeline inclui dois passos principais:

  1. Limpeza de Dados: Filtramos imagens com desfoque de movimento ou informações incompletas de pontos-chave para garantir que apenas quadros claros com anotações precisas sejam usados para o treinamento.

  2. Re-anotação de Dados: As imagens filtradas passam por uma segunda rodada de anotações para incluir informações de profundidade e normais de superfície. Isso ajuda a criar um conjunto de dados mais rico que captura detalhes essenciais sobre a aparência e os movimentos dos personagens.

Pipeline de Treinamento do Modelo

O treinamento do modelo envolve o uso da rede de fusão de controle multimodal adaptativa em conjunto com a RACL para refinar a geração de poses de mãos. Ao treinar com o conjunto de dados melhorado com anotações multimodais, o modelo aprende a alinhar suas saídas com as verdadeiras posições dos pontos-chave, particularmente nas mãos, que é crítico para gerar gestos de mãos realistas.

Métricas de Avaliação

Para avaliar a eficácia dos nossos métodos, utilizamos métricas específicas para a região das mãos, incluindo:

  • Hand-PSNR: Essa métrica mede a qualidade das imagens de mãos geradas em comparação com imagens reais, com valores mais altos indicando melhor qualidade.

  • Hand-Distance: Isso mede a precisão dos pontos-chave das mãos nas imagens geradas ao calcular a distância euclidiana dos pontos-chave de verdade. Valores mais baixos indicam melhor precisão.

Resultados e Descobertas

Após implementar a fusão de controle multimodal adaptativa e a RACL, observamos melhorias significativas na qualidade das poses de mãos geradas. Nossos resultados experimentais mostraram que o modelo treinado com as técnicas propostas teve um desempenho melhor do que aqueles que usaram um único tipo de dado.

As anotações de normais de superfície se mostraram particularmente eficazes, fornecendo detalhes ricos para as poses das mãos. No entanto, ao usar múltiplas modalidades, o modelo se beneficia das forças de cada tipo, levando a um desempenho geral superior.

Comparação com Métodos Existentes

Nossa abordagem mostrou que usar múltiplas modalidades de controle permite maior flexibilidade e precisão na geração de humanos digitais em comparação com métodos anteriores que se concentravam principalmente em dados esqueléticos. A capacidade de lidar com dados conflitantes de diferentes fontes também aumenta a confiabilidade do modelo.

Além disso, a eficácia da RACL em guiar o foco do modelo nos gestos das mãos ajuda a evitar overfitting, tornando possível alcançar resultados de alta qualidade sem sacrificar a precisão de outras partes do corpo.

Conclusão

Esta pesquisa delineia uma nova estrutura para gerar poses de mãos precisas e detalhadas na síntese de humanos digitais. Ao focar na melhoria do conjunto de dados, integração adaptativa de dados e funções de perda inovadoras, conseguimos enfrentar os desafios enfrentados pelos modelos atuais.

A combinação do conjunto de dados How2Sign, fusão adaptativa de controle multimodal e RACL demonstra avanços significativos na geração de humanos digitais, enfatizando a importância de gestos de mão de alta qualidade na criação de representações realistas. Com essas melhorias, esperamos por mais desenvolvimentos em aplicações de humanos digitais em várias áreas, destacando o potencial dessa tecnologia para futuros avanços em IA e aprendizado de máquina.

Fonte original

Título: Adaptive Multi-Modal Control of Digital Human Hand Synthesis Using a Region-Aware Cycle Loss

Resumo: Diffusion models have shown their remarkable ability to synthesize images, including the generation of humans in specific poses. However, current models face challenges in adequately expressing conditional control for detailed hand pose generation, leading to significant distortion in the hand regions. To tackle this problem, we first curate the How2Sign dataset to provide richer and more accurate hand pose annotations. In addition, we introduce adaptive, multi-modal fusion to integrate characters' physical features expressed in different modalities such as skeleton, depth, and surface normal. Furthermore, we propose a novel Region-Aware Cycle Loss (RACL) that enables the diffusion model training to focus on improving the hand region, resulting in improved quality of generated hand gestures. More specifically, the proposed RACL computes a weighted keypoint distance between the full-body pose keypoints from the generated image and the ground truth, to generate higher-quality hand poses while balancing overall pose accuracy. Moreover, we use two hand region metrics, named hand-PSNR and hand-Distance for hand pose generation evaluations. Our experimental evaluations demonstrate the effectiveness of our proposed approach in improving the quality of digital human pose generation using diffusion models, especially the quality of the hand region. The source code is available at https://github.com/fuqifan/Region-Aware-Cycle-Loss.

Autores: Qifan Fu, Xiaohang Yang, Muhammad Asad, Changjae Oh, Shanxin Yuan, Gregory Slabaugh

Última atualização: 2024-09-13 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.09149

Fonte PDF: https://arxiv.org/pdf/2409.09149

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes