Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Apresentando o Motion Avatar: Uma Nova Maneira de Criar Personagens 3D Dinâmicos

Novo método cria avatares personalizáveis de humanos e animais a partir de descrições em texto.

― 10 min ler


Avatares Dinâmicos comAvatares Dinâmicos comAvatar em Movimentorealistas rapidão.Transformando texto em avatares
Índice

Recentemente, muita gente tem mostrado interesse em criar avatares e movimentos tridimensionais (3D). Esses avatares têm várias utilidades, como em filmes, jogos, realidade virtual e até na forma como os robôs interagem com os humanos. No entanto, a maioria dos métodos atuais foca em criar apenas o avatar ou os movimentos separadamente, tornando difícil juntar os dois aspectos de forma eficaz. Além disso, enquanto a maioria dos sistemas gera avatares para humanos, criar tecnologia parecida para animais tem sido complicado devido à falta de dados e métodos adequados. Nosso estudo apresenta uma nova abordagem chamada Motion Avatar, que ajuda a gerar automaticamente avatares humanos e animais personalizáveis com movimentos baseados em descrições textuais. Este artigo destaca três principais contribuições para enfrentar esses desafios.

Principais Contribuições

1. Abordagem Motion Avatar

Propusemos o Motion Avatar, um novo método que usa uma abordagem baseada em agente para criar avatares humanos e animais de alta qualidade e personalizáveis com movimentos usando apenas consultas de texto. Esse avanço representa um grande passo em direção à criação de personagens 3D dinâmicos, permitindo que os usuários gerem personagens realistas com movimentos naturais adaptados às suas necessidades.

2. Planejador LLM

A segunda contribuição é a introdução de um planejador LLM (Modelo de Linguagem Grande) que coordena tanto a geração de movimentos quanto a de avatares. Em vez de tratar o planejamento como uma tarefa rígida, esse planejador permite um processo mais flexível de perguntas e respostas, facilitando para os usuários conseguirem os avatares e movimentos que desejam.

3. Conjunto de Dados de Movimento Animal

Por fim, apresentamos um conjunto de dados chamado Zoo-300K, que contém cerca de 300.000 pares de texto e movimento em 65 categorias diferentes de animais. Este conjunto de dados visa preencher a lacuna nos dados de treinamento para movimentos de animais, fornecendo um recurso valioso para pesquisadores que trabalham nessa área.

Visão Geral do Motion Avatar

O Motion Avatar usa um método baseado em agente LLM para gerenciar solicitações de usuários e produzir prompts específicos. Esses prompts ajudam a gerar sequências de movimento e a criar malhas 3D. A geração de movimento acontece de forma passo a passo, enquanto a geração de malhas segue um framework que converte imagens em modelos 3D. Depois disso, a malha criada passa por um processo automático de rigging, que permite que os movimentos sejam aplicados à malha rigged.

Importância dos Avatares 3D Dinâmicos

A área de criação de avatares 3D dinâmicos é fundamental para diversas áreas, incluindo robótica, jogos e multimídia. O objetivo de fazer avatares animados de alta qualidade é algo que muitos na comunidade de visão computacional 3D almejam. Isso envolve não apenas a aparência dos avatares, mas também como eles funcionam e podem ser usados facilmente.

Métodos tradicionais geralmente pegam informações de vídeos e as analisam para criar avatares dinâmicos. Outros métodos misturam reconstrução 3D com técnicas de vídeo para animar malhas 3D. No entanto, esses métodos frequentemente enfrentam problemas como controle de movimento ruim ou inconsistências quando vistos de diferentes ângulos. Essas questões dificultam o uso eficaz de avatares dinâmicos em cenários do mundo real.

Progresso Atual

Avanços recentes na geração de movimentos a partir de texto usando vários modelos mostraram grande potencial. Essas melhorias tornaram mais fácil gerar sequências de movimento diretamente a partir de descrições escritas, trazendo uma nova abordagem para a geração de avatares. Ao mesmo tempo, os avanços na reconstrução e criação de malhas 3D também foram significativos. Apesar desse progresso, a maioria dos esforços ainda se concentra em fazer apenas o avatar ou o movimento de forma independente, e integrá-los com sucesso continua sendo um desafio.

Desafios com Animais

Embora muitas técnicas se concentrem na criação de avatares e movimentos para humanos, adaptar isso para animais é bem difícil. Essa dificuldade geralmente surge da falta de dados de treinamento e das limitações dos métodos existentes. Para expandir essas tecnologias de forma eficaz para incluir personagens animais, precisamos de novos métodos e uma compreensão mais profunda do comportamento animal.

Nossa Abordagem para Enfrentar Desafios

Para lidar com esses problemas, nossa pesquisa destaca as seguintes três contribuições principais:

1. Motion Avatar

Como mencionado, apresentamos o Motion Avatar. Essa abordagem permite que os usuários criem avatares humanos e animais personalizáveis com movimentos dinâmicos baseados apenas em suas entradas de texto. Essa inovação fornece um método aprimorado para gerar personagens 3D e permite mais flexibilidade e personalização.

2. Planejador LLM

Nosso planejador LLM ajuda a gerenciar o processo de geração de avatares e movimentos. Ele usa uma abordagem flexível que se adapta a futuras tarefas associadas à criação de avatares dinâmicos, garantindo que possa atender a um público mais amplo ao longo do tempo.

3. Conjunto de Dados de Movimento Animal - Zoo-300K

O conjunto de dados Zoo-300K forma uma parte significativa do nosso estudo. Ele contém cerca de 300.000 pares de descrições de texto e dados de movimento correspondentes cobrindo 65 categorias de animais. Este conjunto de dados abrangente pode ser usado para treinar modelos para entender melhor e gerar movimentos animais.

Trabalhos Relacionados

Geração de Movimento a partir de Texto

Criar movimento é essencial na visão computacional, com várias aplicações que vão desde animação em vídeo até controle de robôs. Um método bem conhecido nesse campo é chamado de geração Text-to-Motion, que conecta descrições textuais com dados de movimento em um espaço compartilhado. Grande parte da pesquisa se concentrou na geração de movimento humano.

Alguns métodos, como o MotionCLIP, utilizam modelos avançados para reconstruir sequências de movimentos enquanto garantem que estejam alinhados com os rótulos de texto correspondentes. Outros, como o MotionDiffuse, introduziram novas estruturas que usam modelos de difusão para gerar movimento com base em texto, mostrando resultados promissores.

No entanto, gerar movimento animal permanece mais desafiador devido à limitação de dados e representações inconsistentes. Alguns esforços recentes, como o OmniMotionGPT, buscam criar movimento animal realista a partir de descrições textuais, mostrando melhorias em relação aos métodos tradicionais.

Geração de Avatares

Pesquisas anteriores sobre a criação de avatares 3D frequentemente se inspiraram em técnicas que geram imagens 2D com base em texto. Muitos desses métodos treinavam modelos com base em descrições de texto ou usavam um processo passo a passo para criar avatares 3D detalhados. Algumas contribuições notáveis mostraram resultados impressionantes na geração de avatares 3D a partir de texto sem exigir suporte 3D direto.

Agentes LLM

Avanços recentes no uso de agentes LLM mostraram sua capacidade de imitar o raciocínio humano. Estudos introduziram agentes que planejam e se envolvem em atividades sociais de forma autônoma, marcando um progresso significativo em direção a sistemas inteligentes.

Criação do Conjunto de Dados Zoo-300K e ZooGen

Um grande desafio na criação de movimento animal realista é a falta de dados que incluam tanto movimentos de animais quanto descrições textuais. Embora existam muitos conjuntos de dados para movimento humano, os de animais são extremamente limitados.

Para resolver isso, criamos o conjunto de dados Zoo-300K, que consiste em cerca de 300.000 pares de descrições de texto e movimentos correspondentes de animais que abrangem várias categorias. A construção do conjunto de dados foi facilitada pelo ZooGen, um pipeline projetado para ajudar na criação de conjuntos de dados orientados por texto.

Processo do Pipeline

O pipeline ZooGen consiste em várias etapas. Inicialmente, usamos movimentos animais existentes de um conjunto de dados curado por humanos. Para cada movimento, treinamos modelos específicos para aprimorar e modificar os movimentos. Em seguida, empregamos modelos de linguagem avançados para descrever os movimentos em detalhes. Por fim, revisões feitas por humanos foram conduzidas para garantir a qualidade das descrições usadas no conjunto de dados Zoo-300K.

Conjunto de Dados de Movimento Humano

Para movimentos humanos, contamos com o conjunto de dados HumanML3D, que inclui uma coleção diversificada de mais de 14.000 instâncias de movimento pareadas com texto descritivo. Este conjunto de dados cobre uma grande variedade de ações, como dançar, exercitar-se e mais, fornecendo uma base bem equilibrada para avaliar a geração de movimento humano.

Conjunto de Dados QA de Avatares

Para melhorar nosso planejador LLM, desenvolvemos o conjunto de dados QA de avatares, que permite testar e ajustar o planejador. Este conjunto de dados contém vários exemplos de comandos de entrada e suas saídas correspondentes, visando avaliar quão bem o planejador pode reconhecer diferentes movimentos e categorias de animais com base em descrições em linguagem natural.

Design do Planejador LLM

O objetivo principal do planejador LLM é ajudar a extrair informações úteis dos prompts dos usuários com facilidade. Montamos o planejador usando uma estrutura específica para garantir que atenda às necessidades da geração de movimento de avatares. Ao treinar esse planejador por meio de ajuste de instrução, o adaptamos para identificar melhor diferentes movimentos e tipos de avatares solicitados pelos usuários.

Esse planejador pode gerar prompts necessários para a criação de movimento e avatares, agilizando o processo geral. Acreditamos que o planejador LLM irá aumentar sua capacidade de reconhecer os principais assuntos nos diálogos dos usuários, permitindo uma criação de animação mais versátil no futuro.

Processo de Geração de Movimento

A geração de movimento para avatares envolve um processo de treinamento em duas etapas. A primeira etapa inclui comprimir as sequências de movimento em um formato mais simples, que pode ser decodificado de volta para movimento para reconstrução.

Na segunda fase, treinamos simultaneamente diferentes modelos que podem prever e recriar os movimentos esperados com base nas descrições dadas. Isso permite que nosso sistema gere movimentos com precisão a partir de prompts de texto em tempo real.

Criação de Malha de Avatar

Para criar malhas de avatar, tivemos que começar com uma representação 2D do avatar. Para conseguir isso, usamos um framework de design que ajuda a converter imagens 2D em modelos 3D. Esse processo envolve várias etapas, incluindo a criação de uma representação 3D com base no design 2D, que é então usada para construir uma malha totalmente funcional.

Uma vez que a malha é criada, usamos métodos para rigá-la corretamente. Rigging é essencial, pois permite que os movimentos definidos anteriormente sejam transferidos para a malha de forma eficiente, garantindo que o avatar possa se mover como pretendido.

Avaliando o Planejador LLM

Avaliamo

Fonte original

Título: Motion Avatar: Generate Human and Animal Avatars with Arbitrary Motion

Resumo: In recent years, there has been significant interest in creating 3D avatars and motions, driven by their diverse applications in areas like film-making, video games, AR/VR, and human-robot interaction. However, current efforts primarily concentrate on either generating the 3D avatar mesh alone or producing motion sequences, with integrating these two aspects proving to be a persistent challenge. Additionally, while avatar and motion generation predominantly target humans, extending these techniques to animals remains a significant challenge due to inadequate training data and methods. To bridge these gaps, our paper presents three key contributions. Firstly, we proposed a novel agent-based approach named Motion Avatar, which allows for the automatic generation of high-quality customizable human and animal avatars with motions through text queries. The method significantly advanced the progress in dynamic 3D character generation. Secondly, we introduced a LLM planner that coordinates both motion and avatar generation, which transforms a discriminative planning into a customizable Q&A fashion. Lastly, we presented an animal motion dataset named Zoo-300K, comprising approximately 300,000 text-motion pairs across 65 animal categories and its building pipeline ZooGen, which serves as a valuable resource for the community. See project website https://steve-zeyu-zhang.github.io/MotionAvatar/

Autores: Zeyu Zhang, Yiran Wang, Biao Wu, Shuo Chen, Zhiyuan Zhang, Shiya Huang, Wenbo Zhang, Meng Fang, Ling Chen, Yang Zhao

Última atualização: 2024-08-30 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.11286

Fonte PDF: https://arxiv.org/pdf/2405.11286

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes