Sci Simple

New Science Research Articles Everyday

# Informática # Visão computacional e reconhecimento de padrões

SqueezeMe: O Futuro dos Avatares de VR

Avatares realistas melhoram as experiências de realidade virtual em reuniões e jogos.

Shunsuke Saito, Stanislav Pidhorskyi, Igor Santesteban, Forrest Iandola, Divam Gupta, Anuj Pahuja, Nemanja Bartolovic, Frank Yu, Emanuel Garbin, Tomas Simon

― 6 min ler


Avatares VR da Próxima Avatares VR da Próxima Geração experiências virtuais. Avatares realistas vão transformar as
Índice

No mundo da realidade virtual (RV), uma das principais metas sempre foi criar Avatares humanos realistas. Esses avatares são representações digitais de pessoas que podem se mover e interagir em um espaço virtual, assim como na vida real. O desafio? Fazer com que eles pareçam bons enquanto garantimos que possam ser controlados Em tempo real – pense neles como seus alter egos virtuais, prontos para a ação a qualquer momento.

A Busca pelo Realismo

Imagina entrar em uma reunião ou jogo virtual e ver avatares parecidos com a vida real interagindo entre si. Não seria incrível? O objetivo sempre foi simular interações humanas de forma eficaz. Para isso, os avatares precisam espelhar as aparências e movimentos de pessoas reais de forma convincente. Isso significa que eles têm que se comportar como você quando acena com as mãos, balança a cabeça ou até faz careta (todos temos esses momentos, né?).

Tradicionalmente, criar esses avatares exigia computadores desktop potentes, o que complicava o uso deles em dispositivos portáteis como headsets de RV. Mas e se pudesse criar um sistema que permitisse que vários avatares aparecessem em um headset sem comprometer a qualidade? É aí que a diversão começa!

Conheça o SqueezeMe

Apresentamos o SqueezeMe, uma abordagem engenhosa para criar avatares que parecem incríveis e podem ser renderizados em movimento! Essa técnica usa uma coisa chique chamada Gaussian Splatting, que permite que os avatares sejam de alta qualidade e eficientes. Pense no Gaussian splatting como uma nova maneira de pintar seu avatar – é como usar uma lata de spray digital que consegue criar detalhes intrincados como cabelo e roupas de um jeito que os métodos antigos não conseguem acompanhar.

O Desafio

Métodos anteriores para criar esses avatares muitas vezes enfrentavam dificuldades com o desempenho em tempo real, exigindo um poder computacional pesado. O resultado era que apenas um avatar conseguia funcionar por vez em um headset, o que é menos divertido quando você quer interagir com amigos ou colegas em um espaço virtual. Portanto, o objetivo principal era desenvolver um sistema que pudesse operar suavemente em headsets de RV, tornando possível que múltiplos avatares fossem exibidos e manipulados ao mesmo tempo.

A Magia do Gaussian Splatting

O Gaussian Splatting funciona usando pontos (ou "splats") para representar partes de um avatar. Cada um desses splats carrega informações como cor e opacidade, permitindo animações e transições suaves. Esse método é especialmente bom para mostrar detalhes complexos como o movimento do cabelo ou as rugas nas roupas.

No entanto, o trabalho pesado de transformar esse splatting em algo que funcione em um dispositivo portátil como um headset de RV enfrentou alguns obstáculos. O Decodificador, que ajuda a animar os avatares, e o processo de renderização foram identificados como os principais gargalos. Pense nisso como engarrafamentos no mundo virtual – precisávamos encontrar maneiras de manter os veículos (ou dados) se movendo suavemente!

Simplificando o Processo

Para resolver esses engarrafamentos, técnicas inteligentes foram introduzidas:

  1. Treinamento no espaço UV: Em vez de usar treinamento baseado em pixels tradicionais, os avatares foram treinados em um espaço UV, o que permite um processamento mais rápido e eficiente.

  2. Destilação de Camada Única: Simplificando o decodificador em uma única camada, o processo se torna mais rápido. É como passar de uma refeição de vários pratos para um lanche rápido – ainda delicioso, mas muito mais ágil!

  3. Compartilhamento Solidário: Os splats próximos agora podem compartilhar uma única entrada corretiva do decodificador. Imagine um grupo de amigos. Se todos compartilham sua pizza em vez de cada um pedir a sua, podem economizar tempo e recursos!

O Resultado?

Quando essas mudanças se juntaram, o SqueezeMe alcançou algo incrível: conseguiu fazer três avatares rodarem a 72 quadros por segundo (FPS) no headset Meta Quest 3. Para colocar isso em perspectiva, é como fazer malabarismo com três pinos de boliche enquanto anda de monociclo – coordenação e habilidade impressionantes!

Avatares Realistas em Ação

Os avatares criados com esse sistema não são apenas para exibição; eles são controlados por entrada de vídeo em tempo real. Então, se você acena a mão na frente de uma câmera, seu avatar faz o mesmo no mundo virtual. Isso significa que você pode realmente se expressar em RV, tornando reuniões, jogos e outras experiências mais envolventes.

A Curva de Aprendizado

Embora a jornada para criar o SqueezeMe tenha sido promissora, não foi sem os seus percalços. Por exemplo, alguns problemas ainda aparecem em áreas específicas, especialmente com detalhes finos como mãos ou bordas de roupas. Às vezes, os avatares podem parecer um pouco borrados ou perder a nitidez. Mas, ei, assim como qualquer super-herói tem que aprender a usar seus poderes, esses avatares ainda estão em treinamento!

As Ferramentas por Trás da Magia

A tecnologia que impulsiona essa mágica dos avatares não é apenas um software simples; está fortemente entrelaçada com hardware complexo. O headset Meta Quest 3, por exemplo, incorpora vários elementos de processamento, incluindo CPUs ARM e uma GPU móvel. Juntos, eles permitem que os avatares sejam visualizados em tempo real de uma maneira que parece quase realista.

Aplicações no Mundo Real

Então, por que tudo isso importa? Bem, as implicações são enormes:

  • Reuniões e Colaboração: Imagine poder participar de uma reunião onde seu avatar interage com outros, mostrando emoções e movimentos reais. Em vez de ver apenas uma grade de rostos na tela, você veria uma representação animada de todos os envolvidos.

  • Jogos: Em jogos multiplayer, ter avatares realistas pode melhorar a experiência, fazendo você se sentir como se estivesse realmente lutando ao lado de seus amigos, em vez de apenas controlar um personagem na tela.

  • Interação Social: Os amigos poderiam se encontrar em espaços virtuais, com avatares que refletem seus humores e personalidades quase perfeitamente.

Conclusão: O Futuro da Interação Virtual

À medida que essa tecnologia avança, podemos esperar ver interações mais realistas em RV. A capacidade de criar e controlar avatares realistas localmente em dispositivos abre um leque infinito de possibilidades para jogos, reuniões e muito mais. É como entrar em uma nova dimensão onde você pode realmente ser você mesmo, sem os engarrafamentos dos métodos anteriores.

No fim das contas, o SqueezeMe não é só sobre fazer avatares parecerem bons; é sobre expandir os limites do que é possível na realidade virtual. Então, fique de olho – o mundo dos avatares em RV está só começando, e quem sabe que tipo de experiências divertidas nos aguardam logo ali na frente!

Fonte original

Título: SqueezeMe: Efficient Gaussian Avatars for VR

Resumo: Gaussian Splatting has enabled real-time 3D human avatars with unprecedented levels of visual quality. While previous methods require a desktop GPU for real-time inference of a single avatar, we aim to squeeze multiple Gaussian avatars onto a portable virtual reality headset with real-time drivable inference. We begin by training a previous work, Animatable Gaussians, on a high quality dataset captured with 512 cameras. The Gaussians are animated by controlling base set of Gaussians with linear blend skinning (LBS) motion and then further adjusting the Gaussians with a neural network decoder to correct their appearance. When deploying the model on a Meta Quest 3 VR headset, we find two major computational bottlenecks: the decoder and the rendering. To accelerate the decoder, we train the Gaussians in UV-space instead of pixel-space, and we distill the decoder to a single neural network layer. Further, we discover that neighborhoods of Gaussians can share a single corrective from the decoder, which provides an additional speedup. To accelerate the rendering, we develop a custom pipeline in Vulkan that runs on the mobile GPU. Putting it all together, we run 3 Gaussian avatars concurrently at 72 FPS on a VR headset. Demo videos are at https://forresti.github.io/squeezeme.

Autores: Shunsuke Saito, Stanislav Pidhorskyi, Igor Santesteban, Forrest Iandola, Divam Gupta, Anuj Pahuja, Nemanja Bartolovic, Frank Yu, Emanuel Garbin, Tomas Simon

Última atualização: 2024-12-20 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2412.15171

Fonte PDF: https://arxiv.org/pdf/2412.15171

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes