Sci Simple

New Science Research Articles Everyday

# Informática # Visión por Computador y Reconocimiento de Patrones

SqueezeMe: El Futuro de los Avatares VR

Los avatares realistas mejoran las experiencias de realidad virtual para reuniones y juegos.

Shunsuke Saito, Stanislav Pidhorskyi, Igor Santesteban, Forrest Iandola, Divam Gupta, Anuj Pahuja, Nemanja Bartolovic, Frank Yu, Emanuel Garbin, Tomas Simon

― 6 minilectura


Avatares de VR de nueva Avatares de VR de nueva generación transformar las experiencias virtuales. Avatares realistas listos para
Tabla de contenidos

En el mundo de la realidad virtual (VR), uno de los principales objetivos siempre ha sido crear Avatares humanos realistas. Estos avatares son representaciones digitales de personas que pueden moverse e interactuar en un espacio virtual, igual que en la vida real. ¿El reto? Hacer que se vean bien y que puedan ser controlados En tiempo real – piensa en ellos como tus alter egos virtuales, listos para la acción en cualquier momento.

La Búsqueda del Realismo

Imagina entrar a una reunión virtual o a un juego y ver avatares que parecen de verdad interactuando entre ellos. ¿No sería emocionante? El objetivo ha sido simular interacciones humanas reales de manera efectiva. Para hacer esto, los avatares necesitan reflejar las apariencias y movimientos de las personas reales de una manera convincente. Esto significa que tienen que comportarse como tú cuando mueves las manos, asientes con la cabeza o incluso frunces el ceño (todos tenemos esos momentos, ¿verdad?).

Tradicionalmente, renderizar tales avatares requería computadoras de escritorio potentes, lo que dificultaba su uso en dispositivos portátiles como visores de VR. Pero, ¿y si pudiéramos crear un sistema que permitiera que múltiples avatares aparecieran en un visor sin comprometer la calidad? ¡Aquí es donde comienza la diversión!

Conoce SqueezeMe

Te presento a SqueezeMe, un enfoque ingenioso para crear avatares que se ven increíbles y pueden ser renderizados sobre la marcha. Esta técnica usa algo sofisticado llamado Gaussian Splatting, que permite que los avatares sean de alta calidad y eficientes. Piensa en el Gaussian splatting como una nueva forma de pintar tu avatar – es como usar una lata de spray digital que puede crear detalles intrincados como el cabello y la ropa de una manera que los métodos más antiguos no pueden igualar.

El Reto

Los métodos anteriores para crear estos avatares a menudo luchaban con el rendimiento en tiempo real, requiriendo un gran poder computacional. El resultado era que solo un avatar podía funcionar a la vez en un visor, lo cual es menos divertido cuando quieres interactuar con amigos o colegas en un espacio virtual. Por lo tanto, el objetivo principal era desarrollar un sistema que pudiera operar sin problemas en visores de VR, haciendo posible que múltiples avatares se mostraran y manipulaban simultáneamente.

La Magia del Gaussian Splatting

El Gaussian Splatting funciona usando puntos (o "splats") para representar partes de un avatar. Cada uno de estos "splats" lleva información como color y opacidad, lo que permite animaciones y transiciones suaves. Este método es particularmente bueno para mostrar detalles complejos como el flujo del cabello o las arrugas en la ropa.

Sin embargo, el trabajo pesado involucrado en convertir este splatting en algo que pueda funcionar en un dispositivo portátil como un visor de VR enfrentó algunos obstáculos. El Decodificador, que ayuda a animar los avatares, y el proceso de renderizado fueron identificados como los principales cuellos de botella. Piensa en ellos como los embotellamientos del mundo virtual – ¡necesitábamos encontrar formas de mantener los vehículos (o datos) en movimiento sin problemas!

Optimización del Proceso

Para resolver estos embotellamientos, se introdujeron técnicas ingeniosas:

  1. Entrenamiento en espacio UV: En lugar de usar un entrenamiento basado en píxeles tradicionales, los avatares se entrenaron en un espacio UV, lo que permite un procesamiento más rápido y eficiente.

  2. Destilación de Capa Única: Al simplificar el decodificador en una sola capa, el proceso se vuelve más rápido. Es como pasar de una comida de varios platos a un bocadillo rápido – sigue siendo delicioso, ¡pero mucho más rápido!

  3. Compartición Vecinal: Los "splats" cercanos ahora pueden compartir una sola entrada correctiva del decodificador. Imagina un grupo de amigos. Si todos comparten su pizza en lugar de pedir cada uno la suya, ¡pueden ahorrar tiempo y recursos!

¿Y el Resultado?

Cuando estos cambios se juntaron, SqueezeMe logró algo increíble: logró hacer funcionar tres avatares a 72 cuadros por segundo (FPS) en el visor Meta Quest 3. Para ponerlo en perspectiva, ¡eso es como hacer malabares con tres bolos mientras montas un monociclo – impresionante coordinación y habilidad!

Avatares Realistas en Acción

Los avatares creados con este sistema no son solo para lucir bien; están impulsados por video en tiempo real. Así que, si mueves tu mano frente a una cámara, tu avatar hace lo mismo en el mundo virtual. Esto significa que realmente puedes expresarte en VR, haciendo que las reuniones, los juegos y otras experiencias sean más atractivas.

La Curva de Aprendizaje

Aunque el viaje para crear SqueezeMe ha sido prometedor, no ha estado exento de baches. Por ejemplo, aún surgen algunos problemas en áreas específicas, particularmente con detalles finos como las manos o los bordes de la ropa. A veces, los avatares pueden verse un poco borrosos o perder su nitidez. Pero bueno, así como cualquier superhéroe tiene que aprender a usar sus poderes, ¡estos avatares todavía están en entrenamiento!

Las Herramientas Detrás de la Magia

La tecnología que impulsa esta magia de los avatares no es solo software sencillo; está entrelazada con hardware complejo. El visor Meta Quest 3, por ejemplo, incorpora múltiples elementos de procesamiento, incluyendo CPUs ARM y una GPU móvil. Juntos, permiten que los avatares se visualicen en tiempo real de una manera que se siente casi realista.

Aplicaciones en el Mundo Real

¿Y por qué importa todo esto? Bueno, las implicaciones son vastas:

  • Reuniones y Colaboración: Imagina poder asistir a una reunión donde tu avatar interactúe con otros, mostrando emociones y movimientos reales. En lugar de ver solo una cuadrícula de caras en una pantalla, verías una representación animada de todos los involucrados.

  • Gaming: En juegos multijugador, tener avatares realistas puede mejorar la experiencia, haciendo que se sienta como si realmente estuvieras luchando junto a tus amigos, en lugar de solo controlar a un personaje en la pantalla.

  • Interacción Social: Los amigos podrían reunirse en espacios virtuales, con avatares que reflejan perfectamente sus estados de ánimo y personalidades.

Conclusión: El Futuro de la Interacción Virtual

A medida que esta tecnología avanza, podemos esperar ver interacciones más realistas en VR. La capacidad de crear y controlar avatares realistas localmente en dispositivos abre un sinfín de posibilidades para juegos, reuniones y más. Es como entrar en una nueva dimensión donde realmente puedes ser tú mismo, sin los embotellamientos de los métodos anteriores.

Al final, SqueezeMe no se trata solo de hacer que los avatares se vean bien; se trata de empujar los límites de lo que es posible en la realidad virtual. Así que, mantén los ojos abiertos – el mundo de los avatares VR apenas está comenzando, ¡y quién sabe qué tipo de experiencias divertidas nos esperan a la vuelta de la esquina!

Fuente original

Título: SqueezeMe: Efficient Gaussian Avatars for VR

Resumen: Gaussian Splatting has enabled real-time 3D human avatars with unprecedented levels of visual quality. While previous methods require a desktop GPU for real-time inference of a single avatar, we aim to squeeze multiple Gaussian avatars onto a portable virtual reality headset with real-time drivable inference. We begin by training a previous work, Animatable Gaussians, on a high quality dataset captured with 512 cameras. The Gaussians are animated by controlling base set of Gaussians with linear blend skinning (LBS) motion and then further adjusting the Gaussians with a neural network decoder to correct their appearance. When deploying the model on a Meta Quest 3 VR headset, we find two major computational bottlenecks: the decoder and the rendering. To accelerate the decoder, we train the Gaussians in UV-space instead of pixel-space, and we distill the decoder to a single neural network layer. Further, we discover that neighborhoods of Gaussians can share a single corrective from the decoder, which provides an additional speedup. To accelerate the rendering, we develop a custom pipeline in Vulkan that runs on the mobile GPU. Putting it all together, we run 3 Gaussian avatars concurrently at 72 FPS on a VR headset. Demo videos are at https://forresti.github.io/squeezeme.

Autores: Shunsuke Saito, Stanislav Pidhorskyi, Igor Santesteban, Forrest Iandola, Divam Gupta, Anuj Pahuja, Nemanja Bartolovic, Frank Yu, Emanuel Garbin, Tomas Simon

Última actualización: 2024-12-20 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2412.15171

Fuente PDF: https://arxiv.org/pdf/2412.15171

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares