Sci Simple

New Science Research Articles Everyday

# コンピューターサイエンス # コンピュータビジョンとパターン認識

SqueezeMe:VRアバターの未来

リアルなアバターが会議やゲームのバーチャルリアリティ体験を高める。

Shunsuke Saito, Stanislav Pidhorskyi, Igor Santesteban, Forrest Iandola, Divam Gupta, Anuj Pahuja, Nemanja Bartolovic, Frank Yu, Emanuel Garbin, Tomas Simon

― 1 分で読む


次世代VRアバター 次世代VRアバター 準備完了。 リアルなアバターがバーチャル体験を変える
目次

バーチャルリアリティ(VR)の世界では、リアルな人間のアバターを作ることが常に重要な目標でもあったんだ。これらのアバターは、リアルな生活と同じように仮想空間で動いたり、インタラクトしたりできる人々のデジタル表現。課題は?見た目を良くしつつ、リアルタイムで動かなきゃいけないってこと。まるで君のバーチャルな別人格みたいで、すぐに動き出せる準備が整ってる。

リアリズムを追求する

仮想会議やゲームに入ったとき、リアルなアバター同士がやり取りしてるのを見るのはすごくワクワクするよね?目標は、リアルな人間のインタラクションをうまくシミュレートすること。そのためには、アバターがリアルな人の見た目や動きを convincingly に反映させる必要があるんだ。つまり、手を振ったり、頷いたり、しかめっ面をする時に、君と同じように振る舞わなきゃいけないってことだよね(誰だってそんな瞬間はあるよね?)。

従来は、そんなアバターをレンダリングするには強力なデスクトップコンピューターが必要だったから、ポータブルデバイス、つまりVRヘッドセットで使うのは難しかった。でも、品質を落とさずに複数のアバターをヘッドセットで表示できるシステムを作れたらどうなるだろう?ここから面白くなるんだ!

SqueezeMeの登場

SqueezeMeに出会ってみて!見た目がすごくて、持ち運びもできるアバターを作るための賢いアプローチだよ。この技術は、ガウシアン・スプラッティングというちょっと fancy なものを使っていて、アバターを高品質に効率的にレンダリングできるんだ。ガウシアン・スプラッティングは、アバターを描く新しい方法だと思って。デジタルスプレー缶を使って、髪や服のような細かいディテールをすさまじく描けるんだ。

課題

これまでのアバター作成方法は、リアルタイムパフォーマンスに苦しんでいて、重い計算能力が必要だった。結果として、ヘッドセットでは一度に一つのアバターしか動かせなくて、友達や同僚とバーチャルな空間でインタラクトするときはあまり楽しくなかった。だから、主な目標はVRヘッドセットでスムーズに動作できるシステムを開発することだったんだ。複数のアバターが同時に表示されて操作できるようにね。

ガウシアン・スプラッティングの魔法

ガウシアン・スプラッティングは、アバターの一部を点(または「スプラット」)で表現することで機能する。これらのスプラットは色や透明度の情報を持っていて、スムーズなアニメーションやトランジションが可能になる。この方法は、髪の流れや服のしわのように複雑なディテールを見せるのが特に得意なんだ。

でもね、このスプラッティングをVRヘッドセットのようなポータブルデバイスで動かすためにはいくつかのハードルがあった。アバターをアニメーションさせるデコーダーとレンダリングプロセスが主なボトルネックだったんだ。これらは、バーチャルな世界の交通渋滞みたいなもので、データをスムーズに動かす方法を見つける必要があったんだ!

プロセスの効率化

この交通渋滞を解消するために、いくつかの賢いテクニックが導入されたんだ:

  1. UV空間でのトレーニング: 従来のピクセルベースのトレーニングではなく、アバターをUV空間でトレーニングして、より速く効率的な処理を実現した。

  2. 単層蒸留: デコーダーを単層に簡素化することで、プロセスが速くなる。多コースの食事からクイックスナックに変わるみたいに、まだ美味しいけどずっと早くなるんだ!

  3. 隣人の共有: 近くのスプラットは、デコーダーからの単一の修正入力を共有できるようになった。友達のグループみたいに、みんなが自分のピザを共有すれば、時間やリソースを節約できるって感じ!

結果は?

これらの変更が組み合わさった結果、SqueezeMeはなんと、Meta Quest 3ヘッドセットで72フレーム毎秒(FPS)で3つのアバターを動かすことに成功したんだ。例えるなら、片輪車に乗りながら3つのボーリングピンをジャグリングするみたいな感じ – すごい調整力とスキルだよね!

アクションでのリアルなアバター

このシステムで作られたアバターは、ただの見せ物じゃなくて、リアルタイムのビデオ入力によって動かされるんだ。だから、カメラの前で手を振ると、仮想空間の中でもアバターが同じように振る舞う。これにより、会議やゲーム、他の体験で本当に自分を表現できるようになって、もっと魅力的な体験ができるんだ。

学習曲線

SqueezeMeの創造への道は promising だったけど、問題もあったりする。例えば、手や服の端のような細かいディテールでまだ問題が起こることがある。時々、アバターが少しぼやけて見えたり、シャープさを失ったりすることも。でも、スーパーヒーローがその力を使えるようになるために学ぶのと同じように、これらのアバターもまだトレーニング中なんだ!

魔法の裏にある道具

このアバターの魔法を支えている技術は、簡単なソフトウェアだけじゃなくて、複雑なハードウェアとも密接に関係してるんだ。たとえば、Meta Quest 3ヘッドセットは、ARM CPUやモバイルGPUを含む複数の処理要素を組み込んでいて、リアルタイムでアバターをほぼリアルに視覚化できるようになってる。

現実世界のアプリケーション

じゃあ、これがなんで大事なのか?その影響は広いよ:

  • 会議やコラボレーション: アバターが他の人とインタラクトし、リアルな感情や動きを見せる会議を想像してみて。画面上に顔のグリッドだけを見る代わりに、参加者全員の生き生きとした表現が見れる。

  • ゲーム: マルチプレイヤーゲームでは、リアルなアバターが体験を向上させ、画面上のキャラクターを操作するだけじゃなくて、友達と一緒に戦っている感覚を味わえる。

  • 社会的インタラクション: 友達がバーチャルな空間で集まって、自分のムードや個性をほぼ完璧に反映するアバターを使えるようになる。

結論:バーチャルインタラクションの未来

この技術が進化するにつれて、VRでよりリアルなインタラクションが見られるようになるはず。デバイス上でリアルなアバターを作成・制御できる能力は、ゲームや会議、もっと多様な可能性を開くんだ。まるで新しい次元にステップインして、真の自分になれるようなもの、前の方法の交通渋滞なしでね。

結局、SqueezeMeはアバターを見栄えよくするだけじゃなくて、バーチャルリアリティの可能性の境界を押し広げることなんだ。だから、注目しておいて – VRアバターの世界はまだ始まったばかりで、どんな楽しい体験が待っているかはわからないよ!

オリジナルソース

タイトル: SqueezeMe: Efficient Gaussian Avatars for VR

概要: Gaussian Splatting has enabled real-time 3D human avatars with unprecedented levels of visual quality. While previous methods require a desktop GPU for real-time inference of a single avatar, we aim to squeeze multiple Gaussian avatars onto a portable virtual reality headset with real-time drivable inference. We begin by training a previous work, Animatable Gaussians, on a high quality dataset captured with 512 cameras. The Gaussians are animated by controlling base set of Gaussians with linear blend skinning (LBS) motion and then further adjusting the Gaussians with a neural network decoder to correct their appearance. When deploying the model on a Meta Quest 3 VR headset, we find two major computational bottlenecks: the decoder and the rendering. To accelerate the decoder, we train the Gaussians in UV-space instead of pixel-space, and we distill the decoder to a single neural network layer. Further, we discover that neighborhoods of Gaussians can share a single corrective from the decoder, which provides an additional speedup. To accelerate the rendering, we develop a custom pipeline in Vulkan that runs on the mobile GPU. Putting it all together, we run 3 Gaussian avatars concurrently at 72 FPS on a VR headset. Demo videos are at https://forresti.github.io/squeezeme.

著者: Shunsuke Saito, Stanislav Pidhorskyi, Igor Santesteban, Forrest Iandola, Divam Gupta, Anuj Pahuja, Nemanja Bartolovic, Frank Yu, Emanuel Garbin, Tomas Simon

最終更新: 2024-12-20 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2412.15171

ソースPDF: https://arxiv.org/pdf/2412.15171

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事