バーチャルワールドでのリアルなアバターの動き
新しい方法でアバターがAR/VRで人間の動きをリアルに真似できるようになったよ。
― 1 分で読む
アバターは、仮想世界での体験をインタラクティブで魅力的にするために重要な役割を果たしてるけど、ユーザーの動きを正確に表現するアバターを作るのは結構大変なんだ。現在のAR/VRデバイスは、主にヘッドセットといくつかのコントローラーから得られるユーザーの位置データが限られていて、下半身の動きなんて詳細にはわかんないし、そのせいでアバターのアニメーションがリアルじゃなくなっちゃうんだよね。
この記事では、こうした課題に対処するために開発された手法を紹介するよ。この手法を使えば、限られたデータでも仮想環境のアバターがリアルタイムで人間の動きを真似できるんだ。技術の組み合わせを利用して、アバターが信じられるような自然な動きができるようになるんだ。
課題の理解
アバターアニメーションで一番の問題は、ユーザーの動きについての情報が限られていることだよ。AR/VRデバイスを使ってると、ユーザーは通常、ヘッドマウントディスプレイと二つのハンドコントローラーしか持ってないから、下半身の動きは全然わからないんだ。このデータ不足が、アバターの不自然なアニメーションに繋がってる。
さらに、アバターは人間とは違うサイズや形、骨格を持ってることが多いから、人間の動きをそのままアバターに適用するのは簡単じゃない。動きを別の形にマッピングするには、明確な理解が必要なんだ。
最後に、従来のアニメーション手法だと、物理法則に従わない動きになってしまうことがあるから、自然じゃないアクションが見られたりする。アバターの各部分の動きをどうすればいいかわからないと、重みやリアリズムが欠けたアニメーションになっちゃう。
動きをリターゲットする新しい手法
提案された新しい手法は、こうした問題に対処するんだ。強化学習の技術を使って、アバターがユーザーの動きに基づいて操作されるようにするんだ。アバターごとに詳細なフルボディモーションキャプチャデータが必要なくて、人間のモーションデータを使ってシステムをトレーニングすることで、アバターの構造の違いにも対応できるようになる。
この手法では、トレーニングが人間のモーションキャプチャデータだけで済むから、クリエイターはすべてのアバタータイプに対して個別のアニメーションを設定する必要がなくなるんだ。これは、キャラクターのバラエティが非常に多いことを考えると、実用的だよね。
仕組み
このアプローチの核心は、各アバターの特性を考慮した物理シミュレーションに基づいている。たとえば、恐竜は重い尾を持っているかもしれないし、ネズミのようなキャラクターは短い足を持っているかもしれない。このシステムを多様な動きでトレーニングすることで、アバターの物理特性を尊重した形で動かすことができるようになるんだ。
トレーニング中、システムは人間のモーションキャプチャデータを使ってアバターのポーズの初期推定を生成する。シミュレーションを導くポリシーは、アバターがこのポーズを模倣しつつ、プログラムされた物理法則にも従うように設計されている。
トレーニングが終わったら、アバターはヘッドマウントディスプレイとコントローラーだけで操作できて、追加のフルボディ情報は必要ない。キャラクターは限られた入力データにリアルタイムで反応し、物理的リアリズムを保った動きをするんだ。
強化学習の役割
強化学習は、ユーザーのアクションをアバターにリターゲットするためのポリシーを発展させる過程をサポートする。システムは、フィードバックに基づいて動きを改善し続ける環境で動作してる。
トレーニングの各ステップで、ポリシーは環境の状態を観察する。これにはユーザーのコントロールデータやシミュレーションされたアバターの現在の位置が含まれる。これを元に、ポリシーはアクションを取って、どれだけ上手くいったかを知らせる報酬信号を受け取るんだ。
目標は、リアルでキャラクターに適した動きを生成するためにポリシーを最適化することだ。この手法は、過去の経験に基づいてポリシーを更新するアルゴリズムを使い、ユーザーの動きを正確に表現する能力を徐々に洗練させていく。
トレーニングデータ生成
アバターをトレーニングするためには、ポリシーが使用する入力データを生成する必要がある。このデータは、ヘッドマウントディスプレイとコントローラーから出される情報を模倣するんだ。トレーニングプロセスでは、人間の動きに対するアバターの対応する位置を大まかにマッピングし、体の構造の違いを修正する必要がある。
人間のモーションキャプチャデータを使って、システムはアバターの主要なジョイントの位置をオフセットして、アバターの近似ポーズを作成する。最初のマッピングには、足の長さの違いによるスライドの問題など、アーティファクトが含まれているかもしれないけど、物理シミュレーションがトレーニングフェーズ中にこれらのエラーを修正するんだ。
最終的にトレーニングされたモデルは、アーティストが作成したアニメーションを必要とせず、幅広い人間のモーションキャプチャデータに依存している。この柔軟性があれば、手動での入力を大量に必要とせずに多様なアバターにこの手法を適用するのが容易になるんだ。
報酬システム設計
この手法の重要な要素は、報酬システムで、トレーニングプロセスをガイドし、アバターがユーザーをどれだけ模倣するかに影響を与える。報酬関数の異なる要素が、ポリシーにユーザーの動きのどの側面を優先すべきかを学ばせるんだ。
模倣報酬は、アバターに人間のモーションデータから得た参照ポーズに合わせることを促す。関節の角度や速度、位置を比較することで、アバターの動きがどれだけ人間に対応しているかを評価できる。
さらに、接触報酬は、正しい瞬間にアバターの足が地面に接触しているかを確認して、正確な足の配置を維持する重要性を強調する。これが、スライドや自然でないポーズ間の遷移といった一般的な問題を防ぐのに役立つんだ。
最後に、アクション報酬はアバターの動きの全体的なエネルギー消費を調整する。トルクの急激な変化を最小限に抑えることで、ポリシーはよりスムーズで自然な動きを生み出すことができるようになる。
結果としての動きの質
この手法は、いろんなアバターでテストされていて、マウスや恐竜、人間に似たキャラクターなど、さまざまなタイプでも効果を示してる。結果として、アバターの動きはユーザーの行動にかなり近いものになることが多いし、システムがヘッドセットとコントローラーからの限られたデータのみで動作しているときでも、リアルな動きを実現できるんだ。
アバターは、それぞれの物理的制約内でリアルに感じられるアクションをすることができて、ジッターや不自然なスライドのような問題を避けることができる。物理学を取り入れた動きの制御により、アバターは体の構造の違いに関係なく、人間の動きに共鳴する行動を示すことができるんだ。
テスト中、サイズや形態が人間と大きく異なるアバターでも、説得力のある方法で動きを模倣できたし、トレーニングセットにいなかったユーザーでもリアルタイムで追跡できて、手法の適応性が強調されたよ。
限界への対処
この手法は期待できるものの、限界もある。ユーザーが素早い動きや、上半身と下半身の動きが調和していない場合、システムは高品質な反応を生成するのが難しいんだ。キャラクターをアニメートするためには逐次トルク出力が必要だから、追跡エラーが蓄積されて、動き生成の失敗に繋がることがある。
これを解決するために、将来的な研究では、タスクを2つのステージに分けることが考えられるよ:最初にフルボディポーズを予測し、その後トルク出力に洗練させる。こうすることで、強化学習と従来の運動学的手法の強みを活かして、より複雑なシナリオでの全体的なパフォーマンスを向上させることができるかもしれない。
将来の方向性
この研究は、仮想環境でのアバターアニメーションの拡大に向けた道を開いて、ユーザーがさまざまなキャラクタータイプで自己表現できるようにするんだ。この手法は、単純な二足歩行の形を超えて、もっと複雑なキャラクターデザインを含むようにさらに発展できる。
探求の可能性としては、ポリシーがさらに多様な体型や骨格に適応する能力を向上させることが含まれるかもしれない。グラフニューラルネットワークのような技術を使って、複雑さの増したキャラクターに対応できる柔軟なポリシーを学ぶことができるかもしれない。
さらに、環境からの追加フィードバックメカニズムを統合することで、より良い文脈理解が得られ、アバターの反応の精度とリアリズムが向上するだろう。
結論
提案された手法は、仮想環境におけるアバターアニメーションの分野において、興奮するような一歩前進を示している。強化学習と物理シミュレーションを活用することで、限られたユーザー入力と複雑なキャラクターの動きとの間のギャップを効果的に埋めることができるんだ。リアリズムを保ちながら多種多様なキャラクターを制御できる能力は、AR/VRにおけるユーザーのインタラクションに新しい可能性を提供するよ。この技術のさらなる研究と改良が進めば、仮想世界でのより豊かで没入感のある体験が実現できるかもしれない。
タイトル: Physics-based Motion Retargeting from Sparse Inputs
概要: Avatars are important to create interactive and immersive experiences in virtual worlds. One challenge in animating these characters to mimic a user's motion is that commercial AR/VR products consist only of a headset and controllers, providing very limited sensor data of the user's pose. Another challenge is that an avatar might have a different skeleton structure than a human and the mapping between them is unclear. In this work we address both of these challenges. We introduce a method to retarget motions in real-time from sparse human sensor data to characters of various morphologies. Our method uses reinforcement learning to train a policy to control characters in a physics simulator. We only require human motion capture data for training, without relying on artist-generated animations for each avatar. This allows us to use large motion capture datasets to train general policies that can track unseen users from real and sparse data in real-time. We demonstrate the feasibility of our approach on three characters with different skeleton structure: a dinosaur, a mouse-like creature and a human. We show that the avatar poses often match the user surprisingly well, despite having no sensor information of the lower body available. We discuss and ablate the important components in our framework, specifically the kinematic retargeting step, the imitation, contact and action reward as well as our asymmetric actor-critic observations. We further explore the robustness of our method in a variety of settings including unbalancing, dancing and sports motions.
著者: Daniele Reda, Jungdam Won, Yuting Ye, Michiel van de Panne, Alexander Winkler
最終更新: 2023-07-04 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2307.01938
ソースPDF: https://arxiv.org/pdf/2307.01938
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。