Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータビジョンとパターン認識

モーションアバターの紹介: ダイナミックな3Dキャラクターへの新しいアプローチ

新しい方法で、テキストの説明からカスタマイズ可能な人間や動物のアバターが作れるようになったよ。

― 1 分で読む


動くアバターとモーションア動くアバターとモーションアバターる。テキストをすぐにリアルなアバターに変換す
目次

最近、多くの人が3Dアバターや動きを作ることに興味を持っている。これらのアバターは映画、ビデオゲーム、バーチャルリアリティ、さらにはロボットが人間とどのようにインタラクトするかなど、さまざまな用途がある。でも、現在の方法はアバターを作ることか動きを別々に行うことが多く、両方を効果的に組み合わせるのが難しいんだ。それに、ほとんどのシステムは人間のアバターを生成するけど、動物に似た技術を作るのはデータと適切な方法が不足しているために難しい。私たちの研究は、テキストの説明に基づいてカスタマイズ可能な人間と動物のアバターと動きを自動的に生成する新しいアプローチ「モーションアバター」を紹介する。この論文では、これらの課題に対処するための3つの主な貢献を強調する。

主な貢献

1. モーションアバターアプローチ

私たちは「モーションアバター」と呼ばれる新しい手法を提案した。これはエージェントベースのアプローチを使って、高品質でカスタマイズ可能な人間と動物のアバターを動きとともに、テキストクエリのみで生成する。この進歩は、ユーザーが自分のニーズに合わせたリアルな動きを持つキャラクターを生成できるようにする、ダイナミックな3Dキャラクター作成の大きなステップだ。

2. LLMプランナー

2つ目の貢献は、モーションとアバター生成を調整するLLM(大規模言語モデル)プランナーの導入だ。計画を硬直的なタスクとして扱うのではなく、このプランナーは柔軟な質問応答スタイルのプロセスを可能にし、ユーザーが望むアバターや動きを得やすくする。

3. 動物モーションデータセット

最後に、約300,000のテキスト・モーションペアを含む「Zoo-300K」というデータセットを紹介した。これは65の異なる動物カテゴリにわたる。このデータセットは、動物の動きについてのトレーニングデータのギャップを埋めることを目的としていて、この分野で研究を行う人たちにとって貴重なリソースを提供する。

モーションアバターの概要

モーションアバターはLLMエージェントベースの方法を使ってユーザーのリクエストを管理し、特定のプロンプトを生成する。このプロンプトはモーションシーケンスを生成し、3Dメッシュを作成するのに役立つ。モーション生成はステップバイステップで行われ、メッシュ生成は画像を3Dモデルに変換するフレームワークに従う。その後、作成されたメッシュは自動リギングプロセスを経て、動きを適用できるようになる。

ダイナミック3Dアバターの重要性

ダイナミックな3Dアバターの作成は、ロボティクス、ゲーム、マルチメディアなど多くの分野で重要だ。高品質なアニメーションアバターを作る目標は、3Dコンピュータビジョンコミュニティの多くの人が追い求めている。これはアバターの見た目だけでなく、どのように機能し、使いやすいかも含む。

従来の方法は、動画から情報を取り出してダイナミックアバターを作ることが多い。他の方法は3D再構築と動画技術を組み合わせて3Dメッシュをアニメートする。しかし、これらの方法はしばしばモーションコントロールが悪いとか、異なる角度から見ると不一致があるなどの問題に直面している。これらの問題は、実世界のシナリオでダイナミックアバターを効果的に使うのを難しくしている。

現在の進展

最近、さまざまなモデルを使ってテキストからモーションを生成する技術が進展してきた。これにより、書かれた説明から直接モーションシーケンスを生成するのが簡単になり、アバター生成に新たなアプローチがもたらされた。同時に、3Dメッシュの再構築と作成の進展も重要だ。それでも、ほとんどの努力はアバターや動きを独立して作成することに集中していて、それをうまく統合するのはまだ難しい。

動物に関する課題

多くの技術が人間のアバターや動きを作ることに集中しているが、これを動物に適応するのはかなり難しい。この難しさは、十分なトレーニングデータがないことや、既存の方法の限界から来ている。動物キャラクターを含める技術を効果的に拡張するためには、新しい方法や動物の行動の理解を深める必要がある。

課題へのアプローチ

これらの問題に取り組むために、私たちの研究は以下の3つの主要な貢献を示している。

1. モーションアバター

先ほど述べたように、私たちはモーションアバターを紹介した。このアプローチでは、ユーザーは自分のテキスト入力だけでダイナミックな動きを持つカスタマイズ可能な人間と動物のアバターを作成できる。この革新により、3Dキャラクター生成の方法が改善され、より柔軟性と個性を持ったものになる。

2. LLMプランナー

私たちのLLMプランナーは、アバターとモーションの生成プロセスを管理するのに役立つ。将来的なダイナミックアバター作成に関連するタスクに適応する柔軟なアプローチを取り入れており、時間とともにより広いオーディエンスに対応できるようにしている。

3. 動物モーションデータセット - Zoo-300K

Zoo-300Kデータセットは私たちの研究の重要な部分を形成している。約300,000のテキスト記述とそれに対応するモーションデータからなるもので、65の動物カテゴリをカバーしている。この包括的なデータセットは、動物の動きをより理解し生成できるようにモデルをトレーニングするために使用できる。

関連研究

テキストからのモーション生成

モーションを生成することはコンピュータビジョンにおいて重要で、動画アニメーションからロボット制御までさまざまな応用がある。この分野でよく知られた方法は、「テキストからモーション生成」と呼ばれ、テキスト記述とモーションデータを共有空間で結びつける。多くの研究は人間の動きの生成に焦点を当ててきた。

「MotionCLIP」などの方法は、高度なモデルを使ってモーションシーケンスを再構築し、それが対応するテキストラベルと一致することを保証する。他には「MotionDiffuse」のように、テキストに基づいて動きを生成する拡散モデルを使った新しいフレームワークを導入したものもあり、良い結果を示している。

しかし、動物の動きを生成するのはデータの限界や不一致な表現があるため、より難しい。最近の「OmniMotionGPT」のような取り組みは、テキストの説明からリアルな動物の動きを創出し、従来の方法よりも改善が見られている。

アバター生成

3Dアバター作成に関する以前の研究は、テキストに基づいて2D画像を生成する技術からインスパイアを受けることが多かった。多くの方法はテキスト記述に基づいてモデルをトレーニングするか、ステップバイステップで詳細な3Dアバターを作成するプロセスを使用した。注目すべき貢献のいくつかは、3Dサポートがなくてもテキストから3Dアバターを生成する印象的な結果を示している。

LLMエージェント

最近のLLMエージェントの進展は、人間のような思考を真似る能力を示している。研究では、エージェントが自律的に計画し、社会活動に従事することを紹介しており、知的システムへの大きな進歩を示している。

Zoo-300KとZooGenデータセットの作成

リアルな動物の動きを作成する上での大きな課題は、動物の動きとテキスト記述の両方を含むデータが不足していることだ。人間の動きに関するデータセットはたくさんあるが、動物に関するものは非常に限られている。

これに対処するために、私たちは約300,000 ペアのテキスト記述とそれに対応する動物の動きを含むZoo-300Kデータセットを作成した。データセット構築は、テキスト主導のデータセットを作成するための支援を目的としたパイプラインZooGenによって促進された。

パイプラインプロセス

ZooGenのパイプラインは複数のステップから成る。最初に、人間がキュレーションしたデータセットから既存の動物の動きを使用した。各動きに対して、特定のモデルをトレーニングして動きを強化および修正した。それに続いて、詳細に動きを記述するために高度な言語モデルを使った。最後に、Zoo-300Kデータセットで使用される記述の質を確保するために人間によるレビューを実施した。

人間モーションデータセット

人間の動きに関しては、14,000を超える動作インスタンスとそれに伴う記述テキストを含むHumanML3Dデータセットを使用した。このデータセットはダンスやエクササイズなど、さまざまな行動をカバーしており、人間の動き生成を評価するためのしっかりとした基盤を提供する。

アバターQAデータセット

LLMプランナーを改善するために、プランナーのテストとチューニングを可能にするアバターQAデータセットを開発した。このデータセットには、複数の入力コマンドとそれに対応する出力の例が含まれており、自然言語記述に基づいて異なる動物の動きやカテゴリを認識するプランナーの能力を評価することを目的としている。

LLMプランナー設計

LLMプランナーの主な目標は、ユーザープロンプトから有用な情報を容易に抽出する手助けをすることだ。アバターの動き生成のニーズを満たすために、特定のフレームワークを使ってプランナーを設定した。指示のチューニングを通じてこのプランナーをトレーニングし、ユーザーが要求する異なる動きやアバタータイプをよりよく特定できるように適応させた。

このプランナーは、モーションとアバター作成に必要なプロンプトを生成でき、全体のプロセスを効率化する。私たちは、LLMプランナーがユーザーの対話の中で主な主題を認識する能力を高め、将来的にはより多様なアニメーション作成を可能にすると信じている。

モーション生成プロセス

アバターのモーション生成は2段階のトレーニングプロセスを含む。最初のステップでは、モーションシーケンスを簡略化した形式に圧縮し、それを再構築のために動きにデコードできるようにする。

2段階目では、異なるモデルを同時にトレーニングして、与えられた説明に基づいて期待される動きを予測し再現できるようにする。これにより、システムがリアルタイムでテキストプロンプトから正確にモーションを生成できるようになる。

アバターメッシュの作成

アバターメッシュを作成するには、アバターの2D表現から始める必要がある。これを実現するために、2D画像を3Dモデルに変換するのを助けるデザインフレームワークを使用した。このプロセスには、2Dデザインに基づいて3D表現を作成することが含まれており、それを使って完全に機能するメッシュを構築する。

メッシュが作成されたら、それを適切にリギングする方法を使用する。リギングは重要で、以前に定義した動きをメッシュに効率的に転送できるようにするため、アバターが意図した通りに動くことを保証する。

LLMプランナーの評価

私たちはLLMプランナーのパフォーマンスを既存のモデルと比較することで徹底的に評価した。この評価は、プランナーがユーザー入力に基づいて異なるモーションタイプやアバターカテゴリをどれだけ特定できるかを理解する上で重要だった。私たちの結果は、有望な結果を示し、プランナーがダイナミックアバター生成に関連するさまざまなタスクを効果的に調整できることを示している。

モーション生成の評価

人間のモーション生成に関してはすでにかなりの評価が行われているので、私たちは動物の動きに焦点を当てることにした。私たちはモデルの効果を確保するために、定量的な評価と定性的な検査を行う予定だった。この評価は、私たちのシステムがテキスト条件に基づいてリアルな動物の動きを生成できるかどうかを示す。

アバター生成の評価

私たちはまた、Zoo-300Kデータセットのキャラクターカテゴリを利用して3Dアバターを作成するプロセスを調査した。私たちのテストは、私たちの方法が高品質で詳細な3Dアバターを生成できることを示し、実用的なアニメーションアプリケーションの可能性を示した。

結論

要するに、私たちの研究はダイナミックな3Dアバター作成における継続的な課題に取り組む。私たちは、テキストに基づいてカスタマイズ可能な人間と動物のアバターと動きを生成するプロセスを簡略化する「モーションアバター」手法を紹介した。また、私たちのLLMプランナーは、モーションとアバター生成の調整を向上させ、適用範囲を広げている。Zoo-300Kデータセットを作成することで、この分野で研究を行う人々を支える貴重なリソースも提供している。私たちの革新は、さまざまな分野でダイナミックなアバター生成の限界を推し進めることを目指している。

ユーザー研究

モーションアバター生成の効果を評価するために、私たちは広範なユーザー研究を実施した。この研究は、定性的かつ定量的な方法で実世界の適用性を評価することを目的としていた。参加者には、さまざまなプロンプトに基づいてモーションアバターを使って作成された4つのユニークなモーションビデオを提示した。

参加者は、モーションの正確性、メッシュの品質、動きとアバターの統合、およびアニメーションに対する全体的な感情的関与を含むいくつかの側面でビデオを評価した。

主要評価側面

  1. モーションの正確性: 参加者は、動きがどれほど自然で正確に見えたかを評価した。ほとんどの参加者が高く評価し、実際の動きに強い類似点があることを示した。

  2. メッシュの品質: アバターの視覚的な魅力と詳細が評価され、高得点が生成されたモデルの印象的な品質を反映した。

  3. 動きとメッシュの統合: 参加者は、モーションとメッシュのシームレスな統合を求め、リアリズムを高めるために好意的なフィードバックを受けた。

  4. ユーザーエンゲージメント: 最後に、参加者はアニメーションに対する感情的な関与を評価し、多くがポジティブな体験を評価した。

結果は、大部分の参加者がアニメーションが実際のアプリケーションで使用できると信じていることを示した。このフィードバックは、モーションアバターによって生成されたアニメーションの高品質とユーザビリティを強調し、さまざまな設定での広範な適用の可能性を確認するものである。

オリジナルソース

タイトル: Motion Avatar: Generate Human and Animal Avatars with Arbitrary Motion

概要: In recent years, there has been significant interest in creating 3D avatars and motions, driven by their diverse applications in areas like film-making, video games, AR/VR, and human-robot interaction. However, current efforts primarily concentrate on either generating the 3D avatar mesh alone or producing motion sequences, with integrating these two aspects proving to be a persistent challenge. Additionally, while avatar and motion generation predominantly target humans, extending these techniques to animals remains a significant challenge due to inadequate training data and methods. To bridge these gaps, our paper presents three key contributions. Firstly, we proposed a novel agent-based approach named Motion Avatar, which allows for the automatic generation of high-quality customizable human and animal avatars with motions through text queries. The method significantly advanced the progress in dynamic 3D character generation. Secondly, we introduced a LLM planner that coordinates both motion and avatar generation, which transforms a discriminative planning into a customizable Q&A fashion. Lastly, we presented an animal motion dataset named Zoo-300K, comprising approximately 300,000 text-motion pairs across 65 animal categories and its building pipeline ZooGen, which serves as a valuable resource for the community. See project website https://steve-zeyu-zhang.github.io/MotionAvatar/

著者: Zeyu Zhang, Yiran Wang, Biao Wu, Shuo Chen, Zhiyuan Zhang, Shiya Huang, Wenbo Zhang, Meng Fang, Ling Chen, Yang Zhao

最終更新: 2024-08-30 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2405.11286

ソースPDF: https://arxiv.org/pdf/2405.11286

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事