InfiniMotionを紹介するよ:長い人間の動き生成
テキストプロンプトから長くて滑らかな人間の動きを作る新しい方法。
― 1 分で読む
目次
テキストの説明に基づいてリアルな人間の動きを作ることが、映画、ビデオゲーム、ロボティクスなどの分野でますます重要になってきてる。今までいくつかの進展があったけど、既存の方法は短い動き(通常10秒未満)を生成することにしか焦点を当ててないんだ。この制限があると、アニメーションや長時間のゲームセッションなど、長い動きが必要なシチュエーションでこの技術を使えない。
この記事では、テキストプロンプトに基づいて長いモーションシーケンスを生成することを目指した新しい方法「InfiniMotion」について話してる。主なアイデアは、長時間(最大で1時間)持続するスムーズで連続的な人間の動きを作ることなんだ。
長い動きの生成における課題
長い動きを生成するのにはいくつかの課題があるよ。ひとつは、現在の方法が長いシーケンスを一つの入力として扱う能力ね。多くの既存のシステムは長いシーケンスを短いセグメントに分けちゃう。これじゃ、アクションからアクションへスムーズな移行ができなくなっちゃうことも。
もうひとつの問題は、長い動きを処理するのにかかる高い計算コストだ。多くの方法は強力なコンピューティングリソースを必要とするから、アクセスが難しくなる。さらに、利用可能なデータセットは短いシーケンスしか含まれてないことが多いから、モデルが長い動きを学んだり生成したりする能力が制限される。
InfiniMotion:新しいアプローチ
InfiniMotionは、これらの問題を解決するために一度に長いモーションシーケンスを生成するんだ。新しいフレームワーク「モーションメモリトランスフォーマー」と「双方向マンバメモリ」を導入して、長いシーケンスを覚えたり処理したりする能力を強化してる。効果的にメモリを管理することで、アクション間のスムーズな移行を可能にし、長い時間でも動きの質を保つことができる。
InfiniMotionの方法は、約80,000フレームからなる1時間の連続した人間のモーションシーケンスを生成できて、統一感を失うことなく拡張シーケンスを生成する能力を示してる。
モーションメモリトランスフォーマー
InfiniMotionメソッドの中心は、モーションメモリトランスフォーマー。これは、継続的なモーション生成のために特別に設計されてる。設計により、長いコンテキストを効果的に管理できるから、以前のアクションが次の動きに影響を与えることができるよ。
メモリトランスフォーマーは、生成された動きの長期的な一貫性を保つための追加メモリトークンを利用する。これにより、異なるモーションセグメントが接続され、スムーズに流れるようになるんだ。
双方向マンバメモリ
モーションメモリトランスフォーマー内でメモリ能力をさらに高めるために、双方向マンバメモリブロックが導入されてる。これにより、全体のモーションシーケンスの一貫性が保たれると同時に、隣接する動き間の詳細な移行も可能になる。
この構成は、「メモリの減退」問題に対処するのに役立つ。早い段階の動きが全体のシーケンスの中で重要でなくなっちゃうことを防ぐために、選択的状態空間モデルの強みを取り入れたマンバモデルが長いシーケンス全体でのメモリを維持するための堅牢な方法を提供する。
データセットと評価
InfiniMotionの効果を評価するために、研究者たちはBABELデータセットを使用した。このデータセットには、テキスト記述が付けられた多くの動きのシーケンスが含まれていて、通常の短い動きしかない他のデータセットと比べてより広範なテストが可能なんだ。BABELデータセットは10,000以上のモーションシーケンスで構成されていて、メソッドのパフォーマンスをよりよく理解する手助けをしてる。
生成された動きの質を評価するために、いくつかの指標が使われた。生成された動きと実際の動きの違いを測るフレシェインセプション距離(FID)や、生成された動きがテキストプロンプトにどれだけ合致しているかを評価する他の方法も含まれてる。
パフォーマンスの改善
InfiniMotionは、既存の方法に比べてかなりのパフォーマンス向上を示した。新しいアプローチを採用することで、結果は以前のシステムと比較して動きの質が30%以上向上したことを示してる。さらに、生成された動きの長さは以前の方法の6倍長い。
これらの改善は、InfiniMotionがさまざまな現実のアプリケーションで必要な高品質で長時間の人間の動きを提供できる能力を強調してる。
ユーザー調査
方法の効果を評価するためにユーザー調査が行われた。参加者たちは生成された動きを示すいくつかのビデオをレビューして、精度や興味の点で評価した。フィードバックは非常にポジティブで、多くの参加者が動きがスムーズでリアリスティックだと感じた。
ほとんどのユーザーは、生成された動きが興味を引くものであり、現実のアプリケーションに簡単に適応できると感じてた。でも、一部の参加者は、展開の前に多少の調整が必要かもしれないと指摘してた。このことから、このメソッドは実用的な利用に近づいてると言えるね。
制限
InfiniMotionは有望な結果を示してるけど、いくつかの制限も抱えてる。テキスト入力が時々あまりにも曖昧なことがあって、動きの正確なコントロールが難しくなることがあるんだ。それに、この方法は相対的なポーズに依存してるから、速度や距離のような特定の物理的詳細が必要なユーザーには複雑になることもある。
結論
要するに、InfiniMotionメソッドは、テキストの説明に基づいて長いモーションシーケンスを生成する上で大きな一歩を示してる。メモリを効果的に管理し、動きの流れを強化することで、長時間持続する高品質で連続した動きを生成できる。
この進展は、エンターテインメントやロボティクスにとって大きな影響があるだけでなく、将来的によりリアルで適応性のあるシステムの道を開くかもしれない。技術が進化し続ける中で、長い動きの生成に関する潜在的なアプリケーションはさらに広がるだろうし、さまざまな分野でワクワクするような機会を生み出すだろうね。
タイトル: InfiniMotion: Mamba Boosts Memory in Transformer for Arbitrary Long Motion Generation
概要: Text-to-motion generation holds potential for film, gaming, and robotics, yet current methods often prioritize short motion generation, making it challenging to produce long motion sequences effectively: (1) Current methods struggle to handle long motion sequences as a single input due to prohibitively high computational cost; (2) Breaking down the generation of long motion sequences into shorter segments can result in inconsistent transitions and requires interpolation or inpainting, which lacks entire sequence modeling. To solve these challenges, we propose InfiniMotion, a method that generates continuous motion sequences of arbitrary length within an autoregressive framework. We highlight its groundbreaking capability by generating a continuous 1-hour human motion with around 80,000 frames. Specifically, we introduce the Motion Memory Transformer with Bidirectional Mamba Memory, enhancing the transformer's memory to process long motion sequences effectively without overwhelming computational resources. Notably our method achieves over 30% improvement in FID and 6 times longer demonstration compared to previous state-of-the-art methods, showcasing significant advancements in long motion generation. See project webpage: https://steve-zeyu-zhang.github.io/InfiniMotion/
著者: Zeyu Zhang, Akide Liu, Qi Chen, Feng Chen, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang
最終更新: 2024-07-13 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.10061
ソースPDF: https://arxiv.org/pdf/2407.10061
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。