ワンステージアプローチで全身メッシュ回復を進める
新しい方法が、1枚の画像から3Dの体型を復元するのを改善する。
― 1 分で読む
全身メッシュの回復は、1枚の画像から人の体、顔、手の3D形状や位置を予測するプロセスだよ。従来の方法は通常、体の各部分を別々に分析するためにいくつかのステップがあって、いろんなモデルを使ってた。これらのモデルは頭、手、体を理解して結果を合わせるんだけど、この方法だと不自然な手首や手の位置になることがあるんだ。
それに対して、俺たちの方法は「コンポーネント・アウェア・トランスフォーマー(CAT)」って呼ばれる1つのモデルを使って、全ての体の部分を一気に処理するんだ。このアプローチは精度を上げて、もっと自然な形を提供する。主な目標は、標準的な画像から人間のフィギュアの詳細な3D表現を作ることで、顔や手みたいに体の一部がとても小さくて見えにくいことがあるから、難しいタスクなんだよね。
全身メッシュ回復の現状の課題
全身メッシュを回復するプロセスは、画像から人の体のさまざまなパラメータを推定することなんだけど、体の異なる部分が異なる解像度にあることが多くて、簡単じゃない。顔や手は体の他の部分に比べて小さいから、モデルが正確な読み取りをするのが難しいんだ。
ほとんどの既存の方法では、手と顔を検出してから解像度を上げて、別々のネットワークに送って分析する。最後に結果を組み合わせるから、最終的な出力に不自然なポーズや現実的でない回転が出たりすることがあるんだ。
提案する解決策:ワンステージパイプライン
俺たちは全身メッシュ回復のために、もっと簡単なワンステージシステムを提案する。このシステムはOSXって呼ばれてて、頭、手、体のために別々のモデルを必要としないんだ。代わりに、全身を理解するためにグローバルボディエンコーダーを使って、手と顔に関連する特徴を微調整するためのローカルデコーダーを使用する。
エンコーダーは体の特徴を詳細に表現して、この情報をデコーダーに渡す。デコーダーは手と顔に焦点を当てる。この方法は、従来のマルチステージパイプラインで見られる多くの問題を解消し、体の部分の自然な動きや位置を生み出すんだよ。
コンポーネント・アウェア・トランスフォーマーの構築
CATは体のさまざまなコンポーネントを認識しながら、それらの間のつながりを維持するように作られてる。アーキテクチャはシンプルだけど効果的で、1枚の画像からの情報を基に詳細な3Dモデルを生成することができる。
プロセスはこんな感じだよ:
- 人の画像入力:入力画像を小さな部分に分ける。それぞれの部分を慎重に分析して重要な特徴をキャッチする。
- エンコーダーフェーズ:エンコーダーはこれらのスプリットを取って、全体の体の構造を理解するための特定のボディトークンと組み合わせる。トランスフォーマーブロックを通して処理した後、エンコーダーは詳細な身体特徴マップを生成する。
- デコーダーフェーズ:デコーダーは、手と顔の関節や形状を正確に予測するためにこれらの特徴マップを洗練するようにデザインされてる。重要な詳細を失うことなく、低解像度の画像を高解像度にアップサンプルする方法を使う。
- アテンションメカニズム:デコーダーは、手と顔のパラメータの推定を改善するために、特定の部分に焦点を当てるキーガイドアテンションを使う。
この方法を使うことで、俺たちは人の体、顔、手のもっと正確で整合性のある3D表現を効果的に生成できて、従来の方法の多くの制限を克服してるんだ。
トレーニングと評価
俺たちの方法がうまく機能することを確保するために、大規模なデータセットでトレーニングする必要があった。上半身(UBody)と呼ばれる新しいデータセットを作成して、上半身が見えるさまざまなシナリオを含めたけど、完全には明確じゃないこともある。このデータセットは、さまざまな位置や環境にいる人々の動画をフィーチャーして、モデルがリアルな状況を扱えるように学ぶのを助けてる。
トレーニング中、俺たちはいくつかのメトリックを使ってシステムのパフォーマンスを測定した。主な指標は、平均頂点位置誤差(MPVPE)で、予測されたメッシュが実際の形にどれだけ近いかを見る手助けをするんだ。
結果
俺たちのワンステージモデルは、さまざまなベンチマークで既存のマルチステージシステムよりも良いパフォーマンスを示した。全身だけでなく、手や顔などの特定の部分についても、別々のデータセットに頼らずに正確な結果を出せることが分かったんだ。
より良いデータセットの構築:UBody
UBodyデータセットは、基本的な回復タスクと、サイン言語認識やジェスチャー生成のようなもっと複雑なアプリケーションのギャップを埋めることを目的に作られた。異なるアクションやインタラクションを示す高品質な動画で構成されてて、モデルがリアルなシーンから効果的に学べるようにしてる。
データは、パフォーマンス動画やオンラインクラスなど、さまざまなソースから集められていて、モデルが学ぶための良い例を提供してる。それぞれの動画は、関連するアクションに焦点を当てるために丁寧にトリミングされて、高品質な入力を俺たちのトレーニングプロセスに供給してるんだ。
アノテーションプロセス
アノテーションのために、俺たちは2Dと3Dのアノテーションを含む詳細なパイプラインを開発した。最初のステップは、2Dで主要な体の部分を特定すること。高度なポーズ推定モデルを使って、体、手、顔のためのキーポイントの位置を正確に特定できる。これによって、さらなる分析の基盤となる正確な2Dアノテーションを作成できるんだ。
次に、これらの2Dキーポイントを3Dメッシュパラメータに変換して、より良い精度のために選択したモデルにフィットさせる。このプロセスは、アノテーションの質を時間と共に向上させるために、トレーニングと精製を続けるループを含むんだ。
UBodyのユニークな特徴
UBodyデータセットにはいくつかのユニークな特徴があるよ:
- リアルライフシナリオ:他のデータセットが管理された環境に焦点を当てることがある中、UBodyは実生活を代表する自発的なアクションを特徴してる。
- 多様な条件:データセットにはさまざまな照明条件や角度が含まれていて、モデルが遭遇するかもしれない異なるシナリオに対処できるようにしてる。
実験結果
実験では、俺たちのシステムが従来のマルチステージ方法を大幅に上回ることが分かった。結果は、特に遮蔽や動きのブレで予測が複雑になりやすい状況で回復されたメッシュの精度が明らかに改善してることを示してる。
今後の方向性
俺たちの現在のアプローチは有望な結果を示しているけど、改善の余地はまだある。将来的には、手や顔に特化した追加のデータセットを統合して、モデルのパフォーマンスをさらに向上させることを検討するかもしれない。それに、UBodyのリアルワールドアプリケーションでの有効性を検証することで、重要な洞察を得ることができる。
結論
要するに、俺たちは全身メッシュ回復のためのワンステージパイプラインを開発して、プロセスを簡素化しながら優れた結果を達成した。新しいデータセットであるUBodyと俺たちのメソッドは、強力なトレーニングプラットフォームと、画像から3D体形状を回復する方法についてのより明確な理解を提供することで、分野に大きく貢献することを目指してる。
以前のモデルが直面していた重要な課題に取り組むことで、俺たちはさまざまな設定で人間のポーズや表現を理解するための新しいアプローチを提供しているし、この重要な研究分野での将来の研究やアプリケーションへの道を開いているんだ。
タイトル: One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer
概要: Whole-body mesh recovery aims to estimate the 3D human body, face, and hands parameters from a single image. It is challenging to perform this task with a single network due to resolution issues, i.e., the face and hands are usually located in extremely small regions. Existing works usually detect hands and faces, enlarge their resolution to feed in a specific network to predict the parameter, and finally fuse the results. While this copy-paste pipeline can capture the fine-grained details of the face and hands, the connections between different parts cannot be easily recovered in late fusion, leading to implausible 3D rotation and unnatural pose. In this work, we propose a one-stage pipeline for expressive whole-body mesh recovery, named OSX, without separate networks for each part. Specifically, we design a Component Aware Transformer (CAT) composed of a global body encoder and a local face/hand decoder. The encoder predicts the body parameters and provides a high-quality feature map for the decoder, which performs a feature-level upsample-crop scheme to extract high-resolution part-specific features and adopt keypoint-guided deformable attention to estimate hand and face precisely. The whole pipeline is simple yet effective without any manual post-processing and naturally avoids implausible prediction. Comprehensive experiments demonstrate the effectiveness of OSX. Lastly, we build a large-scale Upper-Body dataset (UBody) with high-quality 2D and 3D whole-body annotations. It contains persons with partially visible bodies in diverse real-life scenarios to bridge the gap between the basic task and downstream applications.
著者: Jing Lin, Ailing Zeng, Haoqian Wang, Lei Zhang, Yu Li
最終更新: 2023-03-28 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.16160
ソースPDF: https://arxiv.org/pdf/2303.16160
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。