3D人間-物体相互作用を追跡する新しい方法
単一のカメラで3Dの動きを正確に追跡する新しいアプローチ。
― 1 分で読む
目次
人が自分の周りの環境とどうやってやり取りするかを3D空間で捉えるのは、ロボティクスやゲーム、バーチャルリアリティなどさまざまな分野でめっちゃ重要なんだ。でも、最近の努力で人や物の3D画像を普通の写真から再構築することは、視界が遮られたり、奥行きがちゃんと考慮されなかったりすることがあって、まだまだ難しいんだ。これが原因で、異なる画像間での動きを正確に追跡するのが大変なんだよね。
この記事では、隠れている部分があったり見えない部分があっても、たった1台のカメラで人と物の3Dの動きを効果的に追跡する新しい方法を紹介するよ。私たちのアプローチは2つの主なアイデアに基づいてる。まず、各フレームごとにモデルの推定を使って3D再構築の精度を上げて、時間を通して一貫した動きを維持するの。次に、見える動きを使って完全には見えない物の状態を予測して、位置についてより良い推測ができるようにするんだ。
特定のデータセットに基づいた実験を通じて、私たちの方法が既存の技術よりも優れていることを示して、人と物のインタラクションを捉えるのに効果的であることを実証したよ。
人と物のインタラクションを追跡する重要性
人が物とどうやってやり取りするかを理解するのは、色んなアプリケーションで大事だよね。正確な追跡ができれば、ロボティクスやゲームなどの機能を強化できる。ただ、これらのインタラクションを捉えるのは簡単じゃないんだ。
以前の方法は、高精度を達成するために密なカメラセットアップといった高価なハードウェアに依存してた。最近のアプローチは複数のRGBDカメラを使うけど、システムをセットアップするのがややこしくて高価だから、日常的な使用には向いてないんだよね。だから、消費者にも使いやすい1台のRGBカメラで人と物のインタラクションを効果的に追跡できる方法が必要なんだ。
たった1台のカメラから人や物の3D動きを捉えるのは難しい。奥行き情報がないと、正確に動きを追跡するのが難しくなるんだ。特に、物や人が部分的に視界を遮られている状況では、予測に不確実性が生じる。
以前の方法はしばしば手動で作成されたルールを使ってこれらの問題に取り組んでいたけど、高精度やスケーラビリティは示されていなかった。他の方法、例えばCHOREは、特定のモデリング技術を再構築法と組み合わせて一定の成功を収めたけど、CHOREは固定された奥行きの仮定に頼っていて、時間を通じての動きを正確に追跡するのが難しかった。また、CHOREはカメラが物をはっきりと見られないような高度に遮蔽された状況でも苦労してた。
私たちの提案する方法
私たちは、たった1台のカメラを使って、人と物を3Dで追跡する新しい方法を提案するよ。この技術は、ニューラルフィールド予測とモデルフィッティングの2つの先進的なアプローチを融合させてる。この組み合わせは、人のポーズを回帰するだけの従来の方法よりも効果的だった。
固定された奥行きを押し付けるのではなく、私たちの方法は各フレームごとにモデルの推定を使って動きの一貫した理解を維持してる。このアプローチにより、より良い追跡と再構築の結果が得られるんだ。
さらに、インタラクション中は物の動きが人の動きと密接に関連していることが多いと認識してる。この洞察により、見えるフレームからの動きデータを利用して隠れている物についての情報を推測できるようになった。私たちの方法は、隠れているフレームの予測を改善するために、人の動きと物の可視性データの両方を利用する特別なタイプのニューラルネットワークを使用してる。
このアプローチにより、視界が制限されているような複雑な状況でも、人と物の両方をより信頼性を持って追跡できるようになったよ。
方法の評価
私たちの方法を検証するために、人と物のインタラクションを特徴とする2つのデータセットで実験を行った。結果は、私たちの方法が、重い遮蔽に直面しても人と物の間の動きやリアルなインタラクションを効果的に追跡できることを示してる。
また、私たちは既存の技術であるPHOSAやCHOREと私たちのアプローチを比較した。これらの以前の方法はしばしば遮蔽に苦しんで、追跡精度に問題が生じた。一方、私たちの方法は人の動き情報と可視性データを組み合わせることで、物の一部がはっきり見えない時でも頑丈に動きを追跡できるようになってる。
主な貢献
人と物の共同追跡: 私たちの方法は、たった1台のカメラを使って、動く物とインタラクションする人の全身の動きを初めて共同で追跡するものだよ。
条件付きインタラクションフィールド: モデルの推定に基づいて動きを予測する特別なネットワークを導入したことで、人と物のインタラクションの一貫した追跡を可能にした。
物のポーズ予測: 私たちのアプローチには、部分的に隠れている場合でも物のポーズを正確に予測できるネットワークが含まれてる。
私たちの実験は、これらの革新が現在のリーディングメソッドに対して大きな改善をもたらすことを確認した。私たちの公開可能なコードとモデルは、この分野でのさらなる研究を促進することを目指してる。
方法の概要
私たちのアプローチは、人が物とインタラクションするシーケンスの画像から始まる。目標は、人と物の3Dの動きを再構築して追跡すること、そしてそれらの間に発生する接触を捉えることだ。
最初の重要なアイデアは、カメラスペースからの推定モデルに基づいてニューラルフィールドを予測する専門のネットワークだ。このプロセスにより、フレーム間で一貫した追跡を維持できる。二つ目の重要な洞察は、人の動きと可視性情報を考慮に入れながら物のポーズを予測することに焦点を当ててる。このプロセスは、重い遮蔽の下でも物を正確に追跡するのに役立つ。
これらの要素を組み合わせることで、人と物の両方の追跡を共同で最適化する能力が向上して、遮蔽による課題にも対処できるようになった。
関連研究
人と物の動きを追跡する
SMPLのようなボディモデルの導入は、画像や動画からの人の動きの回復に大きな進展をもたらした。物のポーズ推定においてディープラーニングを使った改善もあったけど、動画の中での物の動きを追跡することはあまり注目されてない。一部の方法が視覚証拠からカメラの位置を利用してるけど、遮蔽されたシナリオではうまくいかないことも多いし、人と物のインタラクションを追跡することはできてない。
人と物のインタラクション
人と物のインタラクションをモデル化することは成長中の研究分野だ。手が物とどうやってやり取りするかを研究する特定の研究もあって、RGBやRGBD画像などのさまざまな入力を使ってる。BEHAVEやInterCapのようなデータセットが、動く物とのフルボディインタラクションをベンチマークするために作成されてるけど、現在の多くの方法は複雑なセットアップに依存していて、1台のカメラの視界からインタラクションを効果的に捉えることができてない。
障害物の対処
ほとんどの既存のシステムは、入力画像が遮蔽から自由であると仮定しているため、その頑丈さが制限されている。一部の方法は部分的または長期的な遮蔽を考慮しているけど、人と物のインタラクションを包括的に捉えているわけではない。私たちの方法は、人の動きと物の可視性の両方を考慮してインタラクションを追跡する点でユニークで、より正確なアプローチを提供している。
単眼追跡の課題
単一のカメラから人や物の動きを追跡する際の主な課題は、奥行き情報の取り扱いだ。多くの既存の方法は固定された奥行きの仮定に依存してるから、時間を通じての追跡の一貫性が失われてしまう。
これらの問題を解決するために、動画シーケンス全体にわたって人のモデルをフィットさせて、カメラスペースでの一貫した変換を得る。フィッティングプロセスは、フレーム間での一貫した動きを維持したり、人や物、そのインタラクションの効果的な共同モデリングを可能にしたりするのに役立つんだ。
物が部分的にしか見えない時はさらに難しくなる。この問題に対処するために、隣接するフレームからの動きデータを利用して隠れた物のポーズを回復するネットワークを組み込んでる。この方法は、人と物の動きを使って追跡の精度を改善するものだ。
技術的アプローチ
私たちのアプローチの最初のステップは、画像のシーケンスから一貫した人のメッシュを取得することだ。別のモデルからの予測を使って人のモデルのパラメータを初期化して、動画全体での結果の変換が一貫していることを確保する。
次に、私たちは人と物の動きについて共同で考えることができるインタラクションフィールドを導入する。私たちのネットワークは、入力画像と推定されたメッシュを処理してインタラクションフィールドを予測する。このフィールドには、人や物の表面までの距離やそれらの関係に関する情報が含まれてる。
物の追跡には、現在のフレームで物がどれだけ見えるかを予測する可視性デコーダーを利用する。このデコーダーは、隠れたフレームの情報回復において重要な役割を果たすんだ。
物のポーズ回復
物が重く遮蔽されている状況で物のポーズを正確に予測するために、見えるフレームからの情報を活用する。このプロセスは、人と物のデータからの動きの特徴を集約して、予測を改善することを含んでいる。
私たちは、時系列情報を捉えるためにトランスフォーマーというタイプのニューラルネットワークを使っていて、遮蔽中でも物のポーズをより正確に予測できるようにしている。見えるフレームからの特徴を組み合わせることで、私たちのアプローチは文脈情報を考慮しない線形補間のような単純な方法よりも優れている。
共同最適化
正確な動きの追跡を実現するために、私たちは頑健な共同最適化手法を通じて方法を最適化する。このプロセスは、人と物の動きを2D観測と整合させて、リアルなインタラクション制約を確保することに焦点を当てている。
最適化プロセスは、まず人のモデルパラメータを洗練させ、その後物のパラメータを調整する段階に分かれている。この二段階アプローチにより、最終的な追跡結果が向上する。
実験結果
私たちは、さまざまな人と物のインタラクションのシナリオを含むBEHAVEとInterCapデータセットを使って方法を検証した。私たちの結果は、特に重い遮蔽の下でも、既存の方法と比べて私たちのアプローチが動きの追跡をはるかに効果的に行えることを示している。
また、異なる要素の重要性を評価するためにアブレーションスタディも行った。結果は、モデルの推定に条件を付けることが追跡精度の大幅な向上につながることを確認した。
条件付けの重要性
私たちのアプローチがモデルの推定に条件付けを行うことで、フレーム間の相対的な動きの追跡がより一貫性を持って行えるようになっている。これは、固定された奥行きで動作するシステムとは対照的で、しばしば不一致を引き起こすことが多い。
物のポーズ予測を分析することで、私たちの方法が他の技術の生の出力と比較しても追跡エラーを大幅に減少させることが分かった。条件付けプロセスは、人と物の追跡の高精度を達成するために非常に重要だ。
他の方法との比較
私たちは、PHOSAやCHOREといった既存のアプローチとの比較に加えて、物のポーズ予測のためのさまざまな代替案も評価した。これらの代替案の多くは遮蔽に苦労していたけど、私たちの方法は可視フレームデータを利用して隠れたポーズを推測することで堅牢さを維持している。
さらに、私たちの方法がNTU-RGBDデータセットにもよく一般化できることを示して、直接訓練されていなくてもその効果を維持できることを確認した。この適応性は、私たちの追跡技術の多様性とより広い応用の可能性を示している。
制限と将来の方向性
私たちの方法は、重い遮蔽の下でも追跡に進展を示しているけど、いくつかの制限もある。まず、物のテンプレートが既知であると仮定しているけど、これは常に当てはまるわけではない。将来的には、動画から物のテンプレートを自動的に作成するシステムを開発することが考えられる。
さらに、複数の人や物が関与する状況への対処はまだ課題で、私たちはこれに取り組んでいくつもりだ。この向上により、現実のシナリオでよりリアルなインタラクションが捉えられるようになるだろう。
結論
私たちの方法は、単眼RGB動画から人と物のインタラクションを捉える進展を示している。
条件付きニューラルフィールドネットワークを提案して一貫した3D再構築を行い、人の動きと可視性を考慮した別のネットワークを用いることで、従来の方法に対して大幅な改善を達成した。私たちの研究は、他のデータセットへの一般化の可能性も示していて、この分野のさらなる発展の道を開いている。
私たちは、この分野でのさらなる研究を促進し、遮蔽による課題に対処して人と物のインタラクションの追跡精度を向上させる解決策を目指すことを奨励したい。
タイトル: Visibility Aware Human-Object Interaction Tracking from Single RGB Camera
概要: Capturing the interactions between humans and their environment in 3D is important for many applications in robotics, graphics, and vision. Recent works to reconstruct the 3D human and object from a single RGB image do not have consistent relative translation across frames because they assume a fixed depth. Moreover, their performance drops significantly when the object is occluded. In this work, we propose a novel method to track the 3D human, object, contacts between them, and their relative translation across frames from a single RGB camera, while being robust to heavy occlusions. Our method is built on two key insights. First, we condition our neural field reconstructions for human and object on per-frame SMPL model estimates obtained by pre-fitting SMPL to a video sequence. This improves neural reconstruction accuracy and produces coherent relative translation across frames. Second, human and object motion from visible frames provides valuable information to infer the occluded object. We propose a novel transformer-based neural network that explicitly uses object visibility and human motion to leverage neighbouring frames to make predictions for the occluded frames. Building on these insights, our method is able to track both human and object robustly even under occlusions. Experiments on two datasets show that our method significantly improves over the state-of-the-art methods. Our code and pretrained models are available at: https://virtualhumans.mpi-inf.mpg.de/VisTracker
著者: Xianghui Xie, Bharat Lal Bhatnagar, Gerard Pons-Moll
最終更新: 2023-10-31 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.16479
ソースPDF: https://arxiv.org/pdf/2303.16479
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。