LInKsを使った3Dポーズ推定の進展
LInKsは、隠れがあっても2Dデータから3Dポーズ推定を改善する。
― 1 分で読む
人体のポーズ推定は、コンピュータビジョンの重要な分野だよ。画像や動画の中で、人の体の位置を特定することが含まれてる。これには、人とコンピュータのインタラクションや医療など、いろんな用途があるんだ。ただし、1枚の画像から人の3Dポーズを特定するのは難しいんだ。なぜなら、同じ3Dポーズを指す異なる2Dポーズがたくさんあるから、解決が難しい問題なんだよ。
この問題を解決しようとする方法の多くは、異なる角度からの複数の画像や特別な深度センサーが必要で、リアルな状況での利用が制限されることがある。最近では、大量のラベル付きデータがなくても学習できる新しい技術が注目されてる。こうした方法は、1枚の画像だけでも機能するんだけど、不完全なデータに苦しむことが多い、特に体の一部が見えない場合や誤って特定されるときはね。
より良い方法の必要性
既存の技術は、2Dの体のスケルトン全体を3Dに持ち上げようとするが、遮蔽を無視しがち。体の一部が見えないと、そういう方法は失敗することがある。また、2Dのスケルトン全体を持ち上げることは問題を引き起こすかもしれない。たとえば、関係のない体の部分が最終的な3Dポーズに影響を与え、誤差が生じることもある。
だから、遮蔽をうまく扱い、重要な体のポイント同士を正確につなげる新しい方法が求められてる。私たちの新しいアプローチ、LInKsはこの問題に対処することを目指してる。
LInKsの概要
LInKsは、遮蔽された部分があっても2Dのキーポイントから3Dポーズを復元できる革新的な方法だよ。このプロセスは2つのステップに分かれてて、まずは2Dスケルトンの見える部分を3Dに持ち上げる。次に、利用可能な3D情報を使って欠けている部分を推定・補完する。この「持ち上げてから埋める」戦略は、2Dでしか機能しなかった以前の方法よりもずっと良い結果を示してる。
LInKsの重要な点は、2Dスケルトンの異なる部分を別々に持ち上げられるかを検討することだ。この方法は、キーポイント間の長距離接続に起因するエラーを減らす。テストの結果、別々に持ち上げることで精度が向上することがわかった、特に遮蔽がある場合に。
仕組み
持ち上げて埋めるプロセス
まず、画像から2Dスケルトンを取得する。もし一部が遮蔽されていたら、スケルトンをセクションに分ける、例えば胴体や四肢のキーポイント。これらのセクションごとに、それぞれのネットワークに送って3D座標を予測する。部分的な3Dポーズが得られたら、別のネットワークを使って欠けている座標を予測し、3Dポーズを完成させる。
この方法では、3Dの関節が現実的な動きで動くことを確保できる。人間の関節には特定の動きの範囲があるからね。2Dではなく3Dで遮蔽を扱うことで、人間の解剖学に反する不自然なポーズを防ぐ。
課題への対処
人体のポーズ推定における主な課題の一つは、1つの3Dポーズが多くの異なる2D表現に対応することがある。これが複雑さを生むから、モデルが効果的に学ぶのが難しい。私たちの方法では、ポーズの一部だけを持ち上げることでこれを簡略化してる。これにより混乱が減り、各持ち上げネットワークが特定のセクションに特化するので、2Dと3Dのつながりを学ぶのが簡単になるんだ。
さらに、欠けている部分を予測する能力を向上させるために、遮蔽ネットワークを活用してる。このネットワークは、利用可能な情報に基づいてギャップを埋める方法を学ぶんだ。
データからの学習
私たちの方法をより良くするために、ノーマライジングフローを使って、データをより効果的に管理・学習してる。限られたデータセットに頼るんじゃなくて、既存のデータの分布を学習して新しいサンプルを作成する。これがトレーニングプロセスを豊かにし、より堅牢な予測につながるんだ。
ただ、ランダムサンプリングだと時々奇妙だったり不自然なポーズが生成されることがあった。これに対処するために、生成するポーズがより現実的で一貫性のあるものになるように新しいサンプリングアプローチを開発した。
遮蔽と共に作業する
私たちの方法は、体のパーツが遮蔽されている状況でもよく機能する。さまざまな遮蔽シナリオで遮蔽ネットワークをトレーニングすることで、見えないキーポイントを効果的に予測できる。
評価中、私たちの技術を従来の方法と比較した。結果は、3Dでポーズを持ち上げることで、2Dのギャップを埋めるよりもずっと正確な結果が得られたことを示している。
テストと結果
LInKsを人気のデータセットでテストした。結果は明らかで、私たちの持ち上げモデルが遮蔽のないシナリオで既存の方法よりも優れていることが示された。通常の状況での精度が向上するだけでなく、私たちのモデルは遮蔽にも効果的に対処できる。Human3.6Mデータセットでのテストでは、以前のアプローチと比べ大幅な精度向上を達成した。
四肢が欠けている場合でも、私たちのモデルはそれを3Dに持ち上げることで、より正確に完全なポーズを予測できることを示した。
アプローチの制限
LInKsは大きな可能性を示しているが、まだ制限がある。たとえば、1つのキーポイントが欠けていると、他の座標の有用な情報を失うことがある。体の両側からの2つのポイントが見えない場合など、横の遮蔽は挑戦となる。
さらに、私たちのアプローチは特定の状況でポーズを誤解することもある。たとえば、モデルが人をしゃがんでいると特定することがあるが、実際には座っている場合がある。これは胴体データだけで脚の位置を推定することの難しさを示してる。今後の研究では、こうした課題に対してより堅牢な方法に洗練させたい。
結論
LInKsは、遮蔽された部分があっても2Dデータから3Dポーズを効率的に取得する方法を提供する。重要な部分を別々に持ち上げて専用のネットワークでギャップを埋めることで、エラーを大幅に減らし、ポーズ推定の精度を改善できる。さらに、より幅広いポーズから学べるよう生成的なデータサンプリングアプローチを導入してる。
全体として、私たちの方法は人体のポーズ推定における遮蔽を扱う際の進歩を示している。この挑戦的な分野でさらなる研究を促し、さまざまな状況に効果的に対応できるように方法を洗練させ続けたいと思ってる。
タイトル: LInKs "Lifting Independent Keypoints" -- Partial Pose Lifting for Occlusion Handling with Improved Accuracy in 2D-3D Human Pose Estimation
概要: We present LInKs, a novel unsupervised learning method to recover 3D human poses from 2D kinematic skeletons obtained from a single image, even when occlusions are present. Our approach follows a unique two-step process, which involves first lifting the occluded 2D pose to the 3D domain, followed by filling in the occluded parts using the partially reconstructed 3D coordinates. This lift-then-fill approach leads to significantly more accurate results compared to models that complete the pose in 2D space alone. Additionally, we improve the stability and likelihood estimation of normalising flows through a custom sampling function replacing PCA dimensionality reduction previously used in prior work. Furthermore, we are the first to investigate if different parts of the 2D kinematic skeleton can be lifted independently which we find by itself reduces the error of current lifting approaches. We attribute this to the reduction of long-range keypoint correlations. In our detailed evaluation, we quantify the error under various realistic occlusion scenarios, showcasing the versatility and applicability of our model. Our results consistently demonstrate the superiority of handling all types of occlusions in 3D space when compared to others that complete the pose in 2D space. Our approach also exhibits consistent accuracy in scenarios without occlusion, as evidenced by a 7.9% reduction in reconstruction error compared to prior works on the Human3.6M dataset. Furthermore, our method excels in accurately retrieving complete 3D poses even in the presence of occlusions, making it highly applicable in situations where complete 2D pose information is unavailable.
著者: Peter Hardy, Hansung Kim
最終更新: 2023-09-13 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.07243
ソースPDF: https://arxiv.org/pdf/2309.07243
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。