SCD-Net: 骨格ベースのアクション認識を進める
新しいフレームワークは、空間的な手がかりと時間的な手がかりを分けることでアクション認識を改善する。
― 1 分で読む
骨格に基づくアクション認識は、人間の動作を骨格データを使って特定する方法だよ。この方法は最近、2つの主な理由で発展してきた。まず、特にグラフ畳み込みネットワーク(GCN)などの深層学習モデルが、このタスクに対して効果的だと証明されていること。次に、NTU-RGB+Dみたいな大規模データセットが作られて、研究のためのしっかりした基盤が提供されていること。
でも、うまく機能するモデルを作るには、大量のラベル付きデータが必要で、これを集めて注釈を付けるのは難しいことが多い。そこで、自主教師あり学習が人気になっている。このアプローチは、外部のラベルに頼るのではなく、データの自然な関係を利用する。特に、対照学習は手動でのラベルなしでデータの有用な表現を学ぶことができるから、期待が高いんだ。
現在の方法の課題
ほとんどの既存のアプローチでは、骨格に基づくアクション認識のデータを処理する際に、情報の異なる部分を絡ませて扱うことが多い。多くの場合、データを単一の複雑な表現として扱ってしまう。時空間データのどちらかにだけ焦点を当てようとする方法もあるが、完全に分離するのはうまくいっていないんだ。さらに、多くの技術は同じ表現レベルからデータをペアにしてしまい、情報のさまざまなタイプ間の違いを考慮していない。この見落としによって、データ拡張法の潜在能力が十分に活用されていない。
これらの問題に対処するために、空間と時間の手掛かりを分離することに焦点を当てた新しい学習フレームワーク「時空間手掛かり解消ネットワーク(SCD-Net)」を提案するよ。この方法は、データの空間的および時間的手掛かりを分けることにより、より明確な表現を作成し、アクション認識のパフォーマンスを向上させるんだ。
SCD-Netフレームワークの理解
SCD-Netの仕組み
SCD-Netは、特徴抽出器とデカップリングモジュールを組み合わせている。特徴抽出器は骨格シーケンスから基本的な特徴を取り出し、デカップリングモジュールはこれらの特徴を空間的および時間的なカテゴリーに分ける。これによって、異なる情報タイプ間の相互作用をより効果的に管理できるようになるんだ。
SCD-Netのトレーニングでは、空間的および時間的領域のすべての情報を表すグローバルアンカーを使用する。このアンカーは異なる情報の部分をつなげ、ネットワークがすべてのデータから効率的に学ぶことを促す。
フレームワークのもう一つの重要な部分は、新しいマスキング戦略で、データに特定の制約を適用する。この戦略は最近のマスク画像モデリングの進展を基にしていて、モデルがシーケンスの異なる部分間の関係をよりよく学べるようにするんだ。
SCD-Netの主な特徴
デュアルパスエンコーダ: このエンコーダは、骨格シーケンスから明確な空間的および時間的表現を生成するのに役立つ。最初にデータを集めて、次に空間的または時間的特徴に焦点を当てた別々の層に分ける。
クロスドメイン対照損失: この損失関数は、モデルが異なる表現がどのように関連しているかを学ぶのを導く。グローバル表現を他の表現とつなげて、類似点や違いを測定し、モデルが有用な区別を学ぶように助ける。
構造化データ拡張: 我々のデータ拡張へのアプローチは、入力データの領域をマスキングして、モデルがさまざまなコンテキストから学ぶことを促すものだ。この方法は、トレーニングデータの多様性を高めるだけでなく、モデルが骨格シーケンスに存在する関係をより強固に理解できるようにする。
実験と結果
SCD-Netの効果を評価するために、NTU-RGB+D(60および120カテゴリー)とPKU-MMDという2つの人気のデータセットを使ってテストを行った。これらのデータセットには、複数の被験者によって実行されたさまざまなアクションが含まれていて、我々のフレームワークのテストには良い基盤を提供してくれる。
アクション認識のパフォーマンス
アクション認識タスクでは、リニア評価アプローチを採用した。これは、モデルの事前トレーニングしたパラメータを固定し、ラベル予測にコミットした新しい層だけをトレーニングするってこと。結果として、SCD-Netが既存の方法を大きく上回った。特に、NTU-60では最大5.5%、NTU-120では4.1%の精度向上を示したんだ。PKU-MMDでも素晴らしいパフォーマンスを示したよ。
アクション検索
アクション検索タスクでは、KNeighbors分類器を使って全ての事前トレーニングしたパラメータを固定したままSCD-Netをテストした。我々の方法は、NTU-60とNTU-120の両方で印象的な結果を達成し、精度が以前の方法を大きく上回った。
転送学習
我々の方法は、転送学習タスクでも効果的だった。一つのデータセットから得た知識を別のデータセットに転送し、SCD-Netがどうやって異なるドメインで学んだ情報を保持して適用できるかを示した。以前の方法と比較して、パフォーマンスが最大11.2%向上したんだ。
半教師あり学習
半教師あり学習のシナリオでは、ラベル付きデータが1%しかない場合でも、SCD-Netは69%以上の精度を達成した。ラベル付きデータが10%に増えると、パフォーマンスが大幅に改善されて、我々のアプローチの堅牢性が示された。
SCD-Netの構成要素
デュアルパスデカップリングエンコーダ
デュアルパスデカップリングエンコーダは、SCD-Netにおいて重要で、空間的および時間的情報をスムーズに分離することを可能にする。最初に、モデルはデータ拡張を適用して入力データの新しいビューを作成する。次に、特徴を抽出してデカップルして、異なる空間的および時間的表現を生成する。この分離は重要で、絡み合った情報は認識中に混乱を招く可能性があるからだ。
クロスドメイン対照損失
クロスドメイン対照損失は、モデルが異なる表現の違いを学ぶ能力を測定する。グローバル表現をアンカーにすることで、SCD-Netは異なるタイプの情報の相互作用を改善する。この助けにより、モデルはさまざまなアクションの微妙な違いを見極めることができるんだ。
データ拡張技術
我々は、空間的および時間的次元の両方でマスキングを用いた構造化されたデータ拡張形式を導入した。この方法は、個々のポイントではなく、関連するジョイントやフレームのグループをマスキングすることで、モデルがさまざまなコンテキストから学ぶことを可能にする。こうすることで、トレーニングデータの多様性を高め、モデルが関係をより効果的に捉えることを促す。
実験的バリデーション
SCD-Netのさまざまな構成要素を検証するために、複数の実験を行った。特徴抽出器やデカップリングモジュールなどの要素を取り除くと、パフォーマンスが大きく低下した。これは、明確な特徴分離が可能な設計されたアーキテクチャを持つことが重要であることを再確認させるものだ。
結論
要するに、SCD-Netは空間的および時間的手掛かりを解消することに焦点を当てた新しい方法を骨格に基づくアクション認識に導入している。より明確な表現を作成し、革新的なデータ拡張技術を利用することで、我々の方法はさまざまなタスクで既存の方法を上回るだけでなく、分野の新しい基準を設けるんだ。
未来の研究では、これらの構成要素をさらに洗練させたり、自主教師あり学習パラダイムを活用する新しい方法を探ったりすることに焦点を当てるかもしれない。我々の研究は、骨格シーケンスからの情報の処理と利用を強化することでアクション認識の精度を向上させる可能性を示しており、人間の動作理解における進歩の道を切り開くことができると思うよ。
タイトル: SCD-Net: Spatiotemporal Clues Disentanglement Network for Self-supervised Skeleton-based Action Recognition
概要: Contrastive learning has achieved great success in skeleton-based action recognition. However, most existing approaches encode the skeleton sequences as entangled spatiotemporal representations and confine the contrasts to the same level of representation. Instead, this paper introduces a novel contrastive learning framework, namely Spatiotemporal Clues Disentanglement Network (SCD-Net). Specifically, we integrate the decoupling module with a feature extractor to derive explicit clues from spatial and temporal domains respectively. As for the training of SCD-Net, with a constructed global anchor, we encourage the interaction between the anchor and extracted clues. Further, we propose a new masking strategy with structural constraints to strengthen the contextual associations, leveraging the latest development from masked image modelling into the proposed SCD-Net. We conduct extensive evaluations on the NTU-RGB+D (60&120) and PKU-MMD (I&II) datasets, covering various downstream tasks such as action recognition, action retrieval, transfer learning, and semi-supervised learning. The experimental results demonstrate the effectiveness of our method, which outperforms the existing state-of-the-art (SOTA) approaches significantly.
著者: Cong Wu, Xiao-Jun Wu, Josef Kittler, Tianyang Xu, Sara Atito, Muhammad Awais, Zhenhua Feng
最終更新: 2023-09-11 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.05834
ソースPDF: https://arxiv.org/pdf/2309.05834
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。