人間中心の認識を進めるHumanBench
HumanBenchとPATHは、人体モデル評価の新しい基準を打ち立てた。
― 1 分で読む
目次
人間中心の認識は、監視、自動運転車、バーチャルワールドなど、いくつかの分野で重要だよね。人間の姿を理解するために、さまざまなタスクでうまく機能する一般的なモデルが必要なんだ。この記事では、HumanBenchっていう新しいアプローチについて話すよ。これ、ヒューマンセンターモデルを評価するためのベンチマークを作ることを目指してるんだ。さらに、Projector Assisted Hierarchical pre-training(PATH)っていうトレーニング方法も紹介するよ。これ、モデルがいろんなデータからもっと良く学べるようになるんだ。
HumanBenchの概要
HumanBenchは、既存のデータセットを使って、人間に関するさまざまなタスクで異なるトレーニング方法がどれだけうまくいくかを評価するために作られたんだ。タスクには次が含まれるよ:
HumanBenchは、これらのタスクを評価するために19の異なるデータセットを使ってるよ。こうすることで、研究者はさまざまな状況でトレーニング方法がどれくらい一般化できるかを明確に把握できるんだ。
HumanBenchの主な特徴
画像の多様性:データには、個人に焦点を当てた画像や、広いシーンを示す画像など、さまざまなタイプの画像が含まれてる。この多様性がモデルがたくさんの例から学ぶのを助けるんだ。
包括的評価:HumanBenchは、さまざまなタスクからのデータを組み合わせて、モデルがどのくらいうまくいくかを深く評価するんだ。
人間中心の認識における課題
人間の姿を理解する進歩があったとはいえ、既存の研究の多くは特定のタスクに焦点を当ててるんだ。これが時間とリソースの高いコストにつながることがある。課題には、各タスクに特化したデザインが必要なことや、複数の人間中心タスクで効率よく機能するモデルを作るのが難しいことが含まれるよ。
一般モデルの必要性
いろんな人間中心タスクに対応できる単一のモデルを作ることが可能かどうかを探る考え方があるんだ。これが実現できそうな理由は二つあるよ:
タスクの相関:多くのタスクには共通の特徴があるんだ。例えば、ポーズ推定と人間解析は体を見るけど、注釈の詳細さが違うことがある。これらを一緒にトレーニングすると、モデル全体のパフォーマンスが向上するんだ。
大規模な深層ニューラルネットワーク:最近の深層学習モデルの進歩により、大きなネットワークがさまざまな入力タイプやタスクを扱えることが示されてる。Uni-PerceiverやBEITv3のようなモデルは、異なる視覚と言語のタスクでうまく機能するんだ。
一般的な人間中心モデルへの障害
一般モデルの潜在的な利点にもかかわらず、二つの主要な課題があるんだ:
統一されたベンチマークの欠如:特定のタスクに対するベンチマークはいろいろあるけど、人間中心タスク全体で異なるトレーニング方法を公平に比較する単一のベンチマークは存在しないんだ。
詳細さの必要性:人間中心モデルは、全体的な特徴(全体的なアイデンティティみたいな)と細かいディテール(体のパーツみたいな)を、異なるレベルの詳細から同時に学ぶ必要がある。これがトレーニングプロセスに複雑さを追加するんだ。
HumanBenchフレームワーク
HumanBenchは、人間中心モデルの事前トレーニング用のベンチマークを提供して、このギャップを埋めることを目指してるんだ。この新しいベンチマークは、複数のタスクからデータを集めて、一般化能力を評価するんだ。
データセットの仕様
HumanBenchには、個人中心の画像と広いシーンの画像が組み合わさってる。約1100万枚の画像が37のデータセットに含まれていて、5つの主要なタスクをカバーしてる。システマティックなスケールで事前トレーニングモデルを評価して、詳細な評価を確実にしてるよ。
PATH:Projector Assisted Hierarchical Pre-training
多様なデータセットから学ぶ複雑さに対処するために、PATHを導入したんだ。この方法は階層的なウェイト共有戦略を取り入れて、モデルがタスク間で共有知識を学びつつ、各タスクの具体的な要件にも応じられるようにするんだ。
PATHの仕組み
PATHは、異なるデータセットで共有されるバックボーンネットワークを使ってる。各タスクには、タスク特有の特徴に焦点を当てるプロジェクターがあって、ヘッドはデータセット特有でユニークな特性を管理してるよ。
一般的な特徴の抽出:バックボーンは、さまざまな画像から一般的な特徴を抽出するんだ。
タスク特有の特徴:各タスク特有のプロジェクターが、共有された特徴から関連する特徴を選ぶよ。
データセット特有の出力:各データセットには、タスク特有の特徴を評価用の使える出力に変換するヘッドがあるんだ。
PATHの利点
タスクの対立の軽減:特定のウェイトとパラメータを共有することで、PATHは複数のタスクを同時に扱うときに生じる対立を避ける手助けをするんだ。
柔軟性:階層的な構造が効率的なトレーニングを可能にしつつ、異なるタスクに適応する能力を維持するんだ。
評価方法
HumanBenchは、事前トレーニングモデルのパフォーマンスを評価するために、3つの異なる評価方法を使ってるよ:
フルファインチューニング:ネットワーク全体が特定のタスクに基づいて調整され、モデルが最適に学べるようにするんだ。
ヘッドファインチューニング:ヘッドだけがトレーニングされて、モデルの主要な構造はそのままにするんだ。これで、主要な調整なしでモデルがどれだけ一般化できたかを確認できるよ。
部分ファインチューニング:この方法は、モデルのほんの一部のレイヤーだけを更新することで、適応性と学習した知識を保持するバランスを取るんだ。
実験結果
実験結果は、PATHメソッドがHumanBenchのさまざまなタスクで大幅に改善することを示していて、多くの最先端モデルと比較していい結果を出してるよ。
インデータセット評価
この方法では、モデルは訓練時に似たデータでテストされる。結果は、HumanBenchがフルファインチューニングされたとき、多くの他の方法よりもいくつかのデータセットで優れたパフォーマンスを発揮したことを示してるんだ。
アウトオブデータセット評価
ここでは、モデルは訓練されていないタスクで動作して、適応能力を示すんだ。モデルは見たことのないデータに対して強いパフォーマンスを発揮して、異なるデータセット間での一般化能力を証明してるよ。
未見タスク評価
モデルのパフォーマンスは、完全に新しいタスク(例えば群衆カウント)で評価される。結果は、PATHで訓練されたモデルが具体的に設計されていないタスクでも強力なパフォーマンスを維持していることを示してるんだ。
他のモデルとの比較
MAEやCLIPのような人気のある事前トレーニングモデルと比較すると、PATHメソッドは人間中心のタスクで顕著な改善を示してる。これから、データセットの多様性とカスタマイズされたトレーニング戦略が効果的な人間中心の認識には欠かせないってことがわかるよ。
結論
HumanBenchは、人間中心のタスクのためのベンチマークを作る上で重要な一歩を示してる。PATHが事前トレーニング方法として導入されたことで、モデルがさまざまなデータソースやタスクから学ぶ能力を向上させる可能性があるよ。この研究は、さまざまな人間中心のタスクに適応できる統一構造を設計するための基盤を築いていて、リアルなアプリケーションにおけるコンピュータビジョンの効果を高める手助けをするんだ。
今後の方向性
これからは、統一ネットワーク構造や革新的な学習方法の開発が、人間中心の認識を進めるために重要な役割を果たすだろうね。研究者たちは、HumanBenchから得た洞察を活かして、この分野でのより広い応用や改善を促進したいって考えてるんだ。
タイトル: HumanBench: Towards General Human-centric Perception with Projector Assisted Pretraining
概要: Human-centric perceptions include a variety of vision tasks, which have widespread industrial applications, including surveillance, autonomous driving, and the metaverse. It is desirable to have a general pretrain model for versatile human-centric downstream tasks. This paper forges ahead along this path from the aspects of both benchmark and pretraining methods. Specifically, we propose a \textbf{HumanBench} based on existing datasets to comprehensively evaluate on the common ground the generalization abilities of different pretraining methods on 19 datasets from 6 diverse downstream tasks, including person ReID, pose estimation, human parsing, pedestrian attribute recognition, pedestrian detection, and crowd counting. To learn both coarse-grained and fine-grained knowledge in human bodies, we further propose a \textbf{P}rojector \textbf{A}ssis\textbf{T}ed \textbf{H}ierarchical pretraining method (\textbf{PATH}) to learn diverse knowledge at different granularity levels. Comprehensive evaluations on HumanBench show that our PATH achieves new state-of-the-art results on 17 downstream datasets and on-par results on the other 2 datasets. The code will be publicly at \href{https://github.com/OpenGVLab/HumanBench}{https://github.com/OpenGVLab/HumanBench}.
著者: Shixiang Tang, Cheng Chen, Qingsong Xie, Meilin Chen, Yizhou Wang, Yuanzheng Ci, Lei Bai, Feng Zhu, Haiyang Yang, Li Yi, Rui Zhao, Wanli Ouyang
最終更新: 2023-03-09 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.05675
ソースPDF: https://arxiv.org/pdf/2303.05675
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。