LiteTrack:エッジデバイス向けの効率的なビジュアルトラッキング
LiteTrackは、さまざまなアプリでの物体追跡のために、スピードと精度のバランスを取ってるよ。
― 1 分で読む
目次
ビジュアルトラッキングはコンピュータビジョンの重要なタスクで、オブジェクトが動画内を動く際にその動きを追跡することを含む。この技術は監視、自動運転車、ロボティクスなど多くのアプリケーションにとって不可欠なんだ。近年、深層学習や強力なニューラルネットワークの発展により、この分野は目覚ましい進歩を遂げてきた。
最近、トランスフォーマーと呼ばれる新しいタイプのモデルがビジュアルトラッカーの性能を大幅に向上させた。このモデルは視覚情報を理解・処理する能力が強い。しかし、これらのモデルが進化するにつれて、計算パワーがより必要になったり、動作が遅くなることがよくある。特にリアルタイムの状況、例えば計算リソースが限られているデバイスでは問題になりがちだ。
この速度の問題を解決しつつ、精度を維持するために、LiteTrackという新しいモデルが導入された。このモデルはさまざまなデバイスで迅速かつ効率的にトラッキングできるように特別に設計されていて、他の軽量トラッカーと比べても速度と精度のバランスが優れている。
LiteTrackの主な特徴
LiteTrackには他のトラッキングモデルと比べて際立っているいくつかの主な特徴がある:
非同期特徴抽出:LiteTrackはテンプレート(追跡するオブジェクト)と検索領域(オブジェクトが存在する可能性がある広い範囲)から特徴を別々に抽出する。この方法が特徴間の相互作用を改善し、パフォーマンスを向上させ、不必要な計算を減らしている。
レイヤープルーニング:LiteTrackはレイヤープルーニングという技術を採用していて、重要でないニューラルネットワークのレイヤーを削除する。これによりモデルの複雑さが減り、パフォーマンスはそのままに処理速度が向上する。
成功の例として、LiteTrackの一つのバージョンはベンチマークテストで高得点を達成し、非常に高速で動作した。エッジデバイス上で1秒間に100フレーム以上処理できる効率を示した。
ビジュアルトラッキングの課題
ビジュアルトラッキングの主な課題はパフォーマンスと速度のバランスを取ることだ。最近のトップパフォーマーのトラッカーは強力なGPUではよく動作するが、計算パワーのないデバイスでは苦労する。例えば、ある有名なトラッカーは強力なGPUでは37フレーム毎秒に達するが、小型であまり強くないデバイスでは5フレーム毎秒に落ちてしまう。
この大きな違いは、特にロボティクスのようなリアルタイムアプリケーションで、さまざまなデバイスでうまく動作するモデルの必要性を強調している。
LiteTrackと他のトラッカーの比較
最新のトラッカーと比較すると、LiteTrackモデルは同じ精度を保ちながら、かなりの速度を提供できることがわかる。例えば、人気のあるベンチマークテストの結果から、LiteTrackは速度に関して競争相手を上回っているが、精度は犠牲にしていない。
注目すべき点は、LiteTrackモデルは他の効率的なトラッカーがパフォーマンスを向上させるために利用する追加のトレーニングデータを使用せずに競争力のある結果を達成していることだ。
LiteTrackの構成
LiteTrackモデルは二つの主要なコンポーネントから成っている:
特徴抽出ステージ (FE):このステージはテンプレートと検索画像から特徴を抽出する役割を担っている。LiteTrackはまずテンプレートを処理し、その後検索領域を処理することで、両者の相互作用を効果的にする。
非同期相互作用ステージ (AI):特徴を抽出した後、このステージでLiteTrackはテンプレート特徴と検索特徴を組み合わせる。これにより、全体的な効率を高めるスリムな処理方法が可能になる。
この二段階のアプローチを使用することで、LiteTrackは冗長な計算を最小限に抑え、速度を最大限に高めているので、リアルタイム環境での利用に特に適している。
レイヤープルーニングの適用
時間が経つにつれて、深層ニューラルネットワークはますます複雑になってきた。これによりパフォーマンスは改善されたが、効率が低下する結果にもなった。レイヤープルーニングは、パフォーマンスを保ちながらネットワークからレイヤーを系統的に削除することでこの問題に対処する技術だ。
LiteTrackの場合、特定の数のレイヤーがプルーニングされ、わずかにパフォーマンスが低下するだけで、処理時間が短縮された。この革新的なアプローチにより、LiteTrackはより複雑なモデルと競争力を保ちながら、エッジデバイスで機能するのに十分な軽さも確保している。
ヘッドネットワークとトレーニング目標
LiteTrackは予測のために特化したヘッドネットワークを使用している。このネットワークには、オブジェクトの位置を特定するために協力する三つのブランチがある。
- センター分類:このブランチはターゲットが特定の位置にある可能性を推定する。
- オフセット回帰:このブランチはセンターの推定位置における誤差を修正するのを助ける。
- サイズ回帰:このブランチは追跡しているオブジェクトの寸法を予測する。
これらの三つの側面を組み合わせることで、LiteTrackは困難な条件下でもターゲット周辺に正確なバウンディングボックスを生成できる。
実装とトレーニング
LiteTrackモデルはさまざまなデータセットを使用してトレーニングされていて、異なるタスクでうまく機能するための学習を行っている。データ拡張技術を取り入れてトレーニングを強化し、追跡時に多様なシナリオに対応できるようにしている。
モデルのトレーニング時間は、より複雑なトラッカーに比べて比較的短い。例えば、LiteTrackの特定のバージョンは強力なGPUを使用して約9時間でトレーニングが完了する。
テスト中、このモデルはさまざまなプラットフォームで高速で動作しながら高い精度を維持するなど、印象的な結果を示している。
異なるベンチマークでのパフォーマンス
LiteTrackはそのパフォーマンスを評価するためにいくつかの有名なベンチマークでテストされている。これらのテストを通じて、LiteTrackは速度と精度の両方で常にトップモデルの中にランクインしている。
- GOT-10k:このテストでは、LiteTrackは非常に高いスコアを達成し、他の多くのトラッカーよりも速く動作した。
- TrackingNet:LiteTrackもこのテストで優れたパフォーマンスを示し、非リアルタイムトラッカーと比較しても競争力のある結果を出した。
- LaSOT:ここでの結果はさらにLiteTrackの有効性を示し、さまざまなカテゴリーで注目すべきスコアを達成した。
これらのベンチマークは、LiteTrackが異なるデータセットでうまく機能し、その多様性と強さを示すものだ。
結論
LiteTrackはビジュアルトラッキングの分野で大きな進歩を提供し、特にロボティクスやエッジデバイスでのアプリケーションにおいて重要だ。非同期特徴抽出やレイヤープルーニングなどの革新的な技術を組み合わせることで、LiteTrackは速度と精度のバランスを効率的に取っていて、リアルタイムトラッキングに最適な選択肢となっている。
さまざまなベンチマークで達成された結果はLiteTrackの有効性をさらに裏付けていて、強力なモデルと競争できる一方、計算能力が lower なデバイスでも使える軽さを保てることを証明している。技術が進化し続ける中で、LiteTrackは実用的なアプリケーションのパフォーマンスを向上させる強い可能性を秘めていて、将来の分野の発展への道を開いている。
タイトル: LiteTrack: Layer Pruning with Asynchronous Feature Extraction for Lightweight and Efficient Visual Tracking
概要: The recent advancements in transformer-based visual trackers have led to significant progress, attributed to their strong modeling capabilities. However, as performance improves, running latency correspondingly increases, presenting a challenge for real-time robotics applications, especially on edge devices with computational constraints. In response to this, we introduce LiteTrack, an efficient transformer-based tracking model optimized for high-speed operations across various devices. It achieves a more favorable trade-off between accuracy and efficiency than the other lightweight trackers. The main innovations of LiteTrack encompass: 1) asynchronous feature extraction and interaction between the template and search region for better feature fushion and cutting redundant computation, and 2) pruning encoder layers from a heavy tracker to refine the balnace between performance and speed. As an example, our fastest variant, LiteTrack-B4, achieves 65.2% AO on the GOT-10k benchmark, surpassing all preceding efficient trackers, while running over 100 fps with ONNX on the Jetson Orin NX edge device. Moreover, our LiteTrack-B9 reaches competitive 72.2% AO on GOT-10k and 82.4% AUC on TrackingNet, and operates at 171 fps on an NVIDIA 2080Ti GPU. The code and demo materials will be available at https://github.com/TsingWei/LiteTrack.
著者: Qingmao Wei, Bi Zeng, Jianqi Liu, Li He, Guotian Zeng
最終更新: 2023-09-17 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.09249
ソースPDF: https://arxiv.org/pdf/2309.09249
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。