Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータビジョンとパターン認識

効率的なトランスフォーマーを使った軽量オブジェクトトラッキング

リソース制限のあるデバイス向けに効率的なトランスフォーマーアーキテクチャを使った新しい物体追跡のアプローチ。

― 1 分で読む


トランスフォーマーで効率的トランスフォーマーで効率的なトラッキングスを向上させる。新しい軽量モデルが物体追跡のパフォーマン
目次

ビデオ内のオブジェクト追跡はコンピュータビジョンの重要なタスクだよ。特定のオブジェクトをフレームの連続の中で特定して追いかけることが含まれるんだ。最近、トランスフォーマーって呼ばれるモデルが追跡システムの性能を向上させるために使われてるんだけど、従来のトランスフォーマーモデルは複雑でリソースを大量に消費しちゃうから、スマホとか限られたハードウェアで動かす軽量アプリには向いてないんだよね。

この記事では、軽量版のトランスフォーマーを使った新しいオブジェクト追跡のアプローチを紹介するよ。効率的なシステムを作ることに焦点を当ててて、速く動いても正確な追跡結果が出せるようにするってわけ。この方法は、分離可能なアテンションメカニズムと混合アテンションの2つの技術の強みを組み合わせてて、計算力過剰にならずに追跡プロセスを向上させようとしてるんだ。

背景

シアミーズネットワーク(SN)は視覚追跡によく使われてて、そのシンプルさとスピードが人気。SNは、ターゲットテンプレートと探索領域の特徴をキャッチするバックボーン、ターゲットの位置を推定するローカリゼーションモジュール、場合によっては特徴間の関係をモデル化するための特徴融合器で構成されてる。

最近では、SNがトランスフォーマーベースの方法を取り入れてて、特徴間の関係をうまく管理できるんだ。この統合により、アーキテクチャがシンプルになってパフォーマンスが向上するけど、トランスフォーマーの計算要求が高いせいで、CPUみたいなパワーのないハードウェアでは効果が落ちちゃうんだ。

軽量のSNトラッカーがこの問題を解決するために登場して、効率的なコンポーネントを使って速さを維持しつつ、いいパフォーマンスを発揮するようになった。でも、高い計算コストのせいで、トランスフォーマーの利点を十分に活かせないことが多い。だから、ここでの目標は、トランスフォーマーを効果的に使いながら、軽量な追跡システムを作ることなんだ。

提案された方法

ここで紹介する新しいモデルは、軽量オブジェクト追跡のために特別に設計された分離可能な自己アテンションと混合アテンショントランスフォーマーアーキテクチャを使ってる。システムのバックボーンは、ターゲットテンプレートと探索領域からの特徴を組み合わせることで、より良い特徴表現を実現するよ。

アーキテクチャは2つの主要な部分に分かれてる:

分離可能な混合アテンションバックボーン

このバックボーンは、テンプレートと探索領域の間で情報の共有を助ける特化したトランスフォーマーレイヤーで構成されてる。プロセスは、CNN(畳み込みニューラルネットワーク)を使って両方の画像からローカル特徴を生成することから始まる。これらのCNNからの出力が組み合わさって、ターゲットとその周囲の領域のより統合された表現が得られるんだ。

標準のトランスフォーマーレイヤーに頼るんじゃなくて、このモデルは分離可能な混合アテンションブロックを使うことで計算負荷を減らして、重い行列計算を避けるようにしてる。これにより、効率的に各画像内の関係と2つの画像間の関係をモデル化できるんだ。

自己アテンション予測ヘッド

バックボーンの後には、ターゲットを認識してその周りのバウンディングボックスを推定する2つの主なタスクに焦点を当てた予測ヘッドがあるよ。このヘッドは、CNNとトランスフォーマーレイヤーの両方を使ってる。

CNNレイヤーは、正確な分類に重要なローカル特徴をキャッチする。一方で、トランスフォーマーレイヤーは広範な関係を処理するから、素早い動きやターゲットが隠れている時に特に役立つんだ。これらのアプローチを組み合わせることで、予測ヘッドは全体的な追跡性能を向上させつつ、処理時間の大幅な増加を避けてるんだ。

実装の詳細

この方法では、ターゲットを含む画像1枚と、トラッカーがターゲットを探すべきエリアを示す画像1枚が必要だよ。効率的な処理が重要だから、バックボーンは特定のブロックを使って入力画像のサイズを減らしつつ必要な特徴を保持してるの。

追跡のために、これらの画像から得られた特徴が一連のトランスフォーマーブロックを通過するよ。これらのブロックの結果を計算して、画像内のアイテム同士の関係、特に探索領域でのターゲットの見た目が元のテンプレートとどう違うのかを理解するんだ。

トレーニングプロセス

このモデルは、いくつかのビデオデータセットでトレーニングされてる。トレーニング中には、トレーニングセットとバリデーションセットの両方から画像ペアが生成されて、トラッカーが学べるシナリオのバリエーションを広げてる。フリッピングやスケーリングみたいなデータ拡張技術も使って、トレーニングオプションをさらに広げてるよ。

トレーニングプロセスは何度もエポックを重ねて、学習率を調整してモデルが効果的に学習できるようにしてるんだ。バックボーンの重みは既存のモデルを使って初期化して、トレーニングプロセスを強化してるよ。

パフォーマンス評価

モデルのパフォーマンスを評価するために、いくつかのベンチマークデータセットでテストされるよ。これらのデータセットは、追跡システムに挑戦するように設計されていて、トラッカーが実際の状況でどれだけうまくパフォーマンスを発揮できるかを包括的に見ることができるんだ。

平均オーバーラップや成功率といったメトリクスが、トラッカーの効果を測るために使われるよ。これらのメトリクスは、トラッカーがどれだけ正確にオブジェクトを追いかけられるか、そして異なるフレームでその位置をどれだけうまく予測できるかを評価するんだ。

他のトラッカーとの比較

提案されたモデルは、いくつかの他の軽量トラッカーと比較されて、その効果が判断されるよ。さまざまなデータセットでこれらのモデルを常に上回って、そのシナリオでの能力を示してるんだ。

異なる条件下での追跡

新しいモデルは、速い動きや遮蔽、低視認性など、追跡を困難にするさまざまな条件下でテストされたよ。これらのテストでは、提案されたトラッカーが高い精度とスピードを維持して、挑戦的な状況でも強靱さを証明したんだ。

計算効率

このトラッカーの特筆すべき特徴の1つは、その計算効率だよ。分離可能なアテンションメカニズムを使うことで、CPUやGPUの両方で高速度で動作できるんだ。CPUでは、リアルタイムスピードの37フレーム毎秒(fps)で動いてて、従来のモデルより大幅に改善されてる。GPUでは、速度は158 fpsを超えてるよ。

アブレーションスタディ

アブレーションスタディは、モデルの異なるコンポーネントがパフォーマンスにどのように貢献しているかを理解するのに役立つんだ。モデルの部分を体系的に変更することで、各コンポーネントが全体の効果にどのように影響するかを調べられるよ。

アテンションメカニズムの影響

研究によると、分離可能なアテンションメカニズムがトラッカーの速度と精度を向上させることが示されてる。標準のアテンションメカニズムに置き換えると、性能が低下して遅延が増えたから、軽量追跡システムにおいて効率的なデザインの重要性が際立つんだ。

特徴融合技術

さまざまな特徴融合技術の結果から、混合アテンションアプローチが他の方法よりも優れていることが確認されてる。テンプレートと探索特徴の間で相互作用を許可しない方法は、許可する方法よりもパフォーマンスが悪いんだ。

結論

要するに、この記事では新しい分離可能な自己および混合アテンショントランスフォーマーアーキテクチャを活用した軽量な追跡システムを紹介してる。このモデルは、正確な追跡を効率的に実現できることが示されてて、スマホのようなリソースが限られた環境での使用に適してるんだ。

今後の作業では、さらに技術を取り入れて、異なる設定での性能評価を行うことで、より頑健で多目的な追跡システムを作ることを目指すんだ。

オリジナルソース

タイトル: Separable Self and Mixed Attention Transformers for Efficient Object Tracking

概要: The deployment of transformers for visual object tracking has shown state-of-the-art results on several benchmarks. However, the transformer-based models are under-utilized for Siamese lightweight tracking due to the computational complexity of their attention blocks. This paper proposes an efficient self and mixed attention transformer-based architecture for lightweight tracking. The proposed backbone utilizes the separable mixed attention transformers to fuse the template and search regions during feature extraction to generate superior feature encoding. Our prediction head performs global contextual modeling of the encoded features by leveraging efficient self-attention blocks for robust target state estimation. With these contributions, the proposed lightweight tracker deploys a transformer-based backbone and head module concurrently for the first time. Our ablation study testifies to the effectiveness of the proposed combination of backbone and head modules. Simulations show that our Separable Self and Mixed Attention-based Tracker, SMAT, surpasses the performance of related lightweight trackers on GOT10k, TrackingNet, LaSOT, NfS30, UAV123, and AVisT datasets, while running at 37 fps on CPU, 158 fps on GPU, and having 3.8M parameters. For example, it significantly surpasses the closely related trackers E.T.Track and MixFormerV2-S on GOT10k-test by a margin of 7.9% and 5.8%, respectively, in the AO metric. The tracker code and model is available at https://github.com/goutamyg/SMAT

著者: Goutam Yelluru Gopal, Maria A. Amer

最終更新: 2023-09-07 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2309.03979

ソースPDF: https://arxiv.org/pdf/2309.03979

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事