視覚物体追跡における最適化された情報フロー
OIFTrackは、ターゲットとバックグラウンドトークンの間の情報の流れを管理することで、追跡精度を向上させるよ。
― 1 分で読む
目次
視覚的オブジェクト追跡(VOT)は、最初のフレームから動画内のオブジェクトの位置とサイズを特定し、次のフレームでそれを追跡するプロセスだ。この技術はいろんな実用的な使い道があって、ビデオ監視、自動運転車、拡張現実、モバイルロボット、交通監視などで活用されている。ただ、VOTを改善しようと何度も試みられてきたけど、リアルな状況で信頼性のある効果的な追跡を実現するのはまだ難しい。よくある問題には、見た目の変化、物が視界を遮ること、モーションブラー、ゴチャゴチャした背景、近くにある似たような物が追跡を混乱させることがある。
最近では、深層学習が大きな進展を遂げていて、特に畳み込みニューラルネットワーク(CNN)を使った追跡方法が注目されている。この中でも、シアミーズベースのCNN追跡方法は素晴らしい結果を出している。シアミーズトラッカーは、ターゲットオブジェクトとその周囲を別々に読み取る、二つの同じCNNセクションから成り立っている。そして、両方のセクションからの特徴を比較して、ターゲットの位置を決定する。ただ、これらの方法はオブジェクトの周りの大きなコンテキストを考慮しにくく、オブジェクトの形が変わったり部分的に隠れたりする複雑な相互作用をうまく処理できないことが多い。そのため、最近のいくつかの追跡方法は、もともと言語データ処理で注目を集めたトランスフォーマーに目を向けている。
トランスフォーマーが人気になった理由は、長いデータのシーケンスを扱えるし、注意メカニズムを使って文脈を効果的にキャッチできるからだ。オブジェクト検出や画像分類のようなタスクでの成功は、視覚追跡における利用を促進している。ワンストリームのトランスフォーマートラッカーは、特徴抽出プロセスと注意を組み合わせて、オブジェクト追跡能力を強化している。
従来の方法の問題点
従来のワンストリーム追跡方法では、注意メカニズムがターゲットテンプレートと周囲の探索領域を表すすべてのトークンの間のつながりを計算する。このアプローチは効果的なことが証明されているが、実際にこの注意がトラッカーがターゲットを気を散らすものから区別する能力を助けるのか、妨げるのかはしっかり評価されていない。ほとんどの過去のモデルは、二つのトークンタイプの完全な相互作用を許可しているが、これは特に多くの背景トークンが関与しているときに混乱を招く可能性がある。
長期追跡では、時間が経つにつれてオブジェクトが非常に異なる見た目になることがあるため、特に厄介だ。一部のトラッカーは、最も信頼性の高いフレームに基づいて更新される動的テンプレートを追加することで性能向上を試みている。しかし、前のモデルと同様に、彼らはすべてのトークンを平等に扱い、これらのトークン間の情報の流れが追跡にどう影響するかを調査していない。
我々の提案
この研究では、最適化された情報フロー追跡(OIFTrack)という新しいアプローチを紹介する。この方法は、ターゲットと周囲のエリアを表す異なるトークン間で情報が流れる方式を注意深く管理することで、オブジェクト追跡の精度を向上させようとする。
まず、ターゲットの初期テンプレートと探索エリアから始める。これら二つの領域からのトークンは、初期ターゲットトークン、動的ターゲットトークン(最新のフレームに基づいて更新される)、動的背景トークン(周囲をキャッチ)、探索領域トークンの四つのグループに分けられる。ここでの主なアイデアは、処理の初期段階で不要な気を散らすものをブロックすることだ。
トラッキングプロセスの深い層では、探索トークンは、ターゲットの手がかりを含むものと含まないものに再分類される。関連する探索トークンからターゲットトークンへの情報の流れだけを許可することで、全体的な追跡能力が向上し、モデルがターゲットの見た目の変化に適応できるようになる。
動的手がかりの重要性
動的テンプレートは追跡において重要で、特にターゲットが時間とともに大きな変化をする場合には欠かせない。動的背景の手がかりを追加することも、モデルが気を散らすものを見分けてターゲットに焦点を当てる能力を高める。
OIFTrackでは、周囲の情報を混乱を招かない形で文脈を追加するように組み込むことを目指している。例えば、ターゲットだけに焦点を当てる代わりに、潜在的な気を散らすものを含む広いエリアを考慮する。これにより、トラッカーが近くにある似たような物を誤って特定するのを避ける助けになる。
プロセスの流れ
OIFTrackのプロセスは、ターゲットテンプレートと探索領域の画像を、管理しやすい小さな部分、パッチに分けることから始まる。これらのパッチはトークンに変換され、異なるグループからのトークンが一つのシーケンスに統合され、トランスフォーマーモデルに渡される。
エンコーディングプロセスの初期段階では、初期ターゲットトークンに対する探索トークンと動的背景トークンの相互作用をブロックする。これにより、ターゲット特有の特徴をより良く抽出できるようになる。深い層に進むと、関連する手がかりに焦点を合わせるために、探索トークンを再度分類する。
注意メカニズム
注意メカニズムはOIFTrackの重要な要素だ。初期エンコーダ層では、特定の相互作用をブロックして干渉を減らす。深い層では、ターゲットに関連する情報を持つ探索トークンを分析する。どのトークンが最も関連性が高いかを判断した後、これらの特定のトークンからターゲットトークンへの情報の流れを許可し、より良い特徴抽出を可能にする。
背景トークンの排除
OIFTrackの方法の一つの課題は、動的テンプレートを追加することで入力トークンの数が増え、計算効率を維持することだ。不要な計算の数を減らすために、主に背景情報を持つトークンを特定して排除する。
これらのあまり関連しないトークンを考慮から取り除くことで、高いパフォーマンスを維持しつつ計算を簡素化できる。このアプローチにより、精度を犠牲にすることなくモデルが効率的に動作できるようにする。
評価とパフォーマンス
OIFTrackフレームワークの有効性を検証するため、いくつかのベンチマークに対して広範な評価を行った。テストの全体を通して、OIFTrackは印象的な結果を示し、いくつかのカテゴリーで多くの既存モデルを上回った。
GOT-10Kベンチマーク
一発追跡能力を評価することで知られるGOT-10Kベンチマークでテストしたところ、OIFTrackは平均オーバーラップスコア74.6%を達成した。このスコアは他のモデルと比べて優れたパフォーマンスを示している。OIFTrackは定義された閾値における成功率でも他のトラッカーを上回り、未見のオブジェクトクラスがある状況でもその効果を示している。
TrackingNetとLaSOTベンチマーク
頑健なTrackingNetベンチマークでは、OIFTrackはトップのAUCスコア84.1%を達成し、多様な追跡シナリオでの効果を示した。また、LaSOTでも良好なパフォーマンスを維持し、さまざまな属性において競争力を示し、長期追跡シナリオでもその強靭さを示している。
UAV123ベンチマーク
空中追跡シナリオでは、UAV123データセットが小さなオブジェクトと恒常的な変化のために特有の課題をもたらした。OIFTrackは競争力のある結果を出し、より困難な環境でもその強固さを示している。
結論
要するに、OIFTrackモデルは最適化された情報フローメカニズムを活用してオブジェクト追跡能力を強化している。トークン間での意味のある情報の交換に焦点を当てて気を散らすものを減らすことで、モデルは追跡精度と効率を向上させている。動的テンプレートと周囲からの文脈的手がかりの使用は、時間が経つにつれてターゲットオブジェクトを特定するのに大いに役立っている。OIFTrackは視覚的オブジェクト追跡の分野における有望な進展だ。
全体として、このアプローチは注意深く管理された情報フローの力を示していて、リアルワールドのシナリオの複雑さに対処するために追跡システムに動的な側面を組み込む重要性を強調している。
タイトル: Optimized Information Flow for Transformer Tracking
概要: One-stream Transformer trackers have shown outstanding performance in challenging benchmark datasets over the last three years, as they enable interaction between the target template and search region tokens to extract target-oriented features with mutual guidance. Previous approaches allow free bidirectional information flow between template and search tokens without investigating their influence on the tracker's discriminative capability. In this study, we conducted a detailed study on the information flow of the tokens and based on the findings, we propose a novel Optimized Information Flow Tracking (OIFTrack) framework to enhance the discriminative capability of the tracker. The proposed OIFTrack blocks the interaction from all search tokens to target template tokens in early encoder layers, as the large number of non-target tokens in the search region diminishes the importance of target-specific features. In the deeper encoder layers of the proposed tracker, search tokens are partitioned into target search tokens and non-target search tokens, allowing bidirectional flow from target search tokens to template tokens to capture the appearance changes of the target. In addition, since the proposed tracker incorporates dynamic background cues, distractor objects are successfully avoided by capturing the surrounding information of the target. The OIFTrack demonstrated outstanding performance in challenging benchmarks, particularly excelling in the one-shot tracking benchmark GOT-10k, achieving an average overlap of 74.6\%. The code, models, and results of this work are available at \url{https://github.com/JananiKugaa/OIFTrack}
著者: Janani Kugarajeevan, Thanikasalam Kokul, Amirthalingam Ramanan, Subha Fernando
最終更新: 2024-02-12 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2402.08195
ソースPDF: https://arxiv.org/pdf/2402.08195
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。