Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Leichtgewichtiges Objekttracking mit effizienten Transformern

Ein neuer Ansatz zur Objekterkennung mit effizienter Transformator-Architektur für ressourcenlimitierte Geräte.

― 6 min Lesedauer


Effizientes Tracking mitEffizientes Tracking mitTransformernverbessert die Objektverfolgung.Neues leichtgewichtiges Modell
Inhaltsverzeichnis

Die Verfolgung von Objekten in Videos ist eine wichtige Aufgabe in der Computer Vision. Dabei geht's darum, ein bestimmtes Objekt durch eine Abfolge von Frames zu identifizieren und zu verfolgen. In letzter Zeit wurden Modelle namens Transformer eingesetzt, um die Leistung von Tracking-Systemen zu verbessern. Allerdings können traditionelle Transformer-Modelle komplex und ressourcenintensiv sein, was sie für leichte Anwendungen, wie die auf Smartphones oder anderer begrenzter Hardware, weniger geeignet macht.

Dieser Artikel stellt einen neuen Ansatz zur Objektverfolgung mit einer leichteren Version von Transformern vor. Der Fokus liegt darauf, ein effizientes System zu schaffen, das schnell läuft und trotzdem präzise Tracking-Ergebnisse liefert. Diese Methode kombiniert die Stärken von zwei Techniken: einem separierbaren Aufmerksamkeitsmechanismus und gemischter Aufmerksamkeit. So zielt das vorgeschlagene System darauf ab, den Tracking-Prozess zu verbessern, ohne übermässige Rechenleistung zu benötigen.

Hintergrund

Der Einsatz von Siamese Networks (SNs) ist in der visuelle Verfolgung aufgrund ihrer Einfachheit und Geschwindigkeit gängig. Ein SN besteht aus einem Backbone, der die Merkmale der Zielvorlage und der Suchregionen erfasst, einem Lokalisierungsmodul zur Schätzung der Position des Ziels und manchmal einem Merkmalsfusionierer zur Modellierung der Beziehungen zwischen den Merkmalen.

In den letzten Jahren haben SNs transformerbasierte Methoden integriert, die besser darin sind, Beziehungen zwischen Merkmalen zu verwalten. Diese Integration vereinfacht die Architektur und verbessert die Leistung. Allerdings können die Rechenanforderungen von Transformern ihre Effektivität auf weniger leistungsstarker Hardware, wie CPUs, verringern.

Leichte SN-Tracker sind entstanden, um dieses Problem zu lösen. Sie nutzen effiziente Komponenten, um schnelle Geschwindigkeiten bei guter Leistung beizubehalten. Dennoch haben sie oft Schwierigkeiten, die Vorteile, die Transformer mit sich bringen, voll auszuschöpfen, hauptsächlich aufgrund ihrer hohen Rechenkosten. Daher ist das Ziel hier, ein Tracking-System zu schaffen, das Transformer effektiv nutzen kann, während es leicht bleibt.

Vorgeschlagene Methode

Das hier vorgestellte neue Modell verwendet eine separierbare Selbst- und gemischte Aufmerksamkeits-Transformer-Architektur, die speziell für leichte Objektverfolgung entwickelt wurde. Das Backbone dieses Systems funktioniert, indem es Merkmale aus einer Zielvorlage und einer Suchregion kombiniert, was zu einer besseren Merkmalsdarstellung führt.

Die Architektur ist in zwei Hauptteile unterteilt:

Separierbares gemischtes Aufmerksamkeits-Backbone

Dieses Backbone besteht aus spezialisierten Transformer-Schichten, die den Austausch von Informationen zwischen der Vorlage und den Suchregionen erleichtern. Der Prozess beginnt damit, dass konvolutionale neuronale Netze (CNNs) lokale Merkmale aus beiden Bildern erzeugen. Die Ausgabe dieser CNNs wird kombiniert, was eine integriertere Darstellung des Ziels und der Umgebung ermöglicht.

Anstatt auf standardmässige Transformer-Schichten zu setzen, die ressourcenintensiv sein können, verwendet dieses Modell separierbare gemischte Aufmerksamkeitsblöcke. Diese Technik reduziert die Rechenlast, indem sie Operationen so ausführt, dass schwere Matrizenberechnungen vermieden werden. Das Backbone modelliert somit effizient sowohl die Beziehungen innerhalb jedes Bildes als auch zwischen den beiden Bildern.

Selbst-Attention Vorhersagekopf

Nach dem Backbone gibt es einen Vorhersagekopf, der sich auf zwei Hauptaufgaben konzentriert: das Erkennen des Ziels und die Schätzung des umgebenden Begrenzungsrahmens. Dieser Kopf nutzt sowohl konvolutionale als auch Transformer-Schichten.

Die CNN-Schichten erfassen lokale Merkmale, die für eine präzise Klassifizierung entscheidend sind. Gleichzeitig kümmern sich die Transformer-Schichten um breitere Beziehungen, was sie besonders nützlich bei schnellen Bewegungen oder wenn das Ziel verdeckt ist, macht. Durch die Kombination dieser Ansätze verbessert der Vorhersagekopf die gesamte Tracking-Leistung, ohne die Verarbeitungszeit erheblich zu erhöhen.

Implementierungsdetails

Die Methode benötigt ein paar Bilder als Eingabe: eines mit dem Ziel und ein anderes, das den Bereich zeigt, in dem der Tracker nach dem Ziel suchen soll. Effiziente Verarbeitung ist entscheidend, daher nutzt das Backbone spezifische Blöcke, um die Grösse der Eingabebilder zu reduzieren und essentielle Merkmale zu behalten.

Für das Tracking werden Merkmale aus diesen Bildern durch eine Reihe von Transformer-Blöcken geleitet. Die Ergebnisse dieser Blöcke werden berechnet, um zu verstehen, wie die Objekte in den Bildern zueinander in Beziehung stehen, insbesondere wie das Ziel im Suchbereich im Vergleich zu seiner ursprünglichen Vorlage aussieht.

Trainingsprozess

Das Modell wird auf mehreren Video-Datensätzen trainiert. Während des Trainings werden Bildpaare aus dem Training- und Validierungsset generiert, um eine breite Palette von Szenarien zu gewährleisten, aus denen der Tracker lernen kann. Datenaugmentierungstechniken wie Umkehrung und Skalierung werden genutzt, um die Trainingsoptionen weiter zu erweitern.

Der Trainingsprozess umfasst zahlreiche Epochen, wobei Anpassungen an den Lernraten vorgenommen werden, um sicherzustellen, dass das Modell effektiv lernt, ohne über das Ziel hinaus zu schiessen. Die Gewichte des Backbones werden mithilfe eines bestehenden Modells initialisiert, um den Trainingsprozess zu verbessern.

Leistungsevaluation

Um die Leistung des Modells zu bewerten, wird es an verschiedenen Benchmark-Datensätzen getestet. Diese Datensätze sind so gestaltet, dass sie die Tracking-Systeme herausfordern und einen umfassenden Überblick darüber geben, wie gut der Tracker in realen Situationen funktioniert.

Metriken wie Average Overlap und Success Rate werden verwendet, um die Effektivität des Trackers zu messen. Diese Metriken bewerten, wie genau der Tracker das Objekt verfolgen kann und wie gut er seine Position über verschiedene Frames hinweg vorhersagen kann.

Vergleich mit anderen Trackern

Das vorgeschlagene Modell wird mit mehreren anderen leichten Trackern verglichen, um seine Effektivität zu bestimmen. Es übertrifft diese Modelle konstant auf verschiedenen Datensätzen und zeigt seine Fähigkeiten in unterschiedlichen Szenarien.

Tracking unter verschiedenen Bedingungen

Das neue Modell wurde unter verschiedenen Bedingungen getestet, die das Tracking herausfordern, wie schnelle Bewegungen, Okklusion und geringe Sichtbarkeit. In diesen Tests zeigte sich, dass der vorgeschlagene Tracker ein hohes Mass an Genauigkeit und Geschwindigkeit aufrechterhielt und seine Robustheit in herausfordernden Situationen bewies.

Rechnerische Effizienz

Eine der herausragenden Eigenschaften dieses Trackers ist seine rechnerische Effizienz. Der Einsatz separierbarer Aufmerksamkeitsmechanismen ermöglicht es ihm, mit hoher Geschwindigkeit sowohl auf CPUs als auch auf GPUs zu laufen. Auf einer CPU läuft er mit einer Echtzeitgeschwindigkeit von 37 Frames pro Sekunde (fps), was eine erhebliche Verbesserung gegenüber traditionellen Modellen darstellt. Auf einer GPU übersteigt die Geschwindigkeit 158 fps.

Ablationsstudie

Eine Ablationsstudie hilft zu verstehen, wie verschiedene Komponenten des Modells zu seiner Leistung beitragen. Durch systematisches Ändern von Teilen des Modells können Forscher die Auswirkungen jeder Komponente auf die Gesamtwirksamkeit bestimmen.

Einfluss der Aufmerksamkeitsmechanismen

Die Studie zeigt, dass der separierbare Aufmerksamkeitsmechanismus die Geschwindigkeit und Genauigkeit des Trackers verbessert. Der Austausch gegen einen standardmässigen Aufmerksamkeitsmechanismus führte zu einer verringerten Leistung und erhöhten Latenz und zeigt so die Bedeutung eines effizienten Designs in leichten Tracking-Systemen.

Merkmalsfusionstechniken

Ergebnisse aus verschiedenen Merkmalsfusionstechniken bestätigen, dass der gemischte Aufmerksamkeitsansatz anderen überlegen ist. Methoden, die keine Interaktion zwischen Vorlage und Suchmerkmalen zulassen, schneiden schlechter ab als solche, die dies tun.

Fazit

Zusammenfassend präsentiert dieser Artikel ein leichtes Tracking-System, das eine neuartige separierbare Selbst- und gemischte Aufmerksamkeits-Transformer-Architektur nutzt. Die Ergebnisse zeigen, dass dieses Modell nicht nur eine hohe Genauigkeit im Tracking erreicht, sondern dies auch effizient tut, was es für den Einsatz in ressourcenbeschränkten Umgebungen wie Smartphones geeignet macht.

Zukünftige Arbeiten werden sich darauf konzentrieren, den Tracker weiter zu verbessern, indem zusätzliche Techniken integriert und die Leistung in unterschiedlichen Umgebungen bewertet wird. Ziel ist es, ein noch robusteres und vielseitigeres Tracking-System zu schaffen, das mit einer Vielzahl von Bedingungen und Anwendungen umgehen kann.

Originalquelle

Titel: Separable Self and Mixed Attention Transformers for Efficient Object Tracking

Zusammenfassung: The deployment of transformers for visual object tracking has shown state-of-the-art results on several benchmarks. However, the transformer-based models are under-utilized for Siamese lightweight tracking due to the computational complexity of their attention blocks. This paper proposes an efficient self and mixed attention transformer-based architecture for lightweight tracking. The proposed backbone utilizes the separable mixed attention transformers to fuse the template and search regions during feature extraction to generate superior feature encoding. Our prediction head performs global contextual modeling of the encoded features by leveraging efficient self-attention blocks for robust target state estimation. With these contributions, the proposed lightweight tracker deploys a transformer-based backbone and head module concurrently for the first time. Our ablation study testifies to the effectiveness of the proposed combination of backbone and head modules. Simulations show that our Separable Self and Mixed Attention-based Tracker, SMAT, surpasses the performance of related lightweight trackers on GOT10k, TrackingNet, LaSOT, NfS30, UAV123, and AVisT datasets, while running at 37 fps on CPU, 158 fps on GPU, and having 3.8M parameters. For example, it significantly surpasses the closely related trackers E.T.Track and MixFormerV2-S on GOT10k-test by a margin of 7.9% and 5.8%, respectively, in the AO metric. The tracker code and model is available at https://github.com/goutamyg/SMAT

Autoren: Goutam Yelluru Gopal, Maria A. Amer

Letzte Aktualisierung: 2023-09-07 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2309.03979

Quell-PDF: https://arxiv.org/pdf/2309.03979

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel