Aktionserwartung in First-Person-Videos vorantreiben
Neue Methode verbessert die Aktionsvorhersage, indem sie sich auf Objektinteraktionen konzentriert.
― 6 min Lesedauer
Inhaltsverzeichnis
Die kurzfristige Handlungsvorhersage in Videos mit Perspektive aus der ersten Person geht darum, vorherzusagen, welche Aktionen eine Person bald ausführen könnte, dabei die beteiligten Objekte zu identifizieren und abzuschätzen, wann die Person mit diesen Objekten interagiert. Diese Aufgabe ist knifflig wegen Faktoren wie Kamerabewegung, Dingen, die die Sicht obstructen, und der schnell wechselnden Natur dieser Umgebungen. Es gibt viele mögliche Anwendungen für diese Technologie, besonders in Bereichen wie Augmented Reality, wo jemand eine Kamera trägt und seine Aktionen in Echtzeit aufnimmt.
Im Bereich der Computer Vision wurden bedeutende Fortschritte bei der Vorhersage von Aktionen in diesen Videos mit erster Person gemacht, aber die meisten Methoden konzentrierten sich darauf, Aktionslabels zu identifizieren, ohne die damit verbundenen Objekte zu berücksichtigen. Dieses Papier stellt eine neue Methode vor, um die Handlungsvorhersage zu verbessern, indem der Fokus auf die Objekte gelegt wird, die als nächstes aktiv sein werden.
Bedeutung der nächsten aktiven Objekte
Die nächsten aktiven Objekte sind entscheidend dafür, herauszufinden, was eine Person als nächstes in einem Video tun wird. Diese Objekte geben wichtigen Kontext und zeigen, welche Gegenstände wahrscheinlich in bevorstehenden Aktionen involviert sein werden. Wenn zum Beispiel eine Person nach einer Tasse greift, ist diese Tasse das nächste aktive Objekt. Das Wissen darüber hilft, genaue Vorhersagen darüber zu treffen, was die Person als nächstes tun wird.
Unsere vorgeschlagene Methode konzentriert sich darauf, wie man geführte Aufmerksamkeit nutzen kann, um die Merkmale beweglicher Objekte und die Objekte selbst zu verknüpfen. Diese Kombination hilft, Bewegungen und Interaktionen in Videos aus der ersten Person besser zu verstehen. Die Methode, die wir präsentieren, heisst Geführte Aufmerksamkeit für nächste aktive Objekte (GANO).
Vorgeschlagene Methode: GANO
Das GANO-Modell ist darauf ausgelegt, vorherzusagen, welche Objekte die nächsten aktiven sein werden, welche Aktionen ausgeführt werden und wann diese Aktionen stattfinden werden. Es verwendet ein transformerbasiertes Netzwerk, das Informationen aus Videos und Objekterkennungen kombiniert.
Merkmals-Extraktion
Um Merkmale aus einem Video zu extrahieren, identifizieren wir zwei Haupttypen:
- Patch-Merkmale werden mithilfe einer 3D-Convolutional-Schicht gesammelt. Diese Technik reduziert Videoclips auf handhabbare Segmente.
- Objektmerkmale stammen von einem Objekterkenner, der Objekte innerhalb jedes Frames des Videos identifiziert und lokalisiert.
Diese Merkmale werden dann mithilfe des geführten Aufmerksamkeitsmechanismus kombiniert, der die Fähigkeit des Modells verbessert, sich auf wichtige Elemente im Video zu konzentrieren.
Objekt-geführte Aufmerksamkeit
Um die Videoclips und Objekterkennungen zu verstehen, nutzen wir einen Aufmerksamkeitsmechanismus, der es dem Modell ermöglicht, sich auf relevante Informationen zu konzentrieren. Dies geschieht, indem die Merkmale von Objekten und Videosegmenten einander beeinflussen, was zu besseren Vorhersagen über zukünftige Aktionen und Interaktionen führt.
Transformer-Architektur
Das Transformermodell verarbeitet die beachteten Merkmale und Objektanfragen, um zukünftige Aktionen und die nächsten aktiven Objekte vorherzusagen. Es verwendet mehrere Schichten der Aufmerksamkeit, um sicherzustellen, dass es die Beziehungen zwischen Objekten und Aktionen über die Zeit erfasst.
Modell trainieren
Um GANO zu trainieren, verwenden wir zwei Arten von Verlusten:
- Klassifikationsverlust zur Vorhersage der nächsten Aktion und des Labels des nächsten aktiven Objekts.
- Regressionsverlust zur Vorhersage des Begrenzungsrahmens des nächsten aktiven Objekts und der Kontaktzeit.
Diese Verluste helfen unserem Modell, genaue Vorhersagen zu lernen, während es die Beziehungen zwischen verschiedenen Arten von Vorhersagen berücksichtigt.
Ergebnisse
Unser experimentelles Setup verwendete einen grossen Datensatz mit Videos aus der ersten Person, genannt Ego4D. Dieser Datensatz umfasst Tausende Stunden Video und bietet Anmerkungen, die es uns ermöglichen, unser Modell zum Vorhersagen zukünftiger Aktionen und zur Identifizierung von Objekten zu trainieren.
Als wir GANO gegen andere hochmoderne Methoden testeten, übertraf es diese in allen gemessenen Bereichen, einschliesslich der Vorhersage von Klassen, Begrenzungsrahmen, Aktionen und Kontaktzeit für das nächste aktive Objekt. Die Ergebnisse zeigen, dass unser geführter Aufmerksamkeitsmechanismus die Leistung der Handlungsvorhersage im Vergleich zu anderen Methoden zur Kombination von Merkmalen erheblich verbessert.
Vergleichende Bewertung
In unseren Bewertungen verglichen wir GANO mit mehreren fortgeschrittenen Methoden zur Handlungsvorhersage. Alle Modelle wurden unter den gleichen Bedingungen trainiert, um Fairness zu gewährleisten. Die Ergebnisse zeigten, dass GANO in allen verwendeten Evaluationsmetriken durchgehend bessere Ergebnisse erzielte.
Darüber hinaus führten wir eine Ablationsstudie durch, um zu sehen, wie die geführte Aufmerksamkeitskomponente die Leistung von GANO beeinflusste. Als wir die geführte Aufmerksamkeit entfernten und die Merkmale einfacher fusionierten, fiel die Leistung erheblich ab, was die Bedeutung unserer vorgeschlagenen Methode anzeigt.
Qualitative Ergebnisse
Wir schauten uns auch verschiedene Beispiele aus unserem Modell an, um zu sehen, wie gut es Begrenzungsrahmen und Klassenlabels für die nächsten aktiven Objekte vorhersagt. GANO zeigte eine starke Leistung bei der Identifizierung verschiedener Objekte und deren korrekter Lokalisierung in Bezug auf ihre Begrenzungsrahmen.
Zukünftige Richtungen
Das Ziel dieser Forschung ist es, die Art und Weise zu verbessern, wie wir Aktionen in egozentrischen Videos vorhersagen, indem wir die Beziehung zwischen Objekten und Aktionen in den Vordergrund stellen. GANO zeigt in diesem Bereich Erfolge, aber es gibt noch viel zu tun.
Zukünftige Forschungen könnten die Anwendung von GANO in anderen Bereichen untersuchen, wie z.B. bei der Videozusammenfassung, wo das Ziel darin besteht, Videos in kürzere Formate zu komprimieren, während wichtige Informationen erhalten bleiben, und bei der Analyse von Mensch-Roboter-Interaktionen, um zu verbessern, wie Maschinen menschliche Aktionen verstehen und darauf reagieren.
Indem wir unser Verständnis für die kurzfristige Handlungsvorhersage und die Rolle von Objekten in diesen Prozessen vorantreiben, können wir Technologien schaffen, die mehr über menschliche Aktionen und Umgebungen Bescheid wissen und zu intelligenteren Anwendungen im Alltag führen.
Fazit
Diese Studie führt einen neuartigen Ansatz zur kurzfristigen Handlungsvorhersage in Videos aus der ersten Person ein, wobei die Bedeutung der nächsten aktiven Objekte betont und ein geführter Aufmerksamkeitsmechanismus verwendet wird. Die Ergebnisse zeigen, dass unsere Methode bestehende Techniken übertrifft und die Effektivität der Kombination von Merkmalen aus Videoclips und Objekten demonstriert. Während wir weiterhin dieses Gebiet untersuchen, können wir weitere Fortschritte erwarten, die zu praktischen Anwendungen in verschiedenen Bereichen führen könnten und verbessern, wie Technologie mit menschlichem Verhalten interagiert und es versteht.
Titel: Enhancing Next Active Object-based Egocentric Action Anticipation with Guided Attention
Zusammenfassung: Short-term action anticipation (STA) in first-person videos is a challenging task that involves understanding the next active object interactions and predicting future actions. Existing action anticipation methods have primarily focused on utilizing features extracted from video clips, but often overlooked the importance of objects and their interactions. To this end, we propose a novel approach that applies a guided attention mechanism between the objects, and the spatiotemporal features extracted from video clips, enhancing the motion and contextual information, and further decoding the object-centric and motion-centric information to address the problem of STA in egocentric videos. Our method, GANO (Guided Attention for Next active Objects) is a multi-modal, end-to-end, single transformer-based network. The experimental results performed on the largest egocentric dataset demonstrate that GANO outperforms the existing state-of-the-art methods for the prediction of the next active object label, its bounding box location, the corresponding future action, and the time to contact the object. The ablation study shows the positive contribution of the guided attention mechanism compared to other fusion methods. Moreover, it is possible to improve the next active object location and class label prediction results of GANO by just appending the learnable object tokens with the region of interest embeddings.
Autoren: Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue
Letzte Aktualisierung: 2023-06-23 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2305.12953
Quell-PDF: https://arxiv.org/pdf/2305.12953
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.