Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Fortschritte bei der Aktionsanerkennung in egocentrischen Videos

Das X-MIC-Framework verbessert Modelle zur Erkennung von Aktionen in Videos aus der Ich-Perspektive.

― 7 min Lesedauer


X-MIC: Neue Grenzen inX-MIC: Neue Grenzen inder AktionskennungVideoaufgaben.Leistung bei egozentriertenDas X-MIC-Framework steigert die
Inhaltsverzeichnis

Es gab ein wachsendes Interesse daran, Modelle zu verwenden, die Vision und Sprache kombinieren, um Aktionen in Videos zu identifizieren. Diese Modelle haben gute Ergebnisse gezeigt, wenn sie mit Standardbildern und -videos getestet wurden, aber ihre Leistung sinkt erheblich, wenn es um Videos aus einer Ich-Perspektive geht. Ich-Perspektivvideos, auch bekannt als egocentric Videos, erfassen Aktionen aus der Sicht des Benutzers und fügen eine Komplexitätsebene hinzu, mit der traditionelle Modelle Schwierigkeiten haben.

Das Problem mit aktuellen Modellen

Traditionelle Modelle haben bei Drittpersonen-Videos gut abgeschnitten, aber die Lücke zwischen der Funktionsweise dieser Modelle mit Standarddatensätzen und den einzigartigen Herausforderungen, die egocentric Videos darstellen, ist erheblich. Zum Beispiel können Modelle, die auf Drittpersonen-Datensätzen trainiert wurden, Objekte und Aktivitäten gut erkennen, aber wenn sie auf egocentric Videos angewendet werden, sinkt ihre Genauigkeit. Das liegt teilweise daran, dass egocentric Videos oft unterschiedliche Umgebungen, verschiedene Benutzer und verschiedene Objekte und Aktionen enthalten, auf die die Modelle nicht trainiert wurden.

Unsere Lösung: X-MIC Framework

Um diese Probleme zu lösen, stellen wir ein neues Framework namens X-MIC vor. Dieses Framework trainiert einen speziellen Teil namens Video-Adapter, der dem Modell hilft, zu lernen, wie man Textbeschreibungen mit egocentric Videos verbindet. Damit wollen wir verbessern, wie Modelle Aktionen in Videos aus der Ich-Perspektive erkennen.

Wie X-MIC funktioniert

X-MIC verwendet einen gemeinsamen Raum, in dem sowohl visuelle als auch textliche Informationen zusammen existieren können. Diese Technik ermöglicht es dem Modell, die eingefrorenen Textinformationen direkt mit dem Inhalt des egocentric Videos auszurichten. Wir haben eine neue Struktur entwickelt, die die Art und Weise, wie das Modell die Zeit in einem Video verarbeitet (temporales Modellieren), von der Weise trennt, wie es Bilder versteht (visuelle Kodierung). Diese Trennung hilft dem Modell, besser über verschiedene Datentypen zu generalisieren.

Bedeutung der egocentric Aktionsrecognition

Da Augmented Reality und Robotik immer beliebter werden, ist das Erkennen von Aktionen in Videos aus der Ich-Perspektive von entscheidender Bedeutung. Kürzlich wurden grosse Datensätze wie Epic-Kitchens und Ego4D erstellt, um alltägliche Aktivitäten aus einer Ich-Perspektive festzuhalten. Allerdings hat sich ein Grossteil der bisherigen Arbeiten nur auf die Bewertung von Aktionen innerhalb desselben Datensatzes konzentriert, was die Leistung des Modells in realen Anwendungen einschränkt. Es ist wichtig, Modelle auf unterschiedlichen Datensätzen zu testen, um zu sehen, wie gut sie sich an neue Situationen anpassen.

Herausforderungen beim Training und Testen

Eine der Hauptschwierigkeiten beim Training dieser Modelle ist die Inkonsistenz in den Umgebungen und Objekten, die in verschiedenen Datensätzen vorhanden sind. Modelle, die auf einem Datensatz trainiert wurden, schneiden möglicherweise nicht gut ab, wenn sie an einem anderen getestet werden, aufgrund dieser Unterschiede. Die Leistung sinkt noch mehr, wenn das Modell auf Aktionen und Objekte trifft, die es noch nie zuvor gesehen hat. Daher gibt es einen erheblichen Bedarf an Systemen, die sich gut anpassen und generalisieren können über verschiedene Datensätze hinweg.

Überblick über aktuelle Techniken

Aktuelle Techniken umfassen Methoden, die Texteingaben an visuelle Aufgaben anpassen. Einige Techniken verwenden zusätzliche trainierbare Komponenten, die Text- und visuelle Daten verbinden. Diese Ansätze berücksichtigen jedoch oft nicht die spezifischen Bedürfnisse des egocentric Video-Inhalts. Das führt zu Ineffizienzen und einer geringeren Genauigkeit bei der Erkennung von Aktionen.

Unser Ansatz zur Anpassung von Vision-Language-Modellen

Das X-MIC-Framework ermöglicht eine unkomplizierte Anpassung von Vision-Language-Modellen, damit sie besser mit egocentric Videos arbeiten. Indem wir Wissen, das spezifisch für Ich-Perspektivvideos ist, in die bestehende Modellarchitektur integrieren, ermöglichen wir eine verbesserte Erkennung von Aktionen. Die Methode verwandelt jedes Video in einen Vektor, der die Ausrichtung von Text- und Videodaten effizient unterstützt.

Bewertung auf verschiedenen Datensätzen

Wir haben unsere Methode gründlich gegen mehrere Datensätze getestet, darunter Epic-Kitchens, Ego4D und EGTEA. Die Bewertungen zeigen, dass unser Ansatz andere state-of-the-art Techniken bei der Erkennung von Aktionen über verschiedene Datensätze hinweg deutlich übertrifft.

Ansprache von Intra-Datensatz- und Inter-Datensatz-Generalisierung

Eines der Hauptziele unserer Forschung ist es, sicherzustellen, dass die Aktionsrecognition nicht auf den Datensatz beschränkt ist, auf dem das Modell trainiert wurde. Wir haben sowohl die Intra-Datensatz- (innerhalb desselben Datensatzes) als auch die Inter-Datensatz-Generalisierung (über verschiedene Datensätze hinweg) angegangen. Dieser doppelte Fokus ist entscheidend für die praktische Nutzung in realen Anwendungen, in denen das Modell auf neue, unbekannte Daten stösst.

Die Rolle des Prompt-Lernens und der Adapter

Prompt-Lernen hat sich als nützlich erwiesen, um eingefrorene Textmodelle anzupassen. Wir haben diese Idee auf Bilder ausgeweitet, indem wir adaptive Komponenten erstellt haben, die gleichzeitig aus Video- und Textdaten lernen. Während frühere Methoden verschiedene Varianten der Anpassung untersucht haben, zielt unser Ansatz speziell auf die einzigartigen Aspekte des egocentric Video-Inhalts ab.

Temporales Modellieren und räumliche Aufmerksamkeit

Um die Nuancen in egocentric Videos zu erfassen, haben wir einen Aufmerksamkeitsmechanismus entwickelt, der sich auf kritische Bereiche rund um die Hände konzentriert, wo die meisten Interaktionen stattfinden. Wir haben Selbstaufmerksamkeits-Techniken angewendet, um sicherzustellen, dass das Modell diese Interaktionen effektiv hervorhebt und gleichzeitig die Beziehungen zwischen den Frames über die Zeit berücksichtigt.

Leistungsverbesserungen mit X-MIC

Das X-MIC-Framework zeigt signifikante Verbesserungen bei der Erkennung feinkörniger Aktionen, wenn es über Datensätze hinweg getestet wird. Indem wir sowohl räumliche als auch temporale Aufmerksamkeit in den Fokus stellen, hat unser Modell konstant besser abgeschnitten als andere bei der genauen Erkennung von Aktionen, was zu besseren realen Anwendungen führt.

Implementierungsdetails

Unser Ansatz nutzt das vortrainierte CLIP-Modell. Während des Trainings setzen wir spezifische Techniken ein, die Anpassungen der Lernraten und verschiedene Augmentationsmethoden umfassen. Wir haben auch einen zweiten visuellen Encoder verwendet, um die Nuancen von egocentric Videos besser zu erfassen.

Zero-Shot Generalisierung

Eine der herausragenden Eigenschaften unseres Ansatzes ist die Fähigkeit zur Zero-Shot-Generalisierung. Das bedeutet, dass Modelle Vorhersagen auf der Grundlage von Klassen machen können, mit denen sie noch nie zuvor konfrontiert waren, eine entscheidende Funktion für reale Anwendungen, in denen häufig neue Aktionen auftreten.

Detaillierte Bewertung auf Datensätzen

In unseren Bewertungen haben wir Klassen in gemeinsame und neuartige Klassen unterteilt, basierend auf ihrer Präsenz über Datensätze hinweg. Die Ergebnisse zeigten eine starke Leistung bei der Erkennung gemeinsamer Aktionen, während eine gute Generalisierung auf neuartige Klassen beibehalten wurde. Diese Erkenntnisse heben die Robustheit des Modells beim Umgang mit neuen Situationen hervor.

Vergleich mit state-of-the-art Methoden

Im Vergleich zu bestehenden Methoden wird deutlich, dass unser Ansatz einen klaren Vorteil bietet. Die Leistungskennzahlen über sowohl Substantiv- als auch Verbklassen zeigten stetige Verbesserungen, insbesondere bei der Erkennung von Aktionen, die während des Modelltrainings nicht zuvor gesehen wurden.

Einschränkungen und zukünftige Richtungen

Obwohl unser Framework eine starke Leistung zeigt, deckt es keine Aufgaben zur Text-zu-Video-Retrieval ab. Zukünftige Entwicklungen werden darauf abzielen, diese Bereiche zu erkunden, um umfassendere Modelle zu schaffen, die eine grössere Bandbreite von Anwendungen abdecken können.

Fazit

Das X-MIC-Framework stellt einen bedeutenden Fortschritt bei der Anpassung von Vision-Language-Modellen für die egocentric Aktionsrecognition dar. Indem wir Informationen aus Ich-Perspektivvideos direkt in die Struktur des Modells injizieren, erzielen wir bemerkenswerte Verbesserungen in der Leistung über verschiedene Datensätze hinweg. Die Flexibilität unseres Ansatzes ermöglicht einfache Anpassungen in visuellen Rückgraten und sorgt dafür, dass das Modell besser auf neue Aktionen generalisiert, was den Weg für weitere Fortschritte in realen Anwendungen ebnet.

Originalquelle

Titel: X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization

Zusammenfassung: Lately, there has been growing interest in adapting vision-language models (VLMs) to image and third-person video classification due to their success in zero-shot recognition. However, the adaptation of these models to egocentric videos has been largely unexplored. To address this gap, we propose a simple yet effective cross-modal adaptation framework, which we call X-MIC. Using a video adapter, our pipeline learns to align frozen text embeddings to each egocentric video directly in the shared embedding space. Our novel adapter architecture retains and improves generalization of the pre-trained VLMs by disentangling learnable temporal modeling and frozen visual encoder. This results in an enhanced alignment of text embeddings to each egocentric video, leading to a significant improvement in cross-dataset generalization. We evaluate our approach on the Epic-Kitchens, Ego4D, and EGTEA datasets for fine-grained cross-dataset action generalization, demonstrating the effectiveness of our method. Code is available at https://github.com/annusha/xmic

Autoren: Anna Kukleva, Fadime Sener, Edoardo Remelli, Bugra Tekin, Eric Sauser, Bernt Schiele, Shugao Ma

Letzte Aktualisierung: 2024-03-28 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2403.19811

Quell-PDF: https://arxiv.org/pdf/2403.19811

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel