Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Künstliche Intelligenz# Robotik

Fortschritte bei der monokularen Tiefenschätzung mit dem SlowTV-Datensatz

Ein neuer Ansatz verbessert die Tiefenschätzung mit vielfältigen Trainingsdaten.

― 5 min Lesedauer


Durchbruch bei derDurchbruch bei dermonokularenTiefenschätzungUmgebungen.Tiefenschätzung in verschiedenenInnovatives Modell verbessert die
Inhaltsverzeichnis

Die Rekonstruktion der Umgebung ist wichtig für viele Bereiche wie selbstfahrende Autos, Robotik und Augmented Reality. Monokulare Tiefenschätzung (MDE) ist eine Methode, die Tiefeninformationen aus einem einzigen Bild schätzt, was nützlich ist, weil es den Prozess im Vergleich zu traditionellen Methoden vereinfacht, die oft mehrere Bilder brauchen.

Aktuelle Ansätze zur MDE verlassen sich häufig auf gut annotierte Datensätze. Aber so hochwertige Daten zu sammeln, kann teuer und zeitaufwändig sein. Forscher suchen nach Wegen, um MDE effizienter zu machen, indem sie Selbstüberwachtes Lernen nutzen, das aus unannotierten Daten lernen kann.

Diese Arbeit diskutiert einen neuen Datensatz, kombiniert mit einem selbstüberwachten Modell, das darauf abzielt, die Leistung von MDE in verschiedenen Umgebungen, einschliesslich komplexer Innen- und Aussenbereiche, zu verbessern.

Die Herausforderung

Viele bestehende Techniken für MDE sind auf Daten beschränkt, die aus spezifischen Umgebungen gesammelt wurden, wie z.B. städtischen Gebieten. Dieser enge Fokus bedeutet, dass diese Modelle oft Schwierigkeiten haben, sich an andere Settings anzupassen, wie natürliche Landschaften oder Innenräume.

Faktoren wie die Kosten für das Sammeln beschrifteter Daten und die Rechenanforderungen traditioneller Methoden, wie Structure-from-Motion (SfM), machen es schwer, effektive Modelle zu trainieren. Selbstüberwachtes Lernen könnte helfen, indem es Videos aus dem Internet nutzt, anstatt beschriftete Datensätze, was die Vielfalt der Trainingsumgebungen erhöht.

Der neue Datensatz: SlowTV

Um diese Herausforderungen zu meistern, wurde ein neuer Datensatz namens SlowTV erstellt. Er besteht aus langen Videos, die von YouTube gesammelt wurden und verschiedene entspannende Aktivitäten zeigen, wie Wandern, Fahren und Scuba-Diving. Dieser Datensatz ist anders, weil er eine viel breitere Palette von Umgebungen bietet im Vergleich zu bestehenden, automobil-fokussierten Datensätzen.

Der SlowTV-Datensatz umfasst 1,7 Millionen Bilder aus über 40 Videos, die in drei Kategorien unterteilt sind: natürliche Szenen, Fahr-Szenen und Unterwasser-Szenen. Die Videos zeigen eine Vielzahl von Bedingungen, einschliesslich unterschiedlicher Wetterarten und geografischer Standorte, um sicherzustellen, dass die Daten so vielfältig wie möglich sind.

Methodologie

Die vorgeschlagene Methode nutzt den neuen SlowTV-Datensatz, um ein selbstüberwachtes MDE-Modell zu trainieren. Anstatt beschriftete Daten zu benötigen, lernt das Modell aus der photometrischen Konsistenz zwischen den Frames. Das bedeutet, es nutzt die visuellen Informationen aus den Videos, um die Tiefe zu verstehen, ohne explizite Labels zu benötigen.

Eingabe eines einzelnen Bildes

Das Modell schätzt die Tiefe anhand eines einzelnen Bildes. Es generiert eine Vorhersage basierend auf dem Zielbild und nutzt ein anderes Bild, das kurz davor aufgenommen wurde, als Referenz. Das wird erreicht, indem die relative Bewegung zwischen den beiden Bildern vorhergesagt wird. Das Modell ist so gestaltet, dass es flexibel ist und sich an verschiedene Situationen anpassen kann.

Verlustfunktionen

Es werden mehrere Verlustfunktionen eingesetzt, um die Schätzgenauigkeit des Modells zu verbessern. Dazu gehören:

  1. Photometrischer Verlust: Dieser misst, wie gut die Vorhersage des Modells mit dem Originalbild übereinstimmt. Ziel ist es, diesen Unterschied zu minimieren.
  2. Minimale Rekonstruktionsverlust: Dies hilft dem Modell, sich auf Teile des Bildes zu konzentrieren, die weniger Rauschen haben und Ablenkungen wie okkludierte bewegte Objekte zu entfernen.
  3. Automasking: Diese Technik hilft dem Modell, bestimmte Pixel zu ignorieren, die möglicherweise keine nützlichen Informationen liefern, was die Genauigkeit weiter verbessert.

Lernen der Kameraintrinsiken

Beim Einsatz von nicht kalibrierten Kameras ist es wichtig, die intrinsischen Kameraparameter zu schätzen. Das bedeutet, dass das Modell die Kameraeinstellungen verstehen muss, die beeinflussen, wie Bilder aufgenommen werden. Die vorgeschlagene Methode umfasst einen Mechanismus, um diese Einstellungen automatisch zu lernen, was den gesamten Prozess vereinfacht.

Aspect Ratio Augmentation

Um sicherzustellen, dass das Modell gut mit verschiedenen Bildgrössen funktioniert, wird während des Trainings eine Aspect Ratio Augmentation angewendet. Das bedeutet, dass Bilder zufällig zugeschnitten und skaliert werden, um eine Vielzahl von Formen und Grössen zu erstellen, was die Fähigkeit des Modells verbessert, sich über verschiedene Datensätze und Umgebungen zu verallgemeinern.

Ergebnisse

Das vorgeschlagene Modell wird auf mehreren Datensätzen evaluiert, um seine Leistung zu beurteilen. Dazu gehören sowohl In-Distribution-Datensätze (wo die Testdaten aus denselben Quellen stammen wie die Trainingsdaten) als auch Zero-Shot-Datensätze (wo das Modell an Daten getestet wird, die es noch nie gesehen hat).

In-Distribution-Leistung

Das Modell zeigt hervorragende Leistungen auf den Trainingsdatensätzen und übertrifft signifikant bestehende selbstüberwachte Techniken. Es kann sich sogar gut gegen einige überwachte Modelle behaupten, was seine Effektivität und Vielseitigkeit unterstreicht.

Zero-Shot-Generalisierung

Der wirklich entscheidende Test für das Modell kommt mit der Zero-Shot-Generalisierung. In diesem Setting wird das Modell in völlig neuen Umgebungen angewendet, auf die es nie trainiert wurde. Die Ergebnisse zeigen, dass das neue Modell in diesen herausfordernden Bedingungen konsistent besser abschneidet als frühere selbstüberwachte Methoden.

Fazit

Diese Arbeit stellt einen bedeutenden Fortschritt im Bereich der monokularen Tiefenschätzung dar. Durch die Nutzung eines vielfältigen Datensatzes und eines selbstüberwachten Lernansatzes ist das vorgeschlagene Modell in der Lage, sich über verschiedene Umgebungen hinweg zu verallgemeinern und viele bestehende Modelle zu übertreffen.

Zukünftige Arbeiten sollten sich darauf konzentrieren, den Datensatz noch weiter zu erweitern, möglicherweise durch die Hinzufügung von mehr Innenräumen. Ausserdem wird es wichtig sein, die Leistung des Modells in Anwesenheit dynamischer Elemente zu verbessern. Mögliche Lösungen könnten die Anwendung zusätzlicher Techniken umfassen, um die Bewegung in den Bildern besser zu schätzen.

Zusammenfassend bietet die Kombination aus dem SlowTV-Datensatz und dem neuen selbstüberwachten Modell einen vielversprechenden Weg zur Verbesserung der monokularen Tiefenschätzung und macht sie anwendbarer für reale Situationen.

Originalquelle

Titel: Kick Back & Relax: Learning to Reconstruct the World by Watching SlowTV

Zusammenfassung: Self-supervised monocular depth estimation (SS-MDE) has the potential to scale to vast quantities of data. Unfortunately, existing approaches limit themselves to the automotive domain, resulting in models incapable of generalizing to complex environments such as natural or indoor settings. To address this, we propose a large-scale SlowTV dataset curated from YouTube, containing an order of magnitude more data than existing automotive datasets. SlowTV contains 1.7M images from a rich diversity of environments, such as worldwide seasonal hiking, scenic driving and scuba diving. Using this dataset, we train an SS-MDE model that provides zero-shot generalization to a large collection of indoor/outdoor datasets. The resulting model outperforms all existing SSL approaches and closes the gap on supervised SoTA, despite using a more efficient architecture. We additionally introduce a collection of best-practices to further maximize performance and zero-shot generalization. This includes 1) aspect ratio augmentation, 2) camera intrinsic estimation, 3) support frame randomization and 4) flexible motion estimation. Code is available at https://github.com/jspenmar/slowtv_monodepth.

Autoren: Jaime Spencer, Chris Russell, Simon Hadfield, Richard Bowden

Letzte Aktualisierung: 2023-07-20 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2307.10713

Quell-PDF: https://arxiv.org/pdf/2307.10713

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel