Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Verbesserung der Tiefenschätzung für Drohnen mit nur einer Kamera

Neue Methoden verbessern, wie Drohnen die Distanz zu Objekten messen.

― 5 min Lesedauer


Durchbruch bei derDurchbruch bei derDrohnen-TiefenschätzungAbstandsmessung für UAVs erheblich.Neue Techniken verbessern die
Inhaltsverzeichnis

In den letzten Jahren hat die Nutzung von Drohnen, oder unbemannten Luftfahrzeugen (UAVs), enorm zugenommen. Diese fliegenden Maschinen werden für viele Aufgaben eingesetzt, wie zum Beispiel Lieferdienste, Überwachung und landwirtschaftliche Überwachung. Damit sie sicher fliegen können, müssen UAVs andere Objekte am Himmel erkennen und vermeiden, und genau hier kommen fortschrittliche Systeme ins Spiel.

Detect-and-Avoid (DAA) Systeme sind dafür da, UAVs dabei zu helfen, mögliche Kollisionen mit anderen fliegenden Objekten zu erkennen und sich davon wegzubewegen. Damit DAA Systeme effektiv sind, müssen sie wissen, welche Objekte in der Nähe sind und wie weit diese entfernt sind. Traditionelle Methoden zur Objekterkennung liefern normalerweise Informationen über die Position von Objekten in einem zweidimensionalen Raum, geben aber keine Informationen darüber, wie weit diese Objekte in drei Dimensionen entfernt sind.

In diesem Artikel wird eine Studie vorgestellt, die darauf abzielt, wie UAVs die Entfernung zu Objekten nur mit einer Kamera einschätzen können. Die Studie führt neue Methoden zur Tiefenschätzung ein und konzentriert sich darauf, wie man die Entfernung von Objekten in grossen Entfernungen bestimmen kann.

Der Bedarf an Tiefenschätzung

Die Fähigkeit, Tiefe abzuschätzen, ist entscheidend für UAVs, um Abstürze zu vermeiden. Wenn eine Drohne nicht weiss, wie weit andere Objekte entfernt sind, kann sie keine rechtzeitigen Entscheidungen treffen, um ihnen auszuweichen. Das ist besonders wichtig für kleine Drohnen, die keine schweren Sensoren wie Lidar oder Radar mitnehmen können, die oft zur Abstandsmessung verwendet werden. Stattdessen ist es praktischer, eine einzige Kamera zur Tiefenschätzung zu nutzen.

Im autonomen Fahren gibt es ähnliche Herausforderungen, und es wurden viele Techniken entwickelt, um Fahrzeugen zu helfen, ihre Umgebung zu verstehen. Diese Methoden sind jedoch möglicherweise nicht direkt auf UAVs anwendbar, da die beiden Bereiche unterschiedlich funktionieren. Zum Beispiel müssen UAVs Objekte über viel grössere Entfernungen erkennen als Autos, was den benötigten Ansatz für eine effektive Tiefenmessung verändert.

Die vorgeschlagenen Methoden

Die Studie präsentiert neue Techniken zur Verbesserung der Tiefenschätzung für UAVs mit einer einzigen Kamera.

Zwei neue Kodierungstechniken

  1. Sigmoid-Kodierung: Diese Methode transformiert die Tiefenwerte mit einer mathematischen Funktion, die sicherstellt, dass die Werte immer positiv sind und in einen bestimmten Bereich passen. Dadurch werden Probleme vermieden, bei denen das Modell unrealistische negative Entfernungen vorhersagen könnte.

  2. ReLU-ähnliche Kodierung: Ähnlich wie die Sigmoid-Kodierung stellt diese Technik ebenfalls sicher, dass die Tiefenwerte positiv sind. Sie verwendet jedoch eine andere mathematische Struktur, die den Vorhersageprozess vereinfacht und gleichzeitig die Genauigkeit beibehält.

Sichtweise der Tiefe als Klassifikationsproblem

Die Studie schlägt auch einen anderen Ansatz zur Tiefenschätzung vor, indem sie sie als Klassifikationsproblem anstatt als Regressionsproblem behandelt. Dieses Verfahren teilt die Entfernung in spezifische Bereiche oder „Bins“ und schult das Modell, um zu identifizieren, in welchen Bin ein Objekt basierend auf der Sicht der Kamera fällt.

Eine neue Funktion namens Soft-Argmax wird eingeführt. Diese Funktion bietet eine nuanciertere Möglichkeit, zu bewerten, wie nah eine Vorhersage an dem tatsächlichen Tiefen-Bin ist, wobei berücksichtigt wird, wie weit die Vorhersage möglicherweise danebenliegt.

Die Fitness-Score-Metrik

Um zu bewerten, wie gut die vorgeschlagenen Methoden funktionieren, führt die Studie den Fitness-Score ein. Dieser Score kombiniert die Ergebnisse aus der Objekterkennung und der Tiefenschätzung in eine einzige Leistungsmetrik. Mit dem Fitness-Score wird es einfacher, die Effektivität verschiedener Methoden einheitlich zu beurteilen.

Testen der Methoden

Die Forscher haben mehrere Tests mit einem Datensatz durchgeführt, der für die Verfolgung von fliegenden Objekten konzipiert wurde. Dieser Datensatz lieferte Bilder von verschiedenen Objekten im Flug, die mit ihren Positionen und Entfernungen annotiert waren. Durch die Verwendung dieser Bilder konnten sie ihre Modelle trainieren und bewerten, wie gut die neuen Methoden zur Tiefenschätzung funktionierten.

Experimentelle Gruppen

Die Tests wurden in drei Hauptgruppen unterteilt, basierend darauf, wie die Tiefenschätzung formuliert wurde:

  1. Regressionsmethoden: Hier war das Ziel, einen kontinuierlichen Tiefenwert direkt vorherzusagen.
  2. Bin-Klassifikationsmethoden: Diese Gruppe konzentrierte sich darauf, Objekte in diskrete Entfernungsbereiche zu klassifizieren.
  3. Ordinale Regressionsmethoden: Diese Methode behandelte die Tiefenschätzung als ein geordnetes Klassifikationsproblem, bei dem die Bins ordnete Entfernungen repräsentieren.

Ergebnisse

Die Ergebnisse der Experimente zeigten, dass die vorgeschlagenen Methoden, insbesondere die Sigmoid-Kodierung und die Soft-Argmax-Klassifikation, traditionelle Techniken übertrafen.

  • Regressionsmethoden: Unter den Regressionsmethoden erzielte die Sigmoid-Kodierung die besten Ergebnisse sowohl bei der Tiefenschätzung als auch bei der Beibehaltung einer guten Leistung in der Objekterkennung.

  • Klassifikationsmethoden: Die Methoden, die Soft-Argmax verwendeten, zeigten eine verbesserte Genauigkeit im Vergleich zu Baseline-Ansätzen, die auf einfacheren Klassifikationstechniken basierten.

  • Ordinale Regression: Obwohl die Ergebnisse im Allgemeinen gut waren, boten die Methoden, die Soft-Argmax verwendeten, dennoch eine effektivere Möglichkeit zur Tiefenschätzung im Vergleich zur ordinalen Regression.

Laufzeitaspekte

Neben der Bewertung, wie genau die Modelle waren, berücksichtigte die Studie auch die Geschwindigkeit der Leistung. Die Hinzufügung von Tiefenschätzungsfunktionen zum Objekt-Erkennungsrahmen erhöhte zwar die Verarbeitungszeiten, jedoch wurde der Kompromiss als akzeptabel angesehen, wenn man die verbesserte Genauigkeit berücksichtigt.

Effizienz des Workflows

Eine der wichtigsten Erkenntnisse war, dass einfachere Tiefenregressionsmodelle tendenziell schneller waren. Das war zu erwarten, da komplexere Klassifikationsmethoden zusätzliche Verarbeitungsschritte erfordern. Obwohl dies ein Faktor ist, sollte die insgesamt verbesserte Genauigkeit der neuen Methoden die geringe Erhöhung der Verarbeitungszeit rechtfertigen.

Fazit

Die Studie hat erfolgreich die Herausforderungen der langfristigen objektspezifischen Tiefenschätzung für UAVs mit einer einzigen Kamera angegangen. Durch die Entwicklung neuer Kodierungsmethoden und das innovative Framing der Tiefenschätzung konnten die Forscher verbessern, wie gut Drohnen ihre Umgebung erkennen und bewerten.

Diese Fortschritte verbessern nicht nur die sichere Bedienung von UAVs, sondern bieten auch eine Grundlage für zukünftige Forschung und Entwicklung in der Computer Vision für autonome Flugdrohnen. Die Einführung des Fitness-Scores bietet ein wertvolles Werkzeug zur Bewertung der Effektivität von Modellen und ebnet den Weg für bessere Leistungen in realen Szenarien. Insgesamt zeigen die neuen Methoden einen signifikanten Fortschritt bei der Nutzung von UAVs für verschiedene Anwendungen und sorgen für sicherere und zuverlässigere Einsätze im überfüllten Luftraum.

Originalquelle

Titel: Long Range Object-Level Monocular Depth Estimation for UAVs

Zusammenfassung: Computer vision-based object detection is a key modality for advanced Detect-And-Avoid systems that allow for autonomous flight missions of UAVs. While standard object detection frameworks do not predict the actual depth of an object, this information is crucial to avoid collisions. In this paper, we propose several novel extensions to state-of-the-art methods for monocular object detection from images at long range. Firstly, we propose Sigmoid and ReLU-like encodings when modeling depth estimation as a regression task. Secondly, we frame the depth estimation as a classification problem and introduce a Soft-Argmax function in the calculation of the training loss. The extensions are exemplarily applied to the YOLOX object detection framework. We evaluate the performance using the Amazon Airborne Object Tracking dataset. In addition, we introduce the Fitness score as a new metric that jointly assesses both object detection and depth estimation performance. Our results show that the proposed methods outperform state-of-the-art approaches w.r.t. existing, as well as the proposed metrics.

Autoren: David Silva, Nicolas Jourdan, Nils Gählert

Letzte Aktualisierung: 2023-02-17 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2302.08943

Quell-PDF: https://arxiv.org/pdf/2302.08943

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel