Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Systeme und Steuerung# Künstliche Intelligenz# Systeme und Steuerung

Fortschritte in der Steuerung von autonomen Wasserfahrzeugen

Dieses Framework verbessert die autonome Navigation in Binnengewässern mithilfe von Deep Reinforcement Learning.

― 10 min Lesedauer


Innovatives ASVInnovatives ASVSteuerungsrahmenwerkKI verbessern.Die Effizienz der Schiffsnavigation mit
Inhaltsverzeichnis

Dieser Artikel stellt einen Rahmen für die Steuerung autonomer Wasserfahrzeuge (ASVs) auf Binnenwasserstrassen (IWs) mithilfe von Deep Reinforcement Learning (DRL) vor. Der Rahmen hat zwei Ebenen: eine hochgradige Lokale Pfadplanungs (LPP)-Einheit und eine niedergradige Pfadverfolgungs (PF)-Einheit. Jede dieser Einheiten wird von ihrem eigenen DRL-Agenten gesteuert.

Der LPP-Agent plant den Kurs des Schiffs und berücksichtigt dabei nahe gelegene Fahrzeuge, Navigationsregeln und das Design der Wasserstrasse. Durch die Anwendung eines spezifischen neuronalen Netzwerkdesigns auf kontinuierliche Aktionen zeigt der LPP-Agent eine signifikante Verbesserung der Betriebssicherheit und erhöht den Mindestabstand zu anderen Fahrzeugen im Durchschnitt um 65 % im Vergleich zu traditionellen Methoden.

Der PF-Agent hingegen steuert die Kontrollen des Schiffs und berücksichtigt die Effekte von flachem Wasser und Umweltkräften wie Wind, Wellen und Strömungen. Im Vergleich zu einer gängigen Steuerungsmethode reduziert der PF-Agent den durchschnittlichen Fehler beim Befolgen des Pfades um 61 % und verringert den Aufwand zur Steuerung des Schiffs.

Beide Agenten wurden in Computersimulationen getestet, wobei ein Abschnitt der Unterelbe in Norddeutschland mit realen Schiffsbewegungen verwendet wurde, um die Szenarien realistisch zu gestalten.

Hintergrund zum Binnenwassertransport

Der Binnenwassertransport wird als umweltfreundliche Option für den Gütertransport angesehen. Er ist effizienter und produziert weniger Treibhausgase als Strassen- und Schienenoptionen. Ausserdem kann er eine grosse Menge Fracht transportieren und spielt eine wichtige Rolle im nachhaltigen Transport. Die Steuerung von Schiffen auf diesen Wasserstrassen wird normalerweise von menschlichen Bedienern durchgeführt. Neuere Studien haben jedoch begonnen, ASVs für diese Aufgaben in Betracht zu ziehen.

Ein wichtiger Faktor, der die Reeder beeinflusst, sind die Kosten für Besatzungsmitglieder. Da ASVs mit wenig oder gar keiner Besatzung betrieben werden können, können diese Kosten gesenkt werden. Auch wenn Unfälle im Binnenwassertransport im Vergleich zu anderen Modi seltener sind, birgt menschliches Versagen dennoch Risiken. Tatsächlich machten menschliche Fehler einen erheblichen Prozentsatz der maritimen Unfälle in mehreren Ländern von den frühen 2000er Jahren bis 2017 aus.

Ebenen der Autonomie bei Schiffen

Es gibt verschiedene Methoden, um zu kategorisieren, wie unabhängig ein Schiff sein kann. In diesem Kontext wird ein ASV als ein Fahrzeug definiert, das in der Lage ist, Entscheidungen zu treffen und eigenständig zu funktionieren, ohne menschliche Anleitung. Ein ASV erzeugt fortlaufend einen Pfad, dem es folgen muss.

Es gibt zwei Haupttypen der Pfadplanung: globale Pfadplanung (GPP) und lokale Pfadplanung (LPP). GPP konzentriert sich auf die Planung einer Route für die gesamte Reise, ohne zeitliche Veränderungen zu berücksichtigen. LPP hingegen ist ein fortlaufender Prozess, der auf aktuelle Informationen reagiert, um einen praktischen lokalen Pfad zu entwickeln. Die Aufgabe, diesem geplanten Pfad zu folgen, nennt man Pfadverfolgung, bei der ein Schiff auf einem vorgegebenen Pfad bleiben muss, ohne sich um die Zeit an bestimmten Wegpunkten zu kümmern.

Fortschritte in der maritimen Steuerung mit Deep Reinforcement Learning

In den letzten Jahren hat die maritime Forschung damit begonnen, Fortschritte in der künstlichen Intelligenz, insbesondere im Bereich des Deep Reinforcement Learning (DRL), zu nutzen. Dieser Ansatz kombiniert Reinforcement Learning mit tiefen neuronalen Netzwerken. DRL hat sich als effektiv erwiesen, um komplexe Aufgaben, einschliesslich der maritimen Navigation, zu bewältigen.

Im Kontext der LPP repräsentiert der Agent das eigene Schiff und muss seine Richtung basierend auf nahegelegenen Zielschiffen und der Form der Wasserstrasse anpassen. Der Agent erhält Rückmeldungen in Form von Belohnungen, die positives oder negatives Feedback für seine Aktionen geben.

Im Gegensatz zu traditionellen Steuerungsmethoden benötigt DRL keine vorherigen Informationen oder ein vollständiges Modell der Umgebung. Das macht es für maritime Szenarien geeignet, in denen die Bedingungen sich drastisch verändern können. Der Vorteil der Verwendung von tiefen neuronalen Netzwerken ist, dass sie aus Erfahrung lernen und sich an neue Situationen anpassen können.

Frühere Studien und Einschränkungen

Obwohl es Studien zu DRL für die maritime Pfadplanung gegeben hat, haben sich die meisten auf ungehinderte Gewässer konzentriert und nicht speziell auf die Herausforderungen in IWs. Diese Herausforderungen umfassen die Navigation in engen Kanälen, die Berücksichtigung der Auswirkungen der Wassertiefe auf die Schiffsbewegung und den Umgang mit vielen Zielschiffen. Unsere Studie zielt darauf ab, diese Lücke zu schliessen, indem dynamisch bewegende Zielschiffe während des Planungsprozesses berücksichtigt werden.

Neuere Forschungen haben auch begonnen, die Verwendung von DRL für die Pfadverfolgung von ASVs zu untersuchen. Einige bemerkenswerte Studien haben Erfolg dabei gezeigt, Schiffe unter verschiedenen Bedingungen einen festgelegten Pfad folgen zu lassen. Viele dieser Studien haben jedoch nicht die Auswirkungen von Umwelteinflüssen wie Wind und Strömungen berücksichtigt.

Vorgeschlagene Architektur für die Schiffssteuerung

Unser Ansatz führt ein zweistufiges System zur Steuerung von ASVs in IWs mit Hilfe von DRL ein. Diese Methode besteht aus zwei separaten Agenten, die sich auf LPP- und PF-Aufgaben konzentrieren. Die Architektur berücksichtigt verschiedene Umweltfaktoren, befolgt Verkehrsregeln und passt sich an die Form der Wasserstrasse an.

Um kontinuierliche Aktionen effektiv zu steuern, verwenden wir eine spezifische neuronale Netzwerkarchitektur namens räumlich-zeitliche rekursive Netzwerke in der LPP-Einheit.

Testen der Effektivität des Ansatzes

Wir haben umfassende Tests mit beiden Agenten in verschiedenen herausfordernden Situationen durchgeführt, die reale Szenarien darstellen. Besonderer Fokus lag auf komplexen Manövern und starken Umweltkräften. Das gesamte System wurde durch reale AIS-Daten validiert, um das Verhalten anderer Schiffe zu simulieren.

Hintergrund zu maritimen Verkehrsregeln

Bei der Planung von Pfaden müssen spezifische maritime Verkehrsregeln berücksichtigt werden. Die International Regulations for Preventing Collisions at Sea (COLREGs) legen erforderliche Verhaltensweisen für Schiffe fest. Diese Regeln können jedoch vage sein und berücksichtigen moderne autonome Systeme nicht.

Jedes Land hat ausserdem eigene Vorschriften, die variieren können. In unserer Studie betrachten wir die Regeln für den unteren Teil der Elbe. Einige wichtige Regeln umfassen die Anforderung, Schiffe auf der linken Seite zu überholen, und dass das überholte Schiff bei diesem Manöver helfen muss.

Sensorsysteme für ASVs

Die LPP verlässt sich auf aktuelle Navigationsdaten, einschliesslich Position, Geschwindigkeit und verschiedenen Umwelteinflüssen. Diese Details stammen aus einer Reihe von Sensoren, wobei nicht alle Schiffe mit der gleichen Technologie ausgestattet sind. Darüber hinaus ist die Sensordaten möglicherweise nicht immer genau, sodass fortschrittliche Techniken zur Schätzung des Zustands des Schiffs benötigt werden.

Pfadverfolgungsalgorithmen

Die Aufgabe der Pfadverfolgung umfasst die Generierung niedergradiger Steuerbefehle aus einem gegebenen lokalen Pfad. Verschiedene Algorithmen können verwendet werden, um diese Befehle zu erstellen, wobei der proportional-integrale-derivative (PID)-Regler eine der gebräuchlichsten Methoden ist. In dieser Studie vergleichen wir auch die Leistung unseres PF-Agenten mit einem PID-Regler.

Pfadplanungsalgorithmen

Historisch wurden viele Ansätze für die maritime Pfadplanung entwickelt. Dazu gehören Algorithmen, die sich auf LPP konzentrieren, obwohl weniger Studien speziell IWs ins Visier genommen haben. Unsere Arbeit zielt darauf ab, diese Lücke zu schliessen, indem neuartige Techniken zur Verwaltung von ASVs in eingeschränkten Wasserstrassenszenarien eingesetzt werden.

Überblick über die vorgeschlagene Architektur

Der Rahmen zur Steuerung von ASVs besteht aus drei Hauptkomponenten: einem GPP-Modul, einem LPP-Modul und einem PF-Modul. Ein hochgradiger Agent steuert das LPP-Modul, während ein niedergradiger Agent die PF-Aufgabe kontrolliert. Das GPP-Modul liefert einen globalen Pfad, der das LPP-Modul informiert, das dann einen lokalen Pfad für das PF-Modul generiert.

Lokale Pfadplanungs Einheit

Das LPP-Modul generiert einen neuen lokalen Plan basierend auf aktuellen Informationen. Dieser Prozess passiert alle paar Sekunden, je nach Situation. Wenn keine nahegelegenen Zielschiffe vorhanden sind, kann ein einfacher Pfad erstellt werden, um zur globalen Route zurückzukehren.

Wenn die LPP-Einheit aktiviert wird, verarbeitet der DRL-Agent Signale vom Schiff und Navigationsdaten. Basierend auf diesen Informationen entscheidet der Agent, in welche Richtung das Schiff fahren sollte.

Pfadverfolgungseinheit

Das PF-Modul nutzt den lokalen Pfad, der von der LPP generiert wurde, um die notwendigen Steuerbefehle zu berechnen. Es berücksichtigt die Auswirkungen von Umweltkräften und stellt sicher, dass das Schiff dem vorbestimmten Pfad folgt.

Schiffsbewegungen

Die Dynamik des Schiffs ist wichtig, um sein Verhalten auf dem Wasser genau zu simulieren. Diese Studie verwendet ein Modell, um die Bewegung von ASVs unter Berücksichtigung verschiedener Umweltkräfte zu simulieren.

Vektor-Feld-Leitlinien

Sowohl die LPP- als auch die PF-Einheiten nutzen Vektor-Feld-Leitlinien (VFG), um eine genaue Pfadverfolgung zu gewährleisten. Diese Methode erzeugt ein Vektorfeld, das das Schiff zurück auf seinen gewünschten Pfad lenkt.

Kollisionrisiko Bewertung

Die Bewertung des Kollisionrisikos mit nahegelegenen Schiffen ist entscheidend für die maritime Navigation. Zwei Hauptkonzepte werden verwendet: das Schiffsdomaine, das einen sicheren Bereich um ein Schiff definiert, und den nächsten Annäherungspunkt (CPA), der hilft, die Risiken von Kollisionen zu messen.

Reinforcement Learning und der RL-Algorithmus

Reinforcement Learning ist ein wichtiger Teil unseres Ansatzes, da es den Agenten ermöglicht, durch Interaktion mit ihrer Umgebung zu lernen. Die Systeme sind so konzipiert, dass sie ihre Aktionen basierend auf kumulierten Belohnungen optimieren, die ihren Lernprozess lenken.

Einrichtung der Trainingsumgebung

Um die Simulationsumgebung einzurichten, erstellen wir zunächst einen globalen Pfad, dem die ASVs folgen sollen. Dies beinhaltet das Generieren von Wasserwegen mit verschiedenen Tiefen und Breiten.

Verhalten der Zielschiffe

Für das Training des LPP-Agenten erstellen wir realistische Szenarien, in denen Zielschiffe gemäss spezifischen Regeln agieren, einschliesslich grundlegender Überholmanöver. Einige Schiffe können auch als nicht kooperativ behandelt werden, indem sie Kurs oder Geschwindigkeit nicht ändern.

Validierung des Moduls zur lokalen Pfadplanung

Wir testen die Leistung des LPP-Agenten gründlich durch eine Reihe herausfordernder Szenarien. Dazu gehört das Navigieren durch komplexe Überholsituationen und das Vermeiden von Kollisionen mit statischen Hindernissen. Die Leistung unseres DRL-Agenten wird mit traditionellen Methoden verglichen.

Validierung des Pfadverfolgungsmoduls

Der PF-Agent wird unter verschiedenen Umweltbedingungen getestet, einschliesslich der Auswirkungen von Wind und Strömungen. Seine Leistung wird mit der eines PID-Reglers verglichen, wobei der DRL-Agent eine überlegene Anpassungsfähigkeit und Präzision beim Verfolgen des Pfades zeigt.

Bewertung der vollständigen Architektur

Nach der Validierung jedes Moduls bewerten wir das gesamte System mithilfe realer AIS-Daten. Die Leistung zeigt, dass die Architektur erfolgreich mit realen Situationen navigieren kann, während sie sich an etablierte maritime Regeln hält.

Praktische Herausforderungen und zukünftige Arbeiten

Obwohl unsere Validierung starke Ergebnisse zeigt, gibt es Herausforderungen darin, wie autonome Fahrzeuge mit menschlich betriebenen Schiffen interagieren. Zukünftige Arbeiten könnten sich darauf konzentrieren, die Kommunikation zwischen den Fahrzeugen zu verbessern und Einschränkungen im Zusammenhang mit Umweltfaktoren zu adressieren.

Fazit

Die Nutzung von ASVs für den Binnenwassertransport bietet eine vielversprechende Möglichkeit für ein nachhaltigeres und kosteneffizienteres Transportsystem. Unsere Studie führt eine zweistufige Architektur basierend auf DRL ein, die verschiedene Faktoren berücksichtigt, um eine sichere und effiziente Navigation zu gewährleisten.

Danksagungen

Wir danken verschiedenen Personen und Organisationen für ihre Beiträge und Unterstützung während des Forschungsprozesses. Ihre Einblicke und Ressourcen haben einen grossen Einfluss auf die Entwicklung unserer Arbeit gehabt.

Anhang

Der Anhang enthält zusätzliche Details zu den in unserer Forschung berücksichtigten maritimen Verkehrsregeln, dem Verhalten der Zielschiffe während der Tests und spezifischen Informationen über die verwendete Methode des künstlichen Potenzialfeldes als Vergleichsbasis.

Originalquelle

Titel: 2-Level Reinforcement Learning for Ships on Inland Waterways: Path Planning and Following

Zusammenfassung: This paper proposes a realistic modularized framework for controlling autonomous surface vehicles (ASVs) on inland waterways (IWs) based on deep reinforcement learning (DRL). The framework improves operational safety and comprises two levels: a high-level local path planning (LPP) unit and a low-level path following (PF) unit, each consisting of a DRL agent. The LPP agent is responsible for planning a path under consideration of dynamic vessels, closing a gap in the current research landscape. In addition, the LPP agent adequately considers traffic rules and the geometry of the waterway. We thereby introduce a novel application of a spatial-temporal recurrent neural network architecture to continuous action spaces. The LPP agent outperforms a state-of-the-art artificial potential field (APF) method by increasing the minimum distance to other vessels by 65% on average. The PF agent performs low-level actuator control while accounting for shallow water influences and the environmental forces winds, waves, and currents. Compared with a proportional-integral-derivative (PID) controller, the PF agent yields only 61% of the mean cross-track error (MCTE) while significantly reducing control effort (CE) in terms of the required absolute rudder angle. Lastly, both agents are jointly validated in simulation, employing the lower Elbe in northern Germany as an example case and using real automatic identification system (AIS) trajectories to model the behavior of other ships.

Autoren: Martin Waltz, Niklas Paulig, Ostap Okhrin

Letzte Aktualisierung: 2024-08-21 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2307.16769

Quell-PDF: https://arxiv.org/pdf/2307.16769

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel