Verbesserung von Vorhersagen in der Verkehrsplanung mit ENSY
Einführung von ENSY zur Verbesserung der Reiseverhaltensvorhersagen von Minderheiten.
― 6 min Lesedauer
Inhaltsverzeichnis
Die Verkehrsplanung hängt stark davon ab, wie Menschen ihre Reisemittel auswählen. Wenn man diese Entscheidungen genau vorhersagen kann, hilft das, die öffentlichen Verkehrssysteme zu verbessern und den Verkehr effektiv zu steuern. Allerdings übersehen traditionelle Methoden zur Vorhersage dieser Entscheidungen oft weniger gängige Reisemöglichkeiten, was zu unausgewogenen Ergebnissen führt. Dieser Artikel stellt eine neue Methode namens Ensemble Synthesizer (ENSY) vor, die darauf abzielt, die Vorhersagen für Minderheitsreisemittel zu verbessern und die Gesamtgenauigkeit in Verkehrsmodellen zu steigern.
Die Herausforderung der Wahl des Verkehrsmittels
Die Vorhersage der Verkehrsmittelwahl beschäftigt sich damit, warum Reisende eine Transportoption einer anderen vorziehen. Faktoren, die diese Entscheidungen beeinflussen, können einfach sein, wie Entfernung und Reisezeit, oder abstrakter, wie Sicherheit und Komfort. Mit neuen Transportmöglichkeiten wie Mitfahrgelegenheiten und E-Scootern wird das Verständnis dieser Entscheidungen noch komplexer.
Historisch gesehen haben Ökonomen und Verkehrsexperten diskrete Wahlmodelle (DCMs) verwendet, um die Verkehrsmittelwahl vorherzusagen. Diese Modelle haben ihre Vorteile, darunter klare Erklärungen, wie sie funktionieren. Allerdings benötigen sie auch viele Annahmen und eine umfangreiche Datenverarbeitung, was ihre Nutzung komplizieren kann.
Neueste Fortschritte im Bereich des maschinellen Lernens (ML) bieten eine frische Perspektive. Im Gegensatz zu traditionellen Methoden benötigt ML keine starren Datenstrukturen und kann sich besser an das unterschiedliche Verhalten anpassen, das man bei Reiseentscheidungen sieht.
Ungleichgewichtige Datensätze
Ein grosses Hindernis bei der Vorhersage der Verkehrsmittelwahl sind ungleiche Datensätze. In Verkehrsstudien sind bestimmte Reisemittel, wie Gehen oder Radfahren, oft viel seltener als andere, wie Autofahren. Traditionelle Modelle können bei gängigen Modi gut abschneiden, haben aber Schwierigkeiten mit selteneren Optionen, was zu verzerrten Ergebnissen führt.
Um die Vorhersagen für weniger gängige Modi zu verbessern, haben Forscher verschiedene Methoden untersucht. Dazu gehören verschiedene Techniken zur Datenaugmentation, die die Erstellung synthetischer Daten zur Angleichung der Klassengrössen umfasst. Viele bestehende Methoden haben jedoch Einschränkungen, was weiterhin Herausforderungen bei genauen Vorhersagen zur Folge hat.
Einführung des Ensemble Synthesizers (ENSY)
In diesem Artikel wird ENSY als Lösung für die Probleme vorgestellt, die durch ungleiche Datensätze bei der Vorhersage der Verkehrsmittelwahl entstehen. ENSY nutzt Wahrscheinlichkeitsverteilungen aus bestehenden Daten, um neue, synthetische Datenpunkte zu erstellen, die speziell darauf ausgelegt sind, die Vorhersage von Minderheitsklassen zu verbessern.
Die ENSY-Methode hat zwei Hauptkomponenten: einen Generator und einen Validator. Der Generator erstellt neue Datenpunkte für unterrepräsentierte Klassen basierend auf bestehenden Datenmustern. Der Validator überprüft, ob diese generierten Punkte in die definierten Kategorien passen, um qualitativ hochwertige synthetische Daten sicherzustellen, bevor sie zum Training von Vorhersagemodellen verwendet werden.
So funktioniert ENSY
Datengenerierung
Im ersten Schritt erstellt der Generator von ENSY neue Instanzen für jedes Reisemittel. Er beginnt mit der Gesamtdistribution der bestehenden Daten, um neue Proben zu bilden. Der Generator arbeitet sowohl mit numerischen als auch mit kategorialen Daten separat.
Für numerische Merkmale identifiziert ein Gaussian Mixture Model Muster in den Daten, wodurch der Generator neue Werte erzeugen kann, die innerhalb realistischer Grenzen liegen. Wenn die generierten Werte die minimalen oder maximalen Grenzen der tatsächlichen Daten überschreiten, können sie angepasst werden, um diese Grenzen einzuhalten.
Für kategoriale Merkmale nutzt ENSY die beobachteten Häufigkeiten verschiedener Kategorien, um neue Instanzen zu generieren. Durch die Anwendung einer einfachen Abbildungstechnik sorgt ENSY dafür, dass die erstellten kategorialen Werte die Verteilung der ursprünglichen Daten widerspiegeln.
Validierungsprozess
Sobald synthetische Instanzen generiert sind, durchlaufen sie den Validator. Ein trainierter Klassifikator bewertet die neuen Datenpunkte, um festzustellen, ob sie die Minderheitsklassen genau repräsentieren. Wenn der Klassifikator eine Instanz als falsch identifiziert, wird sie verworfen; andernfalls wird sie in den Trainingssatz aufgenommen. Dieser Validierungsschritt ist entscheidend, da er sicherstellt, dass nur qualitativ hochwertige Daten hinzugefügt werden, was zu einer besseren Modellleistung führt.
Leistungsbewertung
Um zu messen, wie gut ENSY funktioniert, werden mehrere Standardmetriken wie die Gesamtrelevanz, Präzision, Rückruf und F1-Score verwendet. Die Gesamtrelevanz spiegelt wider, wie viele Fälle korrekt vorhergesagt wurden, während die Präzision angibt, wie genau die Vorhersagen für die Minderheitsklasse waren. Der Rückruf misst die Fähigkeit des Modells, alle Fälle innerhalb der Minderheitsklasse zu identifizieren, und der F1-Score kombiniert Präzision und Rückruf in einer einzelnen Kennzahl.
Im Vergleich von ENSY mit bestehenden Methoden wie Random Oversampling, SMOTE und Generative Adversarial Networks zeigte ENSY durchweg bessere Leistungen hinsichtlich der Verbesserung des F1-Scores für weniger gängige Reisemittel.
Ergebnisse
Die Ergebnisse aus der Anwendung von ENSY auf Datensätzen wie dem London Passenger Mode Choice-Datensatz und der Korea Transport Database zeigten vielversprechende Verbesserungen. Zum Beispiel vervierfachte ENSY nahezu den F1-Score für die Minderheitsklasse Radfahren und steigerte die Gesamtrelevanz um etwa 3% im London-Datensatz, während es auch in der koreanischen Datenbank wirksam war.
Darüber hinaus zeigte ENSY bei der Anwendung von maschinellen Lernalgorithmen wie Extreme Gradient Boosting und Random Forest erhebliches Potenzial. In vielen Fällen verbesserte sich die Klassifikationserfolgsquote, besonders beim Einsatz des XGB-Modells, das in den Ergebnissen durchgängig besser abschnitt als andere.
Vergleich mit anderen Methoden
Random Oversampling
Random Oversampling beinhaltet einfach das Duplizieren von Instanzen aus der Minderheitsklasse. Obwohl dies eine unkomplizierte Methode ist, hat sie einige Nachteile. Hauptsächlich fügt sie keine neuen Informationen hinzu, was das Modell daran hindern kann, feinere Unterschiede innerhalb der Daten zu lernen. Im Gegensatz dazu erzeugt ENSY vielfältige synthetische Instanzen, die dem Klassifikator helfen, mehr Details zu erfassen.
SMOTE
Die Synthetic Minority Over-sampling Technique (SMOTE) erstellt neue Instanzen durch Interpolation zwischen bestehenden. Obwohl SMOTE wirksam ist, hat es Einschränkungen, da es auf der Struktur der bestehenden Daten basiert. ENSY hingegen untersucht breitere Muster in den Daten und kann synthetische Instanzen erstellen, die mehr Einblicke in die Minderheitsklassen bieten.
GANs
Generative Adversarial Networks (GANs) bestehen aus zwei Modellen, die gegeneinander antreten, wobei eines Daten generiert und das andere zwischen real und gefälscht unterscheidet. Obwohl GANs leistungsstark sind, können sie überanpassend an Mehrheitsklassen werden oder Rauschen für Minderheitsklassen erzeugen. ENSY geht diese Probleme an, indem es synthetische Daten basierend auf der bestehenden Verteilung aller Klassen erzeugt und die Qualität durch seinen Validierungsschritt priorisiert.
Fazit
Zusammenfassend bietet ENSY einen innovativen Ansatz zur Bekämpfung des Klassenungleichgewichts bei der Vorhersage der Verkehrsmittelwahl. Durch die Generierung hochwertiger synthetischer Daten, die auf Minderheitsklassen zugeschnitten sind, verbessert es die Gesamtvorhersagegenauigkeit. Die Ergebnisse sowohl aus dem London Passenger Mode Choice-Datensatz als auch aus der Korea Transport Database zeigen das Potenzial von ENSY als zuverlässiges Werkzeug zur Verbesserung der Vorhersagen in der Verkehrsplanung.
Obwohl die Fortschritte, die ENSY zeigt, ermutigend sind, ist weitere Forschung erforderlich, um die Methode weiter zu verfeinern und zusätzliche Anwendungen zu erkunden. Künftige Arbeiten könnten die Feinabstimmung von Parametern, die Erkundung von Ensemble-Lerntechniken und die Integration detaillierterer Merkmalsengineering umfassen, um die Effektivität zu optimieren.
Abschliessend wird es, während sich die Verkehrssysteme weiterentwickeln, entscheidend bleiben, präzise Vorhersagen von Verkehrsmittelwahl zu gewährleisten. ENSY bietet einen wertvollen Ansatz zur Verbesserung dieser Vorhersagen und unterstützt letztendlich eine bessere Verkehrsplanung und -verwaltung.
Titel: Improving Trip Mode Choice Modeling Using Ensemble Synthesizer (ENSY)
Zusammenfassung: Accurate classification of mode choice datasets is crucial for transportation planning and decision-making processes. However, conventional classification models often struggle to adequately capture the nuanced patterns of minority classes within these datasets, leading to sub-optimal accuracy. In response to this challenge, we present Ensemble Synthesizer (ENSY) which leverages probability distribution for data augmentation, a novel data model tailored specifically for enhancing classification accuracy in mode choice datasets. In our study, ENSY demonstrates remarkable efficacy by nearly quadrupling the F1 score of minority classes and improving overall classification accuracy by nearly 3%. To assess its performance comprehensively, we compare ENSY against various augmentation techniques including Random Oversampling, SMOTE-NC, and CTGAN. Through experimentation, ENSY consistently outperforms these methods across various scenarios, underscoring its robustness and effectiveness
Autoren: Amirhossein Parsi, Melina Jafari, Sina Sabzekar, Zahra Amini
Letzte Aktualisierung: 2024-07-01 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.01769
Quell-PDF: https://arxiv.org/pdf/2407.01769
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.