Erstellung eines Rad-Erkennungssystems für Fahrzeuge mit YOLOv5
Lerne, ein System zu erstellen, das Fahrzeugräder in unterschiedlichen Zuständen identifiziert.
― 7 min Lesedauer
Inhaltsverzeichnis
- Die Herausforderung der Objekterkennung
- Schritte zum Erstellen eines Fahrzeugrad-Detektors
- Überblick über YOLOv5
- Anwendungsfall des Rad-Detektors
- Modellgrösse auswählen
- Das Aussehen von Rädern verstehen
- Erstes Modeltraining
- Arbeiten mit Synthesebildern
- Nutzung öffentlicher Datensätze zur Verbesserung der Genauigkeit
- Die Bedeutung des Zuschneidens
- Endbewertung des Modells
- Einschränkungen und zukünftige Richtungen
- Originalquelle
- Referenz Links
Ein System zu erstellen, das Objekte in Bildern identifizieren kann, kann ganz schön knifflig sein. Eine der grössten Herausforderungen ist sicherzustellen, dass das System gut funktioniert, egal wie oder wann ein Bild aufgenommen wird. Unterschiedliche Lichtverhältnisse, Kamerawinkel und andere Faktoren können es dem Computer schwer machen, Objekte wie Fahrzeugräder zu erkennen.
In diesem Artikel schauen wir uns eine Methode an, um ein System zu bauen, das Fahrzeugräder in Fotos mit dem YOLOv5-Modell finden kann. Das Ziel dieser Methode ist es, effektiv bei unterschiedlichen Lichtverhältnissen und aus verschiedenen Winkeln zu arbeiten, während es nur eine kleine Anzahl an Anfangsbildern benötigt, um loszulegen.
Die Herausforderung der Objekterkennung
Menschen können Objekte in Bildern ganz leicht identifizieren und Informationen darüber geben. Aber einem Computer beizubringen, das zu tun, ist viel schwieriger. Seit 2012 haben sich viele Forscher auf Convolutional Neural Networks (CNNs) konzentriert, um dieses Problem zu lösen. YOLO, was für "You Only Look Once" steht, ist eine beliebte Art von CNN, die speziell für die Echtzeit-Objekterkennung entwickelt wurde.
Das YOLO-Modell hat sich im Laufe der Zeit weiterentwickelt. Die neueste Version, YOLOv5, legt den Fokus darauf, Objekte schnell und genau zu erkennen, während es einfacher ist, benutzerdefinierte Modelle zu erstellen. Trotz dieser Fortschritte kann es immer noch eine gewaltige Aufgabe sein, ein zuverlässiges System zu erstellen.
Schritte zum Erstellen eines Fahrzeugrad-Detektors
Das Ziel dieses Projekts ist es, einen Fahrzeugrad-Detektor zu schaffen, der sich an unterschiedliche Lichtverhältnisse und Kamerawinkel anpassen kann. Hier ist eine einfache Schritt-für-Schritt-Anleitung, um das zu erreichen:
Zweck definieren: Bestimme den spezifischen Anwendungsfall für den Detektor, wie das Zählen von Fahrzeugrädern für die Verkehrsanalytik.
Modellgrösse wählen: Wähle je nach Aufgabe eine passende YOLOv5-Modellgrösse. Eine mittlere Grösse ist oft ein gutes Gleichgewicht zwischen Genauigkeit und Leistung.
Objektaufriss verstehen: Überlege dir, wie die Räder bei verschiedenen Situationen aussehen könnten. Sammle Bilder aus verschiedenen Winkeln und Lichtverhältnissen.
Anfangsbilder sammeln: Fang an, Beispielbilder zu sammeln, die verschiedene Winkel und Lichtverhältnisse darstellen. Mindestens 72 Bilder sind ein guter Anfang.
Modell trainieren: Nutze die Anfangsbilder, um das Modell zu trainieren. Das beinhaltet das Übertragen von Gewichten von einem bestehenden YOLOv5-Modell, um den Prozess zu beschleunigen.
Synthesebilder hinzufügen: Um das Modell zu verbessern, sammel 3D-Synthesebilder, die Räder in verschiedenen Orientierungen zeigen.
Bilder kennzeichnen: Nutze Ground Truth Labels oder kennzeichne die Synthesebilder mit dem Anfangsmodell. Bereinige falsche Labels.
Mit Synthesebildern trainieren: Trainiere das Modell dann erneut mit den Synthesebildern.
Öffentliche Datensätze einbeziehen: Suche nach öffentlich verfügbaren Bilddatensätzen, die die gewünschten Ansichten von Rädern unter verschiedenen Lichtverhältnissen zeigen.
Verfeinern mit öffentlichen Proben: Verwende das vorherige Modell, um diese öffentlichen Bilder zu kennzeichnen, und überprüfe manuell die Genauigkeit.
Endgültiges Training: Trainiere das Modell nochmal mit diesen neuen öffentlichen Bildern, um die Genauigkeit zu verbessern, indem du die Gewichte aus der letzten Trainingssession überträgst.
Automatisches Labeling: Stelle schliesslich sicher, dass das Modell zukünftige Bilder für diesen Anwendungsfall automatisch kennzeichnen kann.
Überblick über YOLOv5
YOLOv5 ist eine der führenden Optionen für die Objekterkennung. Es ist bekannt für seine Geschwindigkeit und Effektivität. YOLOv5 besteht aus zwei Hauptteilen: dem Backbone, der grundlegende Merkmale aus Bildern extrahiert, und dem Head, der Objekte erkennt und endgültige Klassifikationen bereitstellt.
Das Modell gibt's in mehreren Grössen – klein, mittel, gross und extra gross – sodass Benutzer die beste Passung für ihre Bedürfnisse auswählen können. Die neueste Version umfasst auch eine Nanogrösse, die für sehr kleine Geräte gedacht ist. Eine der Stärken von YOLOv5 ist seine Benutzerfreundlichkeit, dank Konfigurationsdateien, die es einfach machen, ohne umfangreiches Programmierwissen eingerichtet zu werden.
Anwendungsfall des Rad-Detektors
Dieser Fahrzeugrad-Detektor ist dafür konzipiert, die Anzahl der Räder an Autos zu zählen. Ein zuverlässiges Rad-Erkennungssystem kann für die Verkehrsüberwachung und Mautsysteme wertvoll sein. Das Ziel ist es, eine Methode zu schaffen, die unter verschiedenen Lichtverhältnissen und Winkeln gut funktioniert.
Modellgrösse auswählen
Es ist wichtig, die verschiedenen Grössen von YOLOv5 und die Leistungen, die jede bietet, zu berücksichtigen. Das mittlere Modell wurde für diese Aufgabe gewählt, weil es ein gutes Gleichgewicht zwischen Leistung und Genauigkeit bietet.
Die für das Training verwendete Ausrüstung ist eine Nvidia GeForce RTX 3050 Ti GPU, die genug Speicher hat, um Bilder in der Grösse 512x512 Pixel zu verarbeiten. Die Verwendung quadratischer Bilder hilft, den Bedarf an Padding beim Verarbeiten unterschiedlich geformter Bilder zu minimieren.
Das Aussehen von Rädern verstehen
Räder können je nach Kamerawinkel und Fahrzeugtyp unterschiedlich aussehen. Es ist wichtig, Bilder zu sammeln, die eine breite Palette von Szenarien abdecken. Diese sollten einfache Winkel wie 90 Grad und kompliziertere Situationen, in denen das Rad teilweise verdeckt oder verschwommen sein kann, beinhalten.
Erstes Modeltraining
Sobald die Anfangsbilder gesammelt sind, müssen sie gekennzeichnet werden. Dieser Schritt kann mit einem Tool durchgeführt werden, das für das Zeichnen von Begrenzungsrahmen um die interessierenden Objekte entwickelt wurde.
Nach der Kennzeichnung wird das Modell mit diesen Anfangsbildern trainiert. Mehrere Metriken werden überwacht, wie Verlust und durchschnittliche Genauigkeit, um zu bewerten, wie gut das Modell läuft. Es ist üblich, dass die ersten Ergebnisse eine solide Leistung zeigen, aber es ist wichtig, das Modell mit Bildern zu validieren, die es vorher noch nicht gesehen hat.
Arbeiten mit Synthesebildern
Synthesebilder werden gesammelt, um dem Modell das Lernen aus verschiedenen Radformen und -orientierungen zu ermöglichen. Diese Bilder werden oft manuell gekennzeichnet, um die Genauigkeit sicherzustellen, bevor sie im weiteren Training verwendet werden.
Das Ziel ist, dass das Modell gut auf neuen Bildern funktioniert. Das wird gemessen, indem untersucht wird, wie genau das Modell Räder in den gesammelten Bildern und den Synthesebildern erkennt.
Nutzung öffentlicher Datensätze zur Verbesserung der Genauigkeit
Öffentliche Datensätze, wie CompCars, sind hilfreich, um das Modell zu verbessern. Diese Datensätze bieten eine grosse Vielfalt an Fahrzeugbildern, die essenziell für das Training des Rad-Detektors sind. Nach dem Sammeln von Bildern aus diesen Datensätzen ist es wichtig, sie zu kennzeichnen und auf Genauigkeit zu überprüfen, bevor sie in den Trainingsprozess einfliessen.
Die Bedeutung des Zuschneidens
Eine wichtige Lektion, die während des Trainingsprozesses gelernt wurde, war die Notwendigkeit, Bilder zuzuschneiden, um sich mehr auf die Räder zu konzentrieren. Wenn zu viele umgebende Details enthalten sind, kann das das Modell verwirren und die Genauigkeit verringern. Das Zuschneiden von Bildern, um sich speziell auf die Räder zu konzentrieren, hat sich als deutlich leistungssteigernd erwiesen.
Endbewertung des Modells
Nach mehreren Trainings- und Verfeinerungsrunden wird das endgültige Modell anhand verschiedener Metriken bewertet. Die Ergebnisse aus der ersten und den folgenden Phasen werden verglichen, um die Gesamtverbesserungen zu bewerten. Es ist klar, dass das Modell in der Lage ist, Fahrzeugräder unter verschiedenen Bedingungen zuverlässig zu erkennen.
Einschränkungen und zukünftige Richtungen
Trotz der Effektivität des Modells gibt es Einschränkungen. Ein wesentlicher Faktor ist die Eingabebildgrösse; ein quadratisches Bild wird für die endgültige Inferenz empfohlen. Zukünftige Arbeiten könnten davon profitieren, Simulationen zu verwenden, die Ground Truth Labels für besseres Training und höhere Genauigkeit bereitstellen.
Ein weiterer Bereich zur Verbesserung könnte die Hinzufügung von Funktionen für komplexere Aufgaben wie die semantische Segmentierung sein, die ein detaillierteres Verständnis von Szenen ermöglichen würde.
Zusammenfassend hat der Fahrzeugrad-Detektor ein zuverlässiges Niveau erreicht, das als solide Grundlage für zukünftige Verbesserungen dient. Die Erfahrung unterstreicht die Wichtigkeit iterativer Entwicklung und Analyse beim Aufbau eines zuverlässigen Machine-Learning-Modells und zeigt, wie kontinuierliches Lernen und Evaluierung zu höherer Genauigkeit und Effektivität in realen Anwendungen führen können.
Titel: Lighting and Rotation Invariant Real-time Vehicle Wheel Detector based on YOLOv5
Zusammenfassung: Creating an object detector, in computer vision, has some common challenges when initially developed based on Convolutional Neural Network (CNN) architecture. These challenges are more apparent when creating model that needs to adapt to images captured by various camera orientations, lighting conditions, and environmental changes. The availability of the initial training samples to cover all these conditions can be an enormous challenge with a time and cost burden. While the problem can exist when creating any type of object detection, some types are less common and have no pre-labeled image datasets that exists publicly. Sometime public datasets are not reliable nor comprehensive for a rare object type. Vehicle wheel is one of those example that been chosen to demonstrate the approach of creating a lighting and rotation invariant real-time detector based on YOLOv5 architecture. The objective is to provide a simple approach that could be used as a reference for developing other types of real-time object detectors.
Autoren: Michael Shenoda
Letzte Aktualisierung: 2023-05-28 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2305.17785
Quell-PDF: https://arxiv.org/pdf/2305.17785
Lizenz: https://creativecommons.org/licenses/by-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.