Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Maschinelles Lernen

Objekterkennung mit synthetischen Daten verbessern

Verwendung von synthetischen Trainingsdaten zur Steigerung der Effizienz bei der Erkennung von Anschlussleisten.

― 6 min Lesedauer


Künstliche Daten pushenKünstliche Daten pushendie Objekterkennung.Bildern in der Industrie.Erkennungsgenauigkeit mit synthetischenDie Verbesserung der
Inhaltsverzeichnis

In vielen Fabriken müssen Maschinen und Systeme bestimmte Teile identifizieren und inspizieren. Oft machen das Menschen, was Zeit kostet und zu Fehlern führen kann. Neue Technologien, besonders Deep Learning, bieten eine Möglichkeit, diese Aufgaben zu automatisieren und die Effizienz zu steigern. Allerdings gibt’s ein grosses Problem: Es kann schwierig sein, genügend beschriftete Bilder zu sammeln, um diese Deep-Learning-Modelle zu trainieren. Da kommt synthetische Trainingsdaten ins Spiel. Mit computergenerierten Bildern können wir riesige Mengen an Trainingsdaten erstellen, die Maschinen zum Lernen verwenden können, ohne den langen Prozess des manuellen Beschriftens.

Die Herausforderung, echte Daten zu sammeln

Generell kann die Erstellung und Annotation eines grossen Bilddatensatzes extrem zeitaufwändig sein. Zum Beispiel hat ein beliebter Datensatz rund 60.000 Stunden Arbeit für das Sammeln und Beschriften in Anspruch genommen. Das ist für die meisten industriellen Anwendungen nicht machbar, wo Geschwindigkeit und Effizienz entscheidend sind. Zudem können sich die Umgebungen in Fabriken schnell ändern, was bedeutet, dass die Trainingsdaten mit diesen Änderungen Schritt halten müssen. Simulierte Bilder bieten eine potenzielle Lösung, um Modelle mit weniger Aufwand und schnelleren Ergebnissen zu trainieren.

Vorteile von synthetischen Trainingsdaten

Die Verwendung von synthetischen Trainingsdaten in Fabriken hat mehrere potenzielle Vorteile:

  1. Verfügbarkeit von Modellen: Fabriken haben oft schon präzise 3D-Modelle ihrer Komponenten, die schnell genutzt werden können, um Bilder zu erstellen.

  2. Menge an Daten: Mit automatisierten Pipelines können wir so viele Trainingsbilder generieren, wie wir brauchen.

  3. Fehlerbeseitigung: Da die echten Annotationen automatisch generiert werden können, können wir die Fehler reduzieren, die Menschen oft beim Beschriften von Daten machen.

  4. Bias-freie Daten: Wir können Vorurteile entfernen, indem wir verschiedene Parameter im Bildsyntheseprozess anpassen.

Trotz dieser Vorteile gibt es immer noch eine Leistungsabweichung, wenn synthetische Modelle unter realen Bedingungen getestet werden. Diese Lücke bedeutet, dass Modelle, die rein mit synthetischen Daten trainiert wurden, möglicherweise nicht gut abschneiden, wenn sie mit echten Bildern konfrontiert werden.

Aktuelle Ansätze zur Überbrückung der Lücke

Um die Lücke zwischen synthetischen und echten Bildern zu schliessen, haben Forscher verschiedene Techniken getestet. Dazu gehören Datenaugmentation, Domain-Adaption und Domain-Randomisierung.

  • Domain-Adaption bedeutet, einen Datentyp so zu verändern, dass er einem anderen ähnlicher aussieht. Das mag vielversprechend erscheinen, setzt aber immer noch echte Bilder voraus, die nicht immer verfügbar oder praktisch sein müssen.

  • Domain-Randomisierung verfolgt einen anderen Ansatz, indem zufällige Variationen in Texturen, Hintergründen und Beleuchtung eingeführt werden, um das Modell dazu zu bringen, echte Bilder als eine weitere Variation der synthetischen Daten zu betrachten, die es gesehen hat.

Beide Techniken zeigen Potenzial, aber ihre Wirksamkeit variiert, besonders wenn sie in komplexen Industriesituationen getestet werden.

Unsere Untersuchung: Erkennung von Anschlussleistenobjekten

Für unsere Studie konzentrierten wir uns auf die Erkennung von Anschlussleisten, einem wichtigen Bestandteil elektrischer Systeme, der Drähte verbindet. Diese Aufgabe ist besonders herausfordernd, da Anschlussleisten in verschiedenen Konfigurationen auftreten können und manchmal mit anderen Komponenten überlappen. Ein robustes Erkennungssystem ist daher entscheidend für die Qualitäts- und Effizienzbewahrung in der Produktion.

Um unser Modell zu trainieren, erstellten wir einen grossen Satz synthetischer Bilder basierend auf 3D-Modellen von Anschlussleisten. Wir generierten 30.000 Bilder, die verschiedene Konfigurationen abdeckten, und beschrifteten manuell 300 echte Bilder zum Vergleich. Durch den Vergleich der Leistung des Modells auf synthetischen Bildern mit seiner Leistung auf echten Bildern wollten wir die Effektivität unseres Ansatzes bewerten.

Erstellung des synthetischen Datensatzes

Der synthetische Datensatz wurde mit einer Bildsynthese-Pipeline erstellt, die folgende Schritte umfasste:

  1. 3D-Modell-Erstellung: Wir begannen mit 36 verschiedenen Anschlussleisten, einschliesslich verschiedener Zubehörteile wie Brücken und Testadaptern, um die meisten Konfigurationen aus realen Anwendungen abzudecken.

  2. Zufällige Montage: Die Anschlussleisten wurden zufällig auf einer virtuellen DIN-Schiene montiert, um Anschlussleisten zu erstellen.

  3. Beleuchtung und Hintergrund: Die Lichtverhältnisse wurden mithilfe hochwertiger Bilder randomisiert, um reale Umgebungen zu simulieren. Jedes Bild wurde dann mit einem passenden Hintergrund kombiniert.

  4. Annotationen: Die synthetischen Bilder enthielten automatisch generierte Annotationen, die anzeigten, wo sich die Anschlussleisten in jedem Bild befanden.

Indem wir sicherstellten, dass unsere synthetischen Bilder der Realität nahe kamen, hofften wir, die Fähigkeit des Modells zu verbessern, wenn es mit echten Bildern konfrontiert wird.

Testen des Modells

Wir verwendeten zwei verschiedene Deep-Learning-Modelle, RetinaNet und Faster R-CNN, um zu testen, wie gut sie Anschlussleisten in synthetischen und echten Umgebungen erkennen konnten. Jedes Modell wurde ausschliesslich mit den synthetischen Bildern trainiert und dann an den echten Bildern, die wir gesammelt hatten, evaluiert.

Beim Testen achteten wir besonders darauf, wie sich verschiedene Skalen auf die Leistung des Modells auswirkten. Wir fanden heraus, dass die Skalierung - wie gross ein Objekt in einem Bild erscheint - eine entscheidende Rolle spielt. Echte Bilder stellten oft Anschlussleisten kleiner dar im Vergleich zu den synthetischen Bildern.

Um das zu adressieren, experimentierten wir mit verschiedenen Skalierungsmethoden, um zu sehen, wie sie die Erkennungsraten beeinflussten. Durch sorgfältige Anpassung der Grösse der echten Bilder konnten wir die Genauigkeit der Objekterkennung verbessern.

Ergebnisse

Unsere Tests zeigten, dass beide Modelle bei synthetischen Bildern gut abschnitten und hohe Erkennungsraten erzielten. Allerdings fiel die Leistung bei der Auswertung echter Bilder erheblich ab. Der Unterschied in der Leistung verdeutlichte die Herausforderungen, die durch die Sim-to-Real-Lücke entstehen.

Wichtige Erkenntnisse:

  1. Skalierung ist wichtig: Die Grösse und Skalierung von Objekten in Bildern sind entscheidend. Durch die Vergrösserung der echten Bilder beobachteten wir signifikante Verbesserungen der Erkennungsgenauigkeit.

  2. Leistungssteigerung: Die Optimierung der Skalierung echter Bilder führte zu Leistungswerten, die viel näher an den Werten für synthetische Bilder lagen, was die Bedeutung einer ordnungsgemässen Vorverarbeitung demonstriert.

  3. Modellvergleich: Das Faster R-CNN-Modell schnitt in allen Tests generell besser ab als RetinaNet. Allerdings benötigte dieses Modell mehr Rechenleistung, was bei praktischen Anwendungen berücksichtigt werden muss.

Fazit

Unsere Untersuchung zur Verwendung synthetischer Trainingsdaten für die Erkennung von Anschlussleistenobjekten ergab vielversprechende Ergebnisse. Die Möglichkeit, grosse Datensätze schnell und genau zu generieren, könnte die Art und Weise, wie Fabriken visuelle Inspektions- und Objekterkennungssysteme implementieren, revolutionieren.

Obwohl Herausforderungen bestehen, insbesondere in Bezug auf die Sim-to-Real-Lücke, haben wir gezeigt, dass es möglich ist, effektive Modelle mit synthetischen Daten zu trainieren. Durch die Optimierung von Bildvorverarbeitungs-Techniken, wie z.B. der Skalierung, können wir die Leistung dieser Modelle in realen Umgebungen erheblich verbessern.

Zukünftige Arbeiten werden sich darauf konzentrieren, unsere Bildsynthese-Pipeline zu verfeinern und zusätzliche Objektklassen zu erkunden, um die Modelle weiter zu verbessern. Wir hoffen, dass unsere Ergebnisse industrielle Hersteller dazu ermutigen werden, das Potenzial synthetischer Daten in ihren Betrieben in Betracht zu ziehen, was zu schnelleren und zuverlässigeren Inspektionsprozessen führen könnte.

Originalquelle

Titel: Investigation of the Impact of Synthetic Training Data in the Industrial Application of Terminal Strip Object Detection

Zusammenfassung: In industrial manufacturing, numerous tasks of visually inspecting or detecting specific objects exist that are currently performed manually or by classical image processing methods. Therefore, introducing recent deep learning models to industrial environments holds the potential to increase productivity and enable new applications. However, gathering and labeling sufficient data is often intractable, complicating the implementation of such projects. Hence, image synthesis methods are commonly used to generate synthetic training data from 3D models and annotate them automatically, although it results in a sim-to-real domain gap. In this paper, we investigate the sim-to-real generalization performance of standard object detectors on the complex industrial application of terminal strip object detection. Combining domain randomization and domain knowledge, we created an image synthesis pipeline for automatically generating the training data. Moreover, we manually annotated 300 real images of terminal strips for the evaluation. The results show the cruciality of the objects of interest to have the same scale in either domain. Nevertheless, under optimized scaling conditions, the sim-to-real performance difference in mean average precision amounts to 2.69 % for RetinaNet and 0.98 % for Faster R-CNN, qualifying this approach for industrial requirements.

Autoren: Nico Baumgart, Markus Lange-Hegermann, Mike Mücke

Letzte Aktualisierung: 2024-03-06 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2403.04809

Quell-PDF: https://arxiv.org/pdf/2403.04809

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel