Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Umgang mit teilweiser verdeckung in der bildverarbeitung

Forschung verbessert die Erkennung von blockierten Objekten in der Computer Vision.

― 5 min Lesedauer


Verbesserung derVerbesserung derOkklusionsbearbeitung inKIKI, verdeckte Objekte zu erkennen.Forschung verbessert die Fähigkeit von
Inhaltsverzeichnis

Es kann manchmal schwierig sein, ein Objekt klar auf einem Bild zu sehen, besonders wenn andere Objekte Teile davon verdecken. Dieses Problem nennt man "Partielle Okklusion" und es passiert oft im Alltag, wie wenn ein Schild teilweise von einem Auto verdeckt wird oder wenn eine Person vor einem anderen Objekt steht. In der Computer Vision, also wie Computer visuelle Informationen verstehen, ist es eine grosse Herausforderung, diese teilweise verdeckten Objekte zu erkennen.

Bedeutung der Lösung von Okklusionsproblemen

Die Behandlung der partiellen Okklusion ist in vielen Bereichen entscheidend, besonders bei autonomen Fahrzeugen. Selbstfahrende Autos müssen Verkehrszeichen, Fussgänger und andere Fahrzeuge erkennen, selbst in kniffligen Situationen, wo diese Objekte nicht vollständig sichtbar sind. Eine Lösung für den Umgang mit Okklusionen kann die Wahrnehmung der Umgebung durch diese Autos verbessern und ihre Reaktion auf verschiedene Situationen sicherer und zuverlässiger machen.

Erstellung eines synthetischen Datensatzes

Um zu untersuchen, wie gut verschiedene Computermodelle teils verdeckte Objekte erkennen können, brauchen die Forscher oft einen passenden Datensatz. Bestehende Datensätze haben jedoch meist keine Bilder, wo Objekte teilweise verdeckt sind. Um diese Situation zu lösen, wurde ein neuer Datensatz mit Bildern aus dem Stanford Car Dataset erstellt. Verschiedene Blockierformen und -grössen wurden zu diesen Bildern hinzugefügt, um partielle Okklusionen zu simulieren.

Analyse verschiedener Computermodelle

Sobald der synthetische Datensatz fertig war, wurden verschiedene Computermodelle, bekannt als Convolutional Neural Networks (CNNs), getestet. CNNs sind die beliebtesten Werkzeuge zur Bildklassifikation, haben aber oft Probleme mit okkludierten Bildern. Beliebte Modelle wie VGG-19, ResNet, GoogleNet und DenseNet wurden für diese Analyse ausgewählt.

Die Forschung zielte darauf ab, mehrere wichtige Fragen zu beantworten:

  1. Wie beeinflusst die Grösse der Okklusion die Leistung der verschiedenen Modelle?
  2. Schneiden tiefere Netzwerke besser ab, wenn sie mit okkludierten Bildern konfrontiert werden?
  3. Wie gut schneiden Modelle ab, die auf okkludierten Bildern trainiert wurden, wenn sie auf klaren Bildern getestet werden und umgekehrt?

Methodik: Training und Testen der Modelle

Die Forschung folgte einem zweistufigen Prozess:

  1. Erstellung des Datensatzes: Das Team konzentrierte sich darauf, einen vielfältigen Satz von Bildern zu erstellen, der verschiedene Grade der partiellen Okklusion enthält. Sie fügten verschiedene Arten von visuellem Rauschen hinzu, um zu sehen, wie sich das auf das Training und die Leistung der Modelle auswirkt.

  2. Training der Modelle: Verschiedene CNN-Architekturen wurden mit diesem neu erstellten Datensatz trainiert. Die Modelle wurden in zwei Gruppen unterteilt: solche, die auf grösseren Datensätzen vortrainiert wurden und solche, die von Grund auf trainiert wurden.

Untersuchung von Okklusionsanteilen und -typen

Drei verschiedene Methoden zur Erstellung von Okklusionen wurden im Datensatz verwendet:

  • Zufällige Pixelokklusion: Zufällige Änderung der Pixelwerte in den Bildern.
  • Konstante Pixelokklusion: Verwendung des gleichen Wertes für alle Pixel in den Bildern.
  • Eingefügte Bildokklusion: Platzierung von echten Bildern über die Originalbilder, um Teile davon zu blockieren.

Es wurden auch verschiedene Grössen von Okklusionen getestet, die von keiner Okklusion bis zu 33% des Bildes, das blockiert ist, reichten.

Evaluierung der Modellleistung

Die Leistung der Modelle wurde anhand von zwei wichtigen Metriken gemessen: Top-1-Genauigkeit und Top-5-Genauigkeit. Die Top-1-Genauigkeit überprüft, ob die höchste Vorhersage des Modells mit dem richtigen Label übereinstimmt, während die Top-5-Genauigkeit überprüft, ob das richtige Label in den fünf besten Vorhersagen erscheint.

Verständnis des Modellverhaltens bei Okklusion

Die Leistung der Modelle, die auf Bildern mit einigen Okklusionen trainiert wurden, wurde genau beobachtet. Interessanterweise schnitten Modelle, die auf Bildern mit kleineren Okklusionen trainiert wurden, ziemlich gut bei Bildern mit grösseren Okklusionen ab. Modelle, die zuvor nur klare Bilder gesehen hatten, hatten jedoch Schwierigkeiten mit okkludierten Bildern.

Dieser Befund zeigt, dass die Exposition gegenüber irgendeiner Form von Okklusion die Fähigkeit eines Modells verbessern kann, sich an schwierige Situationen anzupassen. Daher kann das Training mit okkludierten Datensätzen die Genauigkeit beim Erkennen sowohl okkludierter als auch klarer Objekte erheblich steigern.

Auswirkungen verschiedener Architekturen

Unter den untersuchten Netzwerkarchitekturen trugen verschiedene Faktoren zu ihrer Leistung bei:

  • Modelle wie ResNet-50 und ResNet-101 zeigten eine konsistente Fähigkeit, okkludierte Bilder besser zu verarbeiten als andere.
  • Die Tiefe des Netzwerks hatte keinen signifikanten Einfluss auf die Leistung im Falle von partiellen Okklusionen. Das bedeutet, dass das blosse Hinzufügen von mehr Schichten zu einem Modell nicht automatisch zu einer besseren Erkennung von teilweise verdeckten Objekten führt.

Erkenntnisse zu verschiedenen Artefakttypen

Die Experimente untersuchten auch, wie verschiedene Arten von hinzugefügtem Rauschen die Modelle beeinflussen. Die Ergebnisse deuteten darauf hin, dass es zwar geringfügige Abweichungen in der Leistung gab, alle Modelle jedoch ein ähnliches Verhalten in Bezug auf verschiedene Artefakttypen zeigten. Das legt nahe, dass die Art der Okklusion nicht so entscheidend sein könnte, wie früher gedacht.

Fazit und zukünftige Richtungen

Die Forschung hat wertvolle Einblicke in den Umgang mit partiellen Okklusionen bei Bildverarbeitungsaufgaben gegeben. Es wurde bestätigt, dass:

  • Modelle, die auf Bildern mit Okklusionen trainiert wurden, besser in der Lage sind, Objekte zu erkennen, selbst wenn sie vollständig sichtbar sind.
  • Die Exposition gegenüber verschiedenen Formen von Okklusion kann Modellen helfen, besser zu generalisieren.

Zukünftig wird es wichtig sein, diese Ergebnisse mit realen Datensätzen zu validieren. Zukünftige Arbeiten sollten sich darauf konzentrieren, robuste Modelle zu entwickeln, die verschiedene Okklusionstypen effektiv bewältigen können. Dies wird besonders wichtig sein für Anwendungen im autonomen Fahren und in anderen Bereichen, wo eine genaue Objekterkennung für Sicherheit und Funktionalität entscheidend ist.

Originalquelle

Titel: Now You See Me: Robust approach to Partial Occlusions

Zusammenfassung: Occlusions of objects is one of the indispensable problems in Computer vision. While Convolutional Neural Net-works (CNNs) provide various state of the art approaches for regular image classification, they however, prove to be not as effective for the classification of images with partial occlusions. Partial occlusion is scenario where an object is occluded partially by some other object/space. This problem when solved,holds tremendous potential to facilitate various scenarios. We in particular are interested in autonomous driving scenario and its implications in the same. Autonomous vehicle research is one of the hot topics of this decade, there are ample situations of partial occlusions of a driving sign or a person or other objects at different angles. Considering its prime importance in situations which can be further extended to video analytics of traffic data to handle crimes, anticipate income levels of various groups etc.,this holds the potential to be exploited in many ways. In this paper, we introduce our own synthetically created dataset by utilising Stanford Car Dataset and adding occlusions of various sizes and nature to it. On this created dataset, we conducted a comprehensive analysis using various state of the art CNN models such as VGG-19, ResNet 50/101, GoogleNet, DenseNet 121. We further in depth study the effect of varying occlusion proportions and nature on the performance of these models by fine tuning and training these from scratch on dataset and how is it likely to perform when trained in different scenarios, i.e., performance when training with occluded images and unoccluded images, which model is more robust to partial occlusions and soon.

Autoren: Karthick Prasad Gunasekaran, Nikita Jaiman

Letzte Aktualisierung: 2023-04-25 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2304.11779

Quell-PDF: https://arxiv.org/pdf/2304.11779

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel