Einführung von BVI-RLV: Ein neuer Datensatz für die Verbesserung von Videos bei schwachem Licht
Ein neues Datenset soll die Techniken zur Verbesserung von Videos bei schlechtem Licht verbessern.
― 6 min Lesedauer
Inhaltsverzeichnis
Schwachlichtvideos können schwer klar zu sehen sein. Oft sind sie voller Rauschen, was es für Computerprogramme schwer macht, den Inhalt zu analysieren. Ein grosses Problem bei der Verbesserung dieser Videos ist, dass nicht genug gute Trainingsdaten zur Verfügung stehen, um Deep-Learning-Modelle effektiv auszubilden.
Dieser Artikel stellt ein neues Dataset vor, das speziell für die Verbesserung von Schwachlichtvideos entwickelt wurde. Es besteht aus 40 verschiedenen Szenen, die bei zwei Lichtstufen gefilmt wurden, einschliesslich echtem Rauschen und Problemen, die über die Zeit auftreten. Das Dataset bietet passende hochwertige Videos, die bei normalem Licht aufgenommen wurden, mit einer speziellen Kameraeinstellung, die präzise Bewegungen ermöglicht. So können die Frames perfekt ausgerichtet werden, was wichtig ist, um Modelle zu trainieren, die Schwachlichtvideos verbessern.
Wir haben Benchmarks mit vier verschiedenen Technologien erstellt: Convolutional Neural Networks, Transformers, Diffusionsmodelle und State-Space-Modelle. Erste Tests zeigen, dass die Nutzung unseres Datasets zu einer besseren Leistung in der Verbesserung von Schwachlichtvideos im Vergleich zu älteren Datasets führen kann.
Videos im schwachen Licht aufzunehmen, ist in verschiedenen Bereichen wichtig. Zum Beispiel ist es nützlich in der Filmproduktion, Biologie, Robotik, Überwachung und Sicherheit. Aber das Filmen in schwachem Licht kann knifflig sein, weil die Kameraeinstellungen wie Blende, Verschlusszeit und ISO miteinander interagieren. Wenn das Licht zu schwach ist, gibt es viel Rauschen, was als unerwünschte Störungen im Video erscheint. Ausserdem können die Farben verfälscht erscheinen, was die Analyse des Filmmaterials erschwert.
Während in den letzten Jahren Fortschritte bei der Verbesserung von Schwachlichtbildern erzielt wurden, ist die Anwendung dieser Technologien auf Videos komplizierter. Zum einen kann Video nicht einfach als eine Reihe einzelner Frames betrachtet werden, da dies zu Inkonsistenzen zwischen diesen Frames führt. Darüber hinaus wird viel qualitativ hochwertiges, ausgerichtetes Datenmaterial benötigt, um diese Methoden erfolgreich zu verbessern. Leider sind die Probleme mit Schwachlichtvideos komplex, und es ist schwierig, genaues Referenzmaterial zu erhalten.
Mit unserem Dataset, bekannt als BVI-RLV, bieten wir vollständig ausgerichtete Sequenzen echter Schwachlichtvideos im Vergleich zu ihren Normallicht-Gegenstücken. Dieses Dataset wurde unter verschiedenen Lichtbedingungen erstellt und umfasst viele unterschiedliche Szenen, um eine breite Palette an Trainingsdaten sicherzustellen. Jedes Video im Dataset kann einzigartig zur Ausbildung von Modellen beitragen, die besser mit der Verbesserung von Schwachlicht umgehen können.
Das BVI-RLV umfasst 40 Szenen, die mit einem programmierbaren motorisierten System aufgenommen wurden, um gleichmässige Bewegungen zu gewährleisten. Jede Szene enthält eine Mischung aus verschiedenen Subjekten und Texturen, die zu insgesamt etwa 30.000 gepaarten Frames führen. Das ist bedeutend, weil viele vorhandene Datasets Probleme haben, wie Fehlanpassungen oder eingeschränkte Variabilität, was sie weniger nützlich für die Entwicklung zuverlässiger Verbesserungstools macht.
Ein grosser Vorteil unseres Datasets ist, dass es vier Benchmark-Modelle auf der Basis unterschiedlicher Architekturen hat. Diese Modelle benötigen keine teure Hardware, was sie einem breiteren Publikum zugänglich macht. Wir haben unser Dataset verwendet, um diese vier Modelle zu trainieren und festgestellt, dass sie im Vergleich zu denen, die auf anderen Datasets trainiert wurden, gut abschnitten.
Frühere Schwachlicht-Datasets waren in ihrem Umfang begrenzt. Die meisten von ihnen haben nur statische Szenen erfasst, was es schwierig macht, effektive Verbesserungstools zu entwickeln. Unser Dataset ist anders, weil es sowohl statische als auch Dynamische Szenen enthält. Für dynamische Inhalte wurde die Kamera während des Filmens bewegt, was eine Vielzahl von Bewegungen erfasste. Das ist entscheidend, um lernbasierte Methoden zu ermöglichen, besser zu generalisieren.
Um unser Dataset zu erstellen, haben wir jeden Aspekt der Umgebung, in der wir gefilmt haben, kontrolliert. Wir haben starke Lichter verwendet, um die Lichtverhältnisse festzulegen, und sichergestellt, dass die Kameraeinstellungen optimal waren, um Schwachlichtmaterial zu erfassen. Die Kamera wurde auf spezifische Empfindlichkeitsstufen eingestellt, um die besten Ergebnisse zu erzielen.
Allerdings bringt das Filmen in der realen Welt seine eigenen Herausforderungen mit sich. Auch wenn wir auf Präzision abzielten, können mechanische Systeme wie der bewegliche Dolly zu leichten Fehlanpassungen führen. Um dem entgegenzuwirken, entwickelten wir eine Methode zur Erstellung von Referenzvideos unter optimalen Lichtbedingungen, die es uns ermöglichte, die Fehlanpassung mit den Schwachlichtversionen zu minimieren.
Bei der Erstellung unseres Datasets haben wir den Filmingprozess mehrmals wiederholt, um qualitativ hochwertige Ergebnisse sicherzustellen. Jede Szene enthielt eine Kalibrierungskarte, um die Farbgenauigkeit zu unterstützen. Das ermöglicht ein besseres Training und eine bessere Leistung, wenn die Modelle auf reale Videos angewendet werden.
In der modernen Verbesserung von Schwachlichtvideos hat die Verwendung von Deep-Learning-Methoden das Landschaftsbild verändert. Dennoch sind die Techniken für Videos nicht so schnell vorangekommen wie bildbasierte Techniken. Die Komplexität von Videos bedeutet, dass viele verschiedene Faktoren berücksichtigt werden müssen, einschliesslich Bewegungen, die sich schnell ändern können. Unser Dataset kann die benötigten Daten bereitstellen, um diese Komplexitäten zu bewältigen, indem es eine breite Palette von Videoarten anbietet.
Unsere Ergebnisse zeigen, dass die Verwendung unseres Datasets zu bedeutenden Verbesserungen bei Modellen der Schwachlichtvideoverbesserung geführt hat. Die auf unseren Daten trainierten Modelle schnitten besser ab als die, die auf bestehenden Datasets trainiert wurden, was beweist, dass gut ausgerichtete Videopaarungen für das Training entscheidend sind.
Um die Notwendigkeit für Videos mit Bewegung zu zeigen, haben wir getestet, wie gut Modelle mit verschiedenen Datentypen gelernt haben. Wir haben die Netzwerkarchitekturen angepasst, um statische versus dynamische Videodaten zu vergleichen. Die Ergebnisse zeigten einen klaren Bedarf an Bewegungsdaten, um die Qualität der Verbesserung zu steigern.
Ausserdem haben wir unser Dataset mit bereits erstellten verglichen, die begrenzte Grundwahrheiten hatten und häufig mit statischem Inhalt arbeiteten. Viele dieser älteren Datasets konnten keine effektiven Modelle entwickeln, weil sie zu klein waren, unrealistische Verzerrungen hatten und es an dynamischen Situationen fehlte.
Wir haben auch untersucht, wie unser Dataset helfen könnte, Modelle zu trainieren, die für verschiedene Arten der Schwachlichtverbesserung angepasst wurden. Einige dieser Modelle wurden so trainiert, dass sie gut mit unserem Dataset funktionieren, und dann gegen andere Datasets getestet, was ihre Zuverlässigkeit in verschiedenen Situationen bestätigte.
Trotz des potenziellen Erfolgs mit diesem Dataset gibt es Einschränkungen. Zum Beispiel kann die Wahrnehmung von Helligkeit zwischen Menschen variieren, sodass die Ergebnisse nicht immer konsistent sein könnten. Um dem entgegenzuwirken, haben wir Techniken wie Histogramm-Matching eingesetzt, um die Helligkeitsstufen anzupassen und die Ergebnisse zu verbessern.
Gleichzeitig erkennen wir an, dass Technologien zur Verbesserung von Schwachlichtvideos Risiken mit sich bringen. Sie könnten missbraucht werden, um in die Privatsphäre einzudringen oder andere böse Zwecke zu verfolgen. Das hebt die Notwendigkeit hervor, sorgfältig zu überlegen, wie diese Technologien in der realen Welt entwickelt und angewendet werden.
Zusammenfassend hat dieser Artikel ein neues Dataset vorgestellt, das zur Unterstützung bei der Verbesserung von Schwachlichtvideos erstellt wurde. Das BVI-RLV-Dataset enthält eine Vielzahl von Szenen und sorgt für robustes Training von Modellen, die darauf abzielen, die Videoqualität bei schwachem Licht zu verbessern. Indem wir die notwendigen Ressourcen bereitstellen, ebnen wir den Weg für zukünftige Entwicklungen in den Techniken zur Videoverbesserung und helfen Forschern, bessere Lösungen für reale Anwendungen zu entwickeln.
Titel: BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement
Zusammenfassung: Low-light videos often exhibit spatiotemporal incoherent noise, compromising visibility and performance in computer vision applications. One significant challenge in enhancing such content using deep learning is the scarcity of training data. This paper introduces a novel low-light video dataset, consisting of 40 scenes with various motion scenarios under two distinct low-lighting conditions, incorporating genuine noise and temporal artifacts. We provide fully registered ground truth data captured in normal light using a programmable motorized dolly and refine it via an image-based approach for pixel-wise frame alignment across different light levels. We provide benchmarks based on four different technologies: convolutional neural networks, transformers, diffusion models, and state space models (mamba). Our experimental results demonstrate the significance of fully registered video pairs for low-light video enhancement (LLVE) and the comprehensive evaluation shows that the models trained with our dataset outperform those trained with the existing datasets. Our dataset and links to benchmarks are publicly available at https://doi.org/10.21227/mzny-8c77.
Autoren: Ruirui Lin, Nantheera Anantrasirichai, Guoxi Huang, Joanne Lin, Qi Sun, Alexandra Malyugina, David R Bull
Letzte Aktualisierung: 2024-07-28 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.03535
Quell-PDF: https://arxiv.org/pdf/2407.03535
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.