Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Présentation de BVI-RLV : Un nouveau jeu de données pour l'amélioration des vidéos en basse lumière

Un nouveau jeu de données vise à améliorer les techniques d'amélioration de vidéos en faible lumière.

― 8 min lire


Nouveau jeu de donnéesNouveau jeu de donnéespour vidéo en faibleluminositéde vidéos en faible luminosité.progresser les méthodes d'améliorationUn ensemble de données vise à faire
Table des matières

Les vidéos en faible luminosité peuvent être difficiles à voir clairement. Elles sont souvent pleines de bruit, ce qui complique l'analyse par les programmes informatiques. Un gros souci pour améliorer ces vidéos, c'est qu'il n'y a pas assez de bonnes données d'entraînement disponibles pour apprendre aux modèles d'apprentissage profond comment les améliorer efficacement.

Cet article présente un nouveau jeu de données spécifiquement conçu pour l'amélioration des vidéos en faible luminosité. Il se compose de 40 scènes différentes filmées à deux niveaux de faible luminosité, incluant du bruit réel et des problèmes qui surviennent au fil du temps. Le jeu de données fournit des vidéos de haute qualité correspondantes prises en lumière normale, capturées avec un équipement spécial qui permet des mouvements précis. De cette façon, les images peuvent être parfaitement alignées, ce qui est important pour entraîner les modèles à améliorer les vidéos en faible luminosité.

Nous avons créé des benchmarks en utilisant quatre technologies différentes : réseaux de neurones convolutionnels, transformers, modèles de diffusion et modèles d'état-espaces. Les premiers tests indiquent que l'utilisation de notre jeu de données peut mener à de meilleures performances dans l'amélioration des vidéos en faible luminosité par rapport aux anciens Jeux de données.

Capturer des vidéos en faible luminosité est important pour divers domaines. Par exemple, c'est utile dans le cinéma, la biologie, la robotique, la surveillance et la sécurité. Cependant, filmer dans des conditions de faible luminosité peut être délicat à cause de l'interaction des réglages de la caméra comme l'ouverture, la vitesse d'obturation et l'ISO. Si la lumière est trop faible, cela entraîne beaucoup de bruit, qui se manifeste sous forme de perturbations indésirables dans la vidéo. De plus, les couleurs peuvent sembler faussées, ce qui rend l'analyse des images plus compliquée.

Bien que les dernières années aient vu des améliorations dans l'amélioration des images en faible luminosité, appliquer ces technologies aux vidéos est plus compliqué. D'une part, la vidéo ne peut pas simplement être traitée comme une série d'images individuelles, car cela entraîne des incohérences entre ces images. De plus, pour réussir à améliorer ces méthodes, il faut beaucoup de données de haute qualité et bien alignées. Malheureusement, les problèmes de vidéo en faible luminosité sont complexes, et il est difficile d'obtenir des images de référence précises.

Avec notre jeu de données, connu sous le nom de BVI-RLV, nous fournissons des séquences complètement alignées de vidéos en faible luminosité réelles par rapport à leurs homologues en lumière normale. Ce jeu de données a été créé dans différentes conditions d'éclairage et comprend de nombreuses scènes variées pour garantir une large gamme de données d'entraînement. Chaque vidéo dans le jeu de données peut contribuer de manière unique à la formation des modèles pour mieux gérer l'amélioration en faible luminosité.

Le BVI-RLV inclut 40 scènes qui ont été enregistrées à l'aide d'un système motorisé programmable pour assurer un mouvement uniforme. Chaque scène contient un mélange de divers sujets et textures, menant à un total d'environ 30 000 images appariées. C'est important parce que de nombreux jeux de données existants ont des problèmes comme le désalignement ou une variabilité limitée, ce qui les rend moins utiles pour le développement d'outils d'amélioration fiables.

Un des principaux avantages de notre jeu de données est qu'il a quatre modèles de référence basés sur différentes architectures. Ces modèles ne nécessitent pas de matériel coûteux, ce qui les rend accessibles à un plus large public. Nous avons utilisé notre jeu de données pour entraîner ces quatre modèles et avons constaté qu'ils fonctionnaient bien par rapport à ceux entraînés sur d'autres jeux de données.

Les jeux de données précédents sur la faible luminosité étaient limités dans leur portée. La plupart d'entre eux ont seulement capturé des scènes statiques, rendant difficile la création d'outils d'amélioration efficaces. Notre jeu de données est différent car il inclut à la fois des scènes statiques et dynamiques. Pour le contenu dynamique, la caméra a bougé pendant le tournage, ce qui a permis de capturer une variété de mouvements. C'est crucial pour permettre aux méthodes basées sur l'apprentissage de mieux se généraliser.

Pour créer notre jeu de données, nous avons contrôlé chaque aspect de l'environnement où nous avons filmé. Nous avons utilisé des lumières puissantes pour régler les niveaux d'éclairage et nous avons veillé à ce que les réglages de la caméra soient optimaux pour capturer des images en faible luminosité. La caméra a été réglée à des niveaux spécifiques de sensibilité pour obtenir les meilleurs résultats.

Cependant, le tournage en conditions réelles présente ses propres défis. Même si nous visons la précision, des systèmes mécaniques comme le chariot mobile peuvent entraîner de légers désalignements. Pour contrer cela, nous avons développé une méthode pour générer des vidéos de référence dans des conditions d'éclairage optimales, ce qui nous a permis de minimiser le désalignement avec les versions en faible luminosité.

Lors de la création de notre jeu de données, nous avons répété le processus de tournage plusieurs fois pour garantir des résultats de haute qualité. Chaque scène contenait une carte de calibration pour aider à la précision des couleurs. Cela permet un meilleur entraînement et des performances lors de l'application des modèles à des vidéos réelles.

Dans l'amélioration moderne des vidéos en faible luminosité, l'utilisation de méthodes d'apprentissage profond a changé la donne. Pourtant, les techniques pour les vidéos n'ont pas progressé aussi rapidement que celles basées sur les images. La complexité de la vidéo signifie que de nombreux facteurs doivent être pris en compte, y compris les mouvements qui peuvent changer rapidement. Notre jeu de données peut fournir les données nécessaires pour faire face à ces complexités en offrant une gamme de types de vidéos.

Nos résultats montrent que l'utilisation de notre jeu de données a entraîné des améliorations significatives dans les modèles d'amélioration des vidéos en faible luminosité. Les modèles entraînés sur nos données ont mieux performé que ceux entraînés sur des jeux de données existants, prouvant que disposer de paires vidéo bien alignées pour l'entraînement est crucial.

Pour démontrer la nécessité de vidéos avec mouvement, nous avons testé à quel point les modèles apprenaient avec différents types de données. Nous avons ajusté les architectures du réseau pour comparer l'utilisation de données vidéo statiques par rapport à dynamiques. Les résultats indiquaient clairement un besoin de données de mouvement pour améliorer la qualité de l'amélioration.

De plus, nous avons comparé notre jeu de données avec ceux créés précédemment, qui avaient des vérités de base limitées et traitaient souvent de contenu statique. Beaucoup de ces anciens jeux de données ont échoué à développer des modèles efficaces à cause de petites tailles, de distorsions irréalistes et d'un manque de situations dynamiques.

Nous avons aussi examiné comment notre jeu de données pourrait aider à former des modèles adaptés à différents types d'amélioration en faible luminosité. Certains de ces modèles ont été entraînés pour bien fonctionner avec notre jeu de données puis testés contre d'autres jeux de données, confirmant leur fiabilité dans diverses situations.

Malgré le succès potentiel avec ce jeu de données, il y a des limites. Par exemple, la perception de la luminosité peut varier d'une personne à l'autre, donc les résultats pourraient ne pas toujours être cohérents. Pour aider avec cela, nous avons utilisé des techniques comme l'appariement d'histogrammes pour affiner les niveaux de luminosité et améliorer les résultats.

En même temps, nous reconnaissons que les technologies d'amélioration des vidéos en faible luminosité présentent des risques. Elles pourraient être mal utilisées pour envahir la vie privée ou d'autres fins malveillantes. Cela souligne la nécessité d'une réflexion attentive sur la manière dont ces technologies sont développées et appliquées dans la vie réelle.

En résumé, cet article a introduit un nouveau jeu de données créé pour aider à l'amélioration des vidéos en faible luminosité. Le jeu de données BVI-RLV contient une variété de scènes, garantissant un entraînement robuste pour les modèles visant à améliorer la qualité des vidéos dans des situations d'éclairage faible. En fournissant les ressources nécessaires, nous ouvrons la voie à de futurs développements dans les techniques d'amélioration vidéo et aidons les chercheurs à créer de meilleures solutions pour des applications réelles.

Source originale

Titre: BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement

Résumé: Low-light videos often exhibit spatiotemporal incoherent noise, compromising visibility and performance in computer vision applications. One significant challenge in enhancing such content using deep learning is the scarcity of training data. This paper introduces a novel low-light video dataset, consisting of 40 scenes with various motion scenarios under two distinct low-lighting conditions, incorporating genuine noise and temporal artifacts. We provide fully registered ground truth data captured in normal light using a programmable motorized dolly and refine it via an image-based approach for pixel-wise frame alignment across different light levels. We provide benchmarks based on four different technologies: convolutional neural networks, transformers, diffusion models, and state space models (mamba). Our experimental results demonstrate the significance of fully registered video pairs for low-light video enhancement (LLVE) and the comprehensive evaluation shows that the models trained with our dataset outperform those trained with the existing datasets. Our dataset and links to benchmarks are publicly available at https://doi.org/10.21227/mzny-8c77.

Auteurs: Ruirui Lin, Nantheera Anantrasirichai, Guoxi Huang, Joanne Lin, Qi Sun, Alexandra Malyugina, David R Bull

Dernière mise à jour: 2024-07-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.03535

Source PDF: https://arxiv.org/pdf/2407.03535

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires