Améliorer la segmentation d'instance en conditions de faible luminosité
De nouvelles techniques améliorent les modèles de segmentation d'instances pour les images en faible luminosité.
― 8 min lire
Table des matières
La Segmentation d'Instance est une technologie qui identifie et sépare chaque objet dans une image. C'est super important pour aider les ordinateurs à comprendre les images, surtout dans des domaines comme la robotique et les voitures autonomes. La plupart des méthodes de segmentation d'instance fonctionnent bien quand il y a de la lumière, mais galèrent en basse lumière. Quand la lumière est faible, les images deviennent souvent bruyantes, rendant difficile de voir les détails et de reconnaître les objets.
Cet article se penche sur comment améliorer la segmentation d'instance dans des situations de très Faible luminosité. On présente de nouvelles techniques qui aident les modèles à mieux fonctionner avec des images sombres. On a remarqué que le Bruit dans les photos en basse lumière perturbe les caractéristiques dont les réseaux neuronaux ont besoin pour identifier les objets correctement. Pour ça, on a développé des méthodes pour réduire le bruit et améliorer le processus d'apprentissage de nos modèles.
Le problème des images en basse lumière
Quand on prend des images en faible luminosité, elles ont souvent beaucoup de bruit. Ce bruit brouille les détails, rendant difficile pour les algorithmes de capter des caractéristiques claires. Les modèles de segmentation d'instance classiques sont conçus pour des images plus lumineuses. Dans des scénarios de faible lumière, le bruit peut cacher des informations importantes. Ça fait que les modèles peuvent rater des objets ou les confondre avec l'arrière-plan.
Il y a pas beaucoup de méthodes ou de datasets qui se concentrent spécifiquement sur la segmentation d'instance en faible lumière. Certaines techniques existantes essaient d'améliorer les images avant de les passer dans les modèles de segmentation, mais ça rajoute des étapes et du temps. Pas idéal pour des applications en temps réel où la rapidité est cruciale. En plus, ces méthodes d'amélioration peuvent ne pas récupérer assez de détails des images originales, menant à des prédictions incorrectes.
Notre approche
On a voulu créer un cadre plus efficace pour la segmentation d'instance dans des conditions de faible lumière sans avoir besoin de prétraitements supplémentaires. Pour ça, on a conçu un système simple mais puissant qui fonctionne directement sur des images en faible lumière.
Notre approche comprend trois composants principaux : une couche de sous-échantillonnage pondérée adaptative, un bloc convolutif orienté lisse et un apprentissage de suppression des perturbations. Chaque composant joue un rôle dans la réduction de l'effet du bruit et l'amélioration de la précision du modèle.
Couche de sous-échantillonnage pondérée adaptative
La première innovation est la couche de sous-échantillonnage pondérée adaptative. Cette couche aide à nettoyer le bruit des images au fur et à mesure qu'elles passent dans le réseau. Les méthodes de sous-échantillonnage classiques utilisées dans de nombreux modèles ne tiennent pas compte du bruit dans les images. Elles se contentent de réduire la résolution sans filtrer les perturbations, ce qui peut aggraver le problème du bruit.
Notre nouvelle couche de sous-échantillonnage prend en compte les caractéristiques environnantes et les agrège de manière sélective. Ça aide à minimiser le bruit tout en gardant les détails importants. En utilisant un processus similaire aux filtres passe-bas, cette couche s’assure que les caractéristiques sont moins affectées par le bruit.
Bloc convolutif orienté lisse
Ensuite, on a introduit le bloc convolutif orienté lisse. Ce bloc améliore les couches convolutives classiques en ajoutant un effet de lissage durant l'extraction de caractéristiques. L'objectif est de réduire le bruit et d'améliorer la robustesse du modèle face aux images en faible lumière.
Le convolutif orienté lisse utilise plusieurs branches qui aident à apprendre de meilleurs filtres pour différentes zones de l'image. Ça veut dire que quand le modèle rencontre des caractéristiques bruyantes, il peut les filtrer de manière adaptative tout en maintenant les détails sémantiques critiques des objets.
Apprentissage de suppression des perturbations
Enfin, on a mis en place l'apprentissage de suppression des perturbations. Cette technique encourage le modèle à apprendre des caractéristiques stables et non affectées par le bruit. Plutôt que d'accepter simplement l'entrée bruyante, notre modèle apprend à identifier les caractéristiques essentielles dans les images propres et bruyantes.
En minimisant la différence entre les caractéristiques extraites des images bruyantes et propres, le modèle peut se concentrer sur ce qui compte le plus pour les tâches de segmentation. Ça améliore la performance globale du modèle dans des situations de faible lumière.
Importance des images RAW
On a observé que l'utilisation d'images RAW à haute profondeur de bits est bénéfique en faible lumière. Les sorties classiques des caméras, comme les images sRGB, peuvent perdre beaucoup de détails à cause du bruit, surtout dans les scènes sombres. En revanche, les images RAW gardent plus d'informations sur la scène, les rendant plus adaptées au traitement en faible lumière.
Pour pallier le manque de datasets RAW en faible lumière, on a développé un pipeline synthétique. Ce pipeline génère des images RAW réalistes en faible lumière à partir d'images bien éclairées. En inversant les étapes de traitement d'image typiquement appliquées pour créer des images sRGB, on peut créer un dataset qui inclut une variété de scénarios de faible lumière.
Collecte d'un dataset du monde réel
Pour soutenir notre recherche, on a assemblé un dataset du monde réel spécialement conçu pour la segmentation d'instance en faible lumière. Ce dataset comprend plus de deux mille paires d'images prises à la fois en faible et en lumière normale, chaque paire étant étiquetée au niveau des pixels. Cette collection étendue nous permet d'évaluer efficacement notre méthode et fournit un benchmark pour des recherches futures dans ce domaine.
Le dataset se compose de différents types de scènes, tant en intérieur qu'en extérieur. Chaque scène est capturée sous diverses conditions pour assurer une représentation diversifiée des situations de faible lumière. Les annotations détaillées aident à entraîner des modèles de manière à ce qu'ils puissent reconnaître des objets même quand la lumière est insuffisante.
Évaluation de notre méthode
Dans nos expériences, on a comparé nos méthodes proposées aux modèles d'état de l'art existants sous des conditions de faible lumière. On a fait des évaluations sur des datasets synthétiques et réels, en se concentrant sur la précision de la segmentation d'instance.
Les résultats ont montré une amélioration significative des performances avec nos nouvelles méthodes. On a découvert qu'en traitant directement des images RAW en faible lumière, plutôt que des images sRGB, notre modèle obtenait une précision plus élevée. De plus, les nouveaux composants de design n'ont pas beaucoup augmenté le temps de traitement global, les rendant adaptés à des applications en temps réel.
Résultats de performance
En évaluant notre approche sur le nouveau dataset, on a constaté que notre méthode surpassait les techniques traditionnelles. Les modèles utilisant notre couche de sous-échantillonnage pondérée adaptative et les blocs convolutifs orientés lisses ont régulièrement atteint une précision moyenne plus élevée. L'apprentissage de suppression des perturbations a encore renforcé la robustesse du modèle, menant à une performance plus stable dans diverses conditions.
Notre analyse a révélé que le cadre proposé réduit efficacement le bruit dans les images en faible lumière, ce qui se traduit par une meilleure performance dans les tâches de segmentation d'instance. Cela montre l'importance de s'attaquer au bruit directement au sein du modèle, plutôt que de compter sur des méthodes de prétraitement qui peuvent ne pas donner de résultats satisfaisants.
Conclusion
Cette recherche met en lumière les défis que les conditions de faible lumière posent à la segmentation d'instance. Les méthodes traditionnelles ont du mal avec le bruit courant dans les images sombres, ce qui entraîne des performances médiocres. Cependant, nos techniques proposées ont considérablement amélioré la précision et l'efficacité de la segmentation d'instance dans des environnements à faible lumière.
En se concentrant sur la réduction du bruit des caractéristiques grâce à des stratégies de sous-échantillonnage et de convolution innovantes, tout en mettant l'accent sur l'apprentissage de caractéristiques stables, on a développé une solution complète. La collecte d'un nouveau dataset du monde réel en faible lumière fournit une ressource précieuse pour des recherches futures dans ce domaine.
En fin de compte, notre travail ouvre des voies pour des applications de vision par ordinateur améliorées, particulièrement celles qui nécessitent une performance fiable dans des conditions d'éclairage difficiles. Grâce à ces avancées, on vise à ouvrir la voie à des modèles plus capables qui peuvent fonctionner efficacement dans des environnements divers.
Titre: Instance Segmentation in the Dark
Résumé: Existing instance segmentation techniques are primarily tailored for high-visibility inputs, but their performance significantly deteriorates in extremely low-light environments. In this work, we take a deep look at instance segmentation in the dark and introduce several techniques that substantially boost the low-light inference accuracy. The proposed method is motivated by the observation that noise in low-light images introduces high-frequency disturbances to the feature maps of neural networks, thereby significantly degrading performance. To suppress this ``feature noise", we propose a novel learning method that relies on an adaptive weighted downsampling layer, a smooth-oriented convolutional block, and disturbance suppression learning. These components effectively reduce feature noise during downsampling and convolution operations, enabling the model to learn disturbance-invariant features. Furthermore, we discover that high-bit-depth RAW images can better preserve richer scene information in low-light conditions compared to typical camera sRGB outputs, thus supporting the use of RAW-input algorithms. Our analysis indicates that high bit-depth can be critical for low-light instance segmentation. To mitigate the scarcity of annotated RAW datasets, we leverage a low-light RAW synthetic pipeline to generate realistic low-light data. In addition, to facilitate further research in this direction, we capture a real-world low-light instance segmentation dataset comprising over two thousand paired low/normal-light images with instance-level pixel-wise annotations. Remarkably, without any image preprocessing, we achieve satisfactory performance on instance segmentation in very low light (4~\% AP higher than state-of-the-art competitors), meanwhile opening new opportunities for future research.
Auteurs: Linwei Chen, Ying Fu, Kaixuan Wei, Dezhi Zheng, Felix Heide
Dernière mise à jour: 2023-09-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.14298
Source PDF: https://arxiv.org/pdf/2304.14298
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.