Transformer des images infrarouges thermiques en images colorées de jour
Un nouveau modèle améliore la traduction des images thermiques nocturnes en couleurs de jour.
― 6 min lire
Table des matières
La traduction d'images prises dans des conditions de faible luminosité, surtout les Images infrarouges thermiques, en images couleur de jour reste un vrai défi dans le domaine du traitement d'images. Les images infrarouges thermiques sont super utiles car elles peuvent révéler des objets invisibles sur les photos classiques. Cette tâche de conversion entre différents types d'images, surtout des images infrarouges nocturnes aux images colorées de jour, est importante pour mieux comprendre et analyser les scènes nocturnes.
Le Défi de la Traduction d'Images
Le gros problème avec les images infrarouges thermiques, c'est qu'elles manquent souvent de détails et de couleurs, rendant la reconnaissance d'objets difficile pour les observateurs humains. Les caméras traditionnelles peuvent rater des infos importantes comme des véhicules ou des gens dans l'obscurité. Donc, trouver un moyen fiable de traduire ces images en un format couleur plus familier peut vraiment aider à reconnaître et analyser les scènes.
Il existe des méthodes qui peuvent coloriser des images en niveaux de gris, mais elles ne fonctionnent pas toujours avec les images infrarouges thermiques. La raison, c'est que ces méthodes s'appuient généralement sur des infos couleur qui ne sont pas présentes dans les images infrarouges. Cela signifie qu'elles ne peuvent pas simplement deviner les bonnes couleurs parce que les images infrarouges ne fournissent pas les détails nécessaires.
Pour y remédier, certaines approches utilisent un espace colorimétrique appelé CIE Lab, qui réduit la tâche à prédire deux composants de couleur basés sur une valeur de luminosité extraite de l'image originale. Cela simplifie un peu le boulot mais ne supprime pas les défis inhérents à la tâche.
Approche Proposée
Face à ces difficultés, un nouveau modèle nommé StawGAN a été développé. Ce modèle est conçu pour traduire efficacement les images infrarouges thermiques en images couleur tout en préservant les Structures et détails importants des objets. Au lieu d'utiliser plusieurs générateurs pour chaque canal de couleur, StawGAN utilise un seul générateur qui considère toute l'image tout en étant conscient de la forme et de la structure de la cible.
En intégrant une fonction de perte unique qui se concentre sur les différences entre les images générées et les originales, le modèle peut produire des images qui sont non seulement visuellement attrayantes mais aussi structurellement cohérentes. Cela signifie que les images générées sont plus nettes et mieux définies, facilitant ainsi une meilleure reconnaissance des objets.
Comment StawGAN Fonctionne
StawGAN utilise une architecture de réseau neuronal appelée Réseau Adversarial Génératif, ou GAN. Un GAN est composé de deux parties : un générateur qui crée de nouvelles images et un discriminateur qui les évalue. Le générateur essaie de produire des images qui semblent réelles, tandis que le discriminateur essaie de distinguer les vraies images des images générées.
Dans StawGAN, le générateur utilise des infos à la fois de l'image infrarouge d'entrée et d'un masque qui met en évidence les zones importantes sur lesquelles se concentrer. Ça permet au modèle de prêter une attention spéciale aux caractéristiques clés durant la traduction. Le modèle intègre aussi un mécanisme pour améliorer le contraste et la qualité globale des images générées.
Pour l'entraînement, un ensemble d'images comprenant à la fois des images infrarouges thermiques et des images couleur correspondantes est utilisé. Le modèle apprend à reconnaître les motifs et détails en comparant les images générées avec les vraies images. Avec le temps, il devient meilleur pour produire des représentations visuellement précises.
Évaluation Expérimentale
Pour évaluer l'efficacité de StawGAN, il a été testé sur un ensemble de données spécifique contenant des paires d'images infrarouges et RGB capturées par des drones. Cet ensemble de données a permis aux chercheurs d'analyser la qualité des traductions et des résultats générés.
Plusieurs métriques ont été utilisées pour évaluer la performance de StawGAN par rapport à d'autres modèles. Cela inclut la capacité à capturer la structure et la qualité des images. Les résultats ont montré que StawGAN surpassait de nombreuses méthodes existantes, produisant de meilleurs résultats visuels et des représentations plus précises des images originales.
Résultats et Comparaison
En comparant StawGAN à d'autres modèles à la pointe de la technologie, les résultats ont mis en évidence des différences significatives dans la qualité des images générées. Par exemple, certains modèles concurrents produisaient des images avec des couleurs inexactes ou des détails flous. En revanche, StawGAN livrait des traductions qui conservaient des formes claires et des couleurs vives, démontrant sa force à traduire des images nocturnes en représentations diurnes.
La comparaison incluait également une analyse de la capacité du modèle à gérer des tâches de Segmentation. La segmentation, c'est le processus d'identification et de délimitation d'objets dans une image. La performance de StawGAN était particulièrement forte dans ce domaine, montrant une meilleure capacité à maintenir les formes des objets lors de la traduction des images.
Applications
La capacité à traduire efficacement des images infrarouges en images couleur peut avoir de nombreuses applications. Par exemple, ça peut vraiment bénéficier à des domaines comme la surveillance, le monitoring du trafic, et les opérations de recherche et de sauvetage, où une imagerie précise en basse lumière est critique. Une meilleure traduction d'image peut aussi aider dans les systèmes de détection et de reconnaissance d'objets, les rendant plus fiables lors d'opérations nocturnes.
De plus, le modèle peut être utile pour des ensembles de données impliquant des images appariées ou non appariées. Cette flexibilité ouvre de nouvelles possibilités pour la recherche et les applications pratiques, car il peut fonctionner avec différents types d'entrées de données.
Conclusion
StawGAN représente une avancée significative dans la tâche de traduire des images infrarouges thermiques en images claires et colorées de jour. En se concentrant sur les détails structurels et en utilisant une architecture de réseau unique, StawGAN améliore la qualité visuelle et les capacités de reconnaissance des images générées. Les résultats réussis des évaluations expérimentales démontrent son potentiel pour des applications dans le monde réel.
Avec un développement continu, des modèles comme StawGAN promettent d'améliorer notre capacité à comprendre et analyser des scènes dans des conditions de faible luminosité, fournissant des infos plus riches qui peuvent être appliquées dans divers domaines. Cette approche innovante marque un progrès notable dans le traitement d'images et offre des opportunités passionnantes pour des recherches et des applications futures.
Titre: StawGAN: Structural-Aware Generative Adversarial Networks for Infrared Image Translation
Résumé: This paper addresses the problem of translating night-time thermal infrared images, which are the most adopted image modalities to analyze night-time scenes, to daytime color images (NTIT2DC), which provide better perceptions of objects. We introduce a novel model that focuses on enhancing the quality of the target generation without merely colorizing it. The proposed structural aware (StawGAN) enables the translation of better-shaped and high-definition objects in the target domain. We test our model on aerial images of the DroneVeichle dataset containing RGB-IR paired images. The proposed approach produces a more accurate translation with respect to other state-of-the-art image translation models. The source code is available at https://github.com/LuigiSigillo/StawGAN
Auteurs: Luigi Sigillo, Eleonora Grassucci, Danilo Comminiello
Dernière mise à jour: 2023-05-18 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.10882
Source PDF: https://arxiv.org/pdf/2305.10882
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.