Sci Simple

New Science Research Articles Everyday

# Informatique # Vision par ordinateur et reconnaissance des formes

Révolutionner la cartographie des parkings avec la technologie

Utiliser des images satellites et des modèles pour identifier les parkings de manière efficace.

Shirin Qiam, Saipraneeth Devunuri, Lewis J. Lehe

― 8 min lire


Cartographie de Cartographie de stationnement intelligent stationnement super efficaces. La tech avancée crée des plans de
Table des matières

Les parkings sont partout, mais les cartographier peut être un peu galère. Ce n’est pas comme dessiner un gribouillis de ton chat ; ça prend du temps et beaucoup d’efforts. Beaucoup de villes ont des "exigences minimales de stationnement", ce qui veut dire qu'elles doivent fournir un certain nombre de places de parking pour les nouveaux bâtiments. Mais qui a vraiment envie de passer des heures à créer des cartes de parkings quand on peut simplement utiliser la technologie ? C'est là que les images satellites et quelques modèles informatiques intelligents entrent en jeu.

Le Problème de la Cartographie des Parkings

Créer des cartes détaillées des parkings peut être un vrai casse-tête. Certaines entreprises vendent ces données, mais la plupart ne sont pas accessibles à tous. Ça peut mener à des lacunes dans les infos sur l'emplacement des places de parking. Si les villes veulent prendre des décisions intelligentes sur les exigences de stationnement, elles ont besoin de cartes précises. Donc, on a besoin d'une meilleure méthode pour obtenir ces infos.

Une Nouvelle Approche

Cette étude propose une solution : utiliser des images satellites et des modèles informatiques avancés pour identifier automatiquement les parkings. Imagine des caméras intelligentes dans le ciel qui prennent des photos du sol et nous disent où sont toutes les places de parking. Avec ces images high-tech et une technique appelée "Segmentation sémantique", on peut faire la différence entre les places de parking et le reste autour.

Qu'est-ce que la Segmentation Sémantique ?

La segmentation sémantique, c'est juste une manière chic de dire "diviser une image en différentes parties". Dans ce cas, on veut étiqueter chaque pixel comme "parking" ou "pas parking". C’est comme trier des bonbons par couleur, mais là, on trie des pixels par leur fonction.

Utiliser des Images Satellites

On a collecté un grand ensemble d'images satellites de différentes villes américaines. Cet ensemble a plus de 12 000 images, et chaque image est accompagnée d'un masque qui montre où se trouvent les parkings. Pense au masque comme une page de livre de coloriage qui met en avant les contours des parkings.

Les Avantages de l'Infrarouge Proche (NIR)

Pour améliorer le processus, on a ajouté une couche de données appelée Infrarouge Proche (NIR). C'est un type d'imagerie spécial qui nous aide à voir des choses que nos yeux normaux ne peuvent pas. La végétation, par exemple, reflète beaucoup de NIR, ce qui aide à séparer les parkings de l'herbe environnante. Donc, pendant que nos images normales montrent ce qu'on voit, le NIR nous donne un peu de vision supplémentaire, comme un super-héros.

Modèles de Deep Learning

Maintenant qu'on a nos images, on doit entraîner des modèles intelligents pour les comprendre. On a utilisé cinq modèles de deep learning différents pour cette tâche. Ces modèles sont comme des livres de recettes qui disent aux ordinateurs comment reconnaître des motifs dans les images. Ils ont tous des ingrédients et des méthodes différents, donc on voulait voir lequel donnerait les meilleurs résultats pour notre tâche de segmentation de parkings.

Les Cinq Modèles

  1. Réseaux de Convolution Complète (FCNs) : Le chef classique en cuisine. Ils prennent un plat normal et le rendent entièrement convolutionnel, ce qui veut dire qu'ils peuvent donner des résultats pour chaque pixel.

  2. DeepLabV3 : Ce modèle est comme le chef ambitieux qui essaie de préparer un repas multi-services. Il apprend à partir de différentes échelles des images pour capter tous les détails.

  3. SegFormer : Un nouvel ajout courageux à notre cuisine, combinant les forces des anciennes méthodes et des nouveaux transformateurs. Il mixe les détails locaux avec le contexte global pour faire des recommandations.

  4. Mask2Former : Celui-là se concentre sur le masquage d'attention là où ça compte le plus. C’est comme ce pote qui sait ce que tu veux manger et y va direct.

  5. OneFormer : Une superstar multitâche, bosser dur pour gérer différents types de tâches de segmentation en même temps.

Entraînement des Modèles

Pour apprendre à ces modèles à reconnaître les parkings, on a séparé les données en ensembles d'entraînement et de test. Pense à l'ensemble d'entraînement comme à des séances de pratique où les modèles apprennent, et à l'ensemble de test comme à l'examen final où on voit s'ils connaissent vraiment leur sujet.

Définir les Paramètres d'Entraînement

On a mis en place certaines directives pour le processus d’entraînement, comme une équipe de chefs concentrés suivant une recette. Ces directives comprenaient la vitesse d'apprentissage et comment mesurer le succès. Les modèles devaient maintenir un équilibre entre précision et complexité tout en évitant des erreurs comme confondre un bâtiment avec un parking.

Magie du Post-Traitement

Après que les modèles aient fait leurs prédictions, elles n'étaient pas parfaites. Elles avaient besoin d'un petit coup de polish, comme une voiture qui a besoin d'un bon cirage. On a introduit quelques étapes de post-traitement pour nettoyer les prédictions et rendre les bords plus nets.

Suppression des Trous

Parfois, les modèles faisaient des erreurs et laissaient de petits trous dans les masques où ils pensaient qu'il y avait du parking. On a décidé de se débarrasser des trous trop petits parce qu'ils étaient généralement faux. C’est comme faire le ménage chez toi et jeter les miettes que personne ne verrait.

Simplification des Bords

Les bords produits par les modèles pouvaient être rugueux et irréguliers. On voulait qu'ils aient l'air lisses et bien rangés, donc on a utilisé des outils spéciaux pour simplifier ces bords. C’est comme prendre un dessin brouillon et le rendre propre et clair.

Suppression des Bâtiments

Les bâtiments peuvent ressembler beaucoup à des parkings, et parfois les modèles se mélangeaient. Pour corriger ça, on a utilisé un ensemble de données qui montre spécifiquement où se trouvent les bâtiments et on a soustrait ces zones de nos prédictions. C’est comme garder ton plat fait maison exempt d'ingrédients indésirables.

Suppression des Routes

Les routes peuvent aussi être confondues avec des places de parking. On a créé des zones tampons autour des routes pour exclure ces zones de nos prédictions. Imagine façonner ton plat pour éloigner les distractions et faire de la place pour le vrai plat que tu veux manger.

Performance des Modèles

Une fois les étapes de post-traitement terminées, on a vérifié comment chaque modèle avait performé. On a mesuré leur succès avec des termes qui sonnent bien mais qui sont assez simples : précision pixel par pixel et moyenne de l’Intersection sur l'Union (mIoU).

Résultats

Après tout l'entraînement et le polish, OneFormer a remporté le gros lot ! Il a surpassé les autres modèles avec des taux de précision impressionnants. Qui aurait cru que segmenter des parkings pourrait te faire sentir comme un chef étoilé ?

Le Rôle du NIR

Ajouter le canal NIR a vraiment fait une différence dans la performance des modèles. Ça a aidé les modèles à mieux séparer les zones herbeuses des parkings qu'avant. Les résultats ont montré que, en combinant le NIR avec des images normales, les modèles ont encore mieux performé.

Conclusion

Au final, on s'est donné pour objectif de créer un système capable d'identifier automatiquement les parkings en utilisant des images satellites et des modèles informatiques avancés. On a utilisé une combinaison d'images RGB et NIR, appliqué diverses techniques de post-traitement, et entraîné plusieurs modèles de deep learning pour trouver les meilleurs résultats.

Qui aurait pensé qu'un peu de technologie pourrait mener à de meilleures cartes pour les parkings ? Cette nouvelle approche non seulement fait gagner du temps, mais aide aussi les villes à prendre des décisions éclairées sur les exigences de stationnement.

Alors, la prochaine fois que tu te gareras dans un parking, rappelle-toi qu'il pourrait y avoir tout un monde technologique qui travaille en coulisses pour suivre ces espaces. Et qui sait, peut-être que la prochaine fois que les villes décideront de revoir les exigences minimales de stationnement, elles auront une bonne série de cartes grâce à ces systèmes intelligents.

Source originale

Titre: A Pipeline and NIR-Enhanced Dataset for Parking Lot Segmentation

Résumé: Discussions of minimum parking requirement policies often include maps of parking lots, which are time consuming to construct manually. Open source datasets for such parking lots are scarce, particularly for US cities. This paper introduces the idea of using Near-Infrared (NIR) channels as input and several post-processing techniques to improve the prediction of off-street surface parking lots using satellite imagery. We constructed two datasets with 12,617 image-mask pairs each: one with 3-channel (RGB) and another with 4-channel (RGB + NIR). The datasets were used to train five deep learning models (OneFormer, Mask2Former, SegFormer, DeepLabV3, and FCN) for semantic segmentation, classifying images to differentiate between parking and non-parking pixels. Our results demonstrate that the NIR channel improved accuracy because parking lots are often surrounded by grass, even though the NIR channel needed to be upsampled from a lower resolution. Post-processing including eliminating erroneous holes, simplifying edges, and removing road and building footprints further improved the accuracy. Best model, OneFormer trained on 4-channel input and paired with post-processing techniques achieves a mean Intersection over Union (mIoU) of 84.9 percent and a pixel-wise accuracy of 96.3 percent.

Auteurs: Shirin Qiam, Saipraneeth Devunuri, Lewis J. Lehe

Dernière mise à jour: 2024-12-08 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2412.13179

Source PDF: https://arxiv.org/pdf/2412.13179

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires