Identification directe de la forme des bâtiments à partir d'images aériennes
Un nouveau modèle pour identifier des formes de bâtiments directement à partir d'images sans traitement supplémentaire.
― 7 min lire
Table des matières
Dans le domaine de la planification géospatiale, il est important de montrer des objets d'une manière qui peut facilement être utilisée pour d'autres tâches, comme le design web ou la création graphique. En général, ça se fait avec une méthode appelée Segmentation sémantique, qui identifie et classifie chaque pixel d'une image. Cependant, cette méthode peut être lente et nécessite souvent des étapes supplémentaires pour transformer les résultats en un format vectoriel utilisable. On propose un nouveau modèle qui peut directement identifier les formes des bâtiments à partir des Images, rendant l'utilisation des résultats plus facile pour les tâches basées sur des vecteurs.
Contexte
L'utilisation de l'Apprentissage profond pour analyser les bâtiments et autres structures a beaucoup progressé récemment. Les méthodes traditionnelles pour identifier les bâtiments dans les images s'appuyaient souvent sur des règles géométriques et des calculs complexes. Les approches modernes utilisent des techniques d'apprentissage profond impliquant la segmentation sémantique, mais peuvent encore être limitées. Elles classifient chaque pixel mais mènent souvent à des résultats incertains, surtout autour des bords des objets. Corriger ces bords nécessite généralement des étapes supplémentaires qui peuvent entraîner des erreurs indésirables dans les formes finales.
Notre objectif est de créer un modèle capable de décrire les formes des bâtiments sans avoir besoin de ces étapes supplémentaires. En procédant ainsi, on espère rendre le processus plus rapide et efficace.
Travaux Connus
Beaucoup d'études ont cherché à identifier les bâtiments à partir d'images. La plupart d'entre elles utilisent la segmentation sémantique comme élément clé de leurs méthodes. Ces travaux peuvent être divisés en trois grands groupes :
Méthodes Traditionnelles : Ces approches utilisent des techniques de vision par ordinateur de base qui s'appuient sur des indices géométriques et des stratégies d'optimisation complexes pour trouver les contours des bâtiments.
Apprentissage Profond avec Post-Traitement : Ce groupe d'études utilise des méthodes d'apprentissage profond avec segmentation sémantique, suivies d'étapes supplémentaires pour corriger les résultats. Par exemple, certaines méthodes se concentrent sur la définition plus précise des bords des bâtiments avec des techniques supplémentaires.
Modélisation Polygonale Directe : Certains chercheurs essaient de créer des Modèles qui peuvent directement représenter les formes des bâtiments sans nécessiter d'étapes supplémentaires après l'identification initiale. Bien que chacune de ces méthodes ait ses avantages et inconvénients, on pense que réduire le besoin de post-traitement complexe est une direction prometteuse pour la recherche future.
Description du Modèle
Notre modèle, qu'on appelle Polygonizer, comprend un encodeur et un décodeur. L'encodeur utilise une version modifiée d'un modèle bien connu appelé ResNet50, mais on saute certaines couches et ajoute de nouvelles infos pour aider le modèle à mieux apprendre. Ça inclut l'ajout de valeurs spécifiques pour aider le modèle à comprendre l'espace et la disposition des bâtiments.
Le modèle traite les images en les analysant d'abord pour créer une carte des caractéristiques. Cette carte inclut différentes informations de position et de dimension, ce qui aide le modèle à garder une trace de l'emplacement de chaque point. Le décodeur utilise ensuite ces informations pour prédire et générer les formes des bâtiments étape par étape, jusqu'à atteindre un point d'arrêt.
Configuration Expérimentale
Pour tester notre modèle, on a utilisé un ensemble de données spécifique contenant des images de bâtiments avec des boîtes de délimitation connues. Ça veut dire qu'on avait des exemples clairs de là où les bâtiments commencent et se terminent. En entraînant notre modèle de cette manière, on a pu se concentrer sur l'apprentissage pour identifier les formes avec précision.
On a comparé la performance de notre modèle avec celle de deux autres méthodes récentes dans le domaine. Même si notre modèle a bien performé, il a été entraîné avec les boîtes de délimitation connues, ce qui a pu rendre la tâche un peu plus facile. On a regardé divers indicateurs de performance, et notre modèle a généralement mieux performé que les autres, surtout en ce qui concerne la précision des angles dans les formes des bâtiments.
Résultats
Notre modèle a montré de bons résultats par rapport aux autres méthodes. Il a particulièrement bien fonctionné dans les tâches où les images d'entrée étaient claires et bien définies. Cependant, on voulait aussi tester à quel point notre modèle pouvait gérer différentes situations difficiles, comme des images altérées d'une manière ou d'une autre.
Test de Robustesse
Pour voir à quel point notre modèle peut performer dans des conditions moins idéales, on l'a testé avec des images ayant subi certaines modifications. On a fait trois types de changements aux images :
Masquage de Pixels : On a retiré aléatoirement certains pixels des images pour voir dans quelle mesure le modèle pouvait encore fonctionner avec des données incomplètes.
Réduction de la qualité : On a réduit la qualité des images pour simuler des situations où les détails pourraient ne pas être très clairs.
Rotation : On a fait tourner les images de 15 degrés à la fois pour vérifier à quel point le modèle pouvait identifier les formes sous différents angles.
Nos tests ont montré que notre modèle était généralement capable de mieux gérer la réduction de la qualité et le masquage que les autres méthodes. Cependant, sa performance a diminué à mesure que la qualité des images baissait. Notamment, les autres méthodes ont eu beaucoup de mal lorsque les détails étaient perdus.
Discussion
On pense que notre méthode offre un moyen plus simple de décrire les bâtiments comparé aux méthodes existantes. Elle fonctionne bien sans avoir besoin d'un modèle séparé pour prédire la première partie de la forme, ce qui la rend plus efficace. Cela dit, notre modèle a aussi certaines limites. Il fonctionne mieux quand il n'y a qu'un seul bâtiment dans chaque image, et il pourrait avoir du mal à gérer des formes très complexes ou longues.
Pour l'avenir, on prévoit d'affiner davantage notre modèle. Un objectif est de lui permettre de trouver automatiquement les bâtiments dans les images sans avoir besoin de boîtes de délimitation préalables. Ça aidera à rendre le processus plus fluide et plus utile dans les applications réelles.
Conclusion
Pour conclure, on a développé une méthode simple pour identifier les formes des bâtiments à partir d'images aériennes. Notre approche apprend efficacement les angles et les dimensions des bâtiments, ce qui en fait un bon candidat pour des applications futures dans la planification et l'analyse géospatiale. En se concentrant sur la réduction de la complexité du processus, on vise à contribuer à de meilleurs outils plus efficaces pour comprendre l'environnement construit.
Expériences Supplémentaires
On a aussi réalisé d'autres expériences pour comprendre comment notre modèle se comporte dans différentes conditions, en particulier en ce qui concerne la rotation. On a découvert que notre modèle maintient un niveau d'exactitude élevé même lorsque les images sont tournées, ce qui est important pour les applications réelles où les images ne sont pas toujours parfaitement alignées.
À travers ces tests et résultats, notre modèle montre un bon potentiel pour devenir un outil précieux pour les professionnels travaillant avec des images de télédétection. On a hâte de continuer notre recherche dans ce domaine et d'explorer de nouvelles manières d'améliorer les capacités du modèle.
Titre: Polygonizer: An auto-regressive building delineator
Résumé: In geospatial planning, it is often essential to represent objects in a vectorized format, as this format easily translates to downstream tasks such as web development, graphics, or design. While these problems are frequently addressed using semantic segmentation, which requires additional post-processing to vectorize objects in a non-trivial way, we present an Image-to-Sequence model that allows for direct shape inference and is ready for vector-based workflows out of the box. We demonstrate the model's performance in various ways, including perturbations to the image input that correspond to variations or artifacts commonly encountered in remote sensing applications. Our model outperforms prior works when using ground truth bounding boxes (one object per image), achieving the lowest maximum tangent angle error.
Auteurs: Maxim Khomiakov, Michael Riis Andersen, Jes Frellsen
Dernière mise à jour: 2023-04-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.04048
Source PDF: https://arxiv.org/pdf/2304.04048
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.