Sci Simple

New Science Research Articles Everyday

# Informática # Visión por Computador y Reconocimiento de Patrones

Revolucionando el mapeo de estacionamientos con tecnología

Usando imágenes de satélite y modelos para identificar estacionamientos de manera eficiente.

Shirin Qiam, Saipraneeth Devunuri, Lewis J. Lehe

― 7 minilectura


Mapeo Inteligente de Mapeo Inteligente de Estacionamientos espacio de estacionamiento eficientes. La tecnología avanzada crea mapas de
Tabla de contenidos

Los estacionamientos están por todas partes, pero mapearlos puede ser un poco complicado. No es como dibujar un garabato de tu gato; toma tiempo y mucho esfuerzo. Muchas ciudades tienen "requisitos mínimos de estacionamiento", lo que significa que tienen que proporcionar un cierto número de espacios para nuevos edificios. Pero, ¿quién realmente quiere pasar horas creando mapas de estacionamientos cuando se puede usar tecnología? Aquí es donde entran las imágenes satelitales y algunos modelos de computadora ingeniosos.

El Problema con el Mapeo de Estacionamientos

Crear mapas detallados de estacionamientos puede ser un dolor. Algunas empresas venden estos datos, pero la mayoría no está disponible para el público. Esto puede llevar a lagunas en la información sobre dónde están los espacios de estacionamiento. Si las ciudades quieren tomar decisiones inteligentes sobre los requisitos de estacionamiento, necesitan mapas precisos. Así que necesitamos una mejor manera de obtener esta información.

Un Nuevo Enfoque

Este estudio propone una solución: usar imágenes satelitales y modelos de computadora avanzados para identificar automáticamente los estacionamientos. Imagina cámaras inteligentes en el cielo que toman fotos del suelo y nos dicen dónde están todos los espacios de estacionamiento. Usando estas imágenes de alta tecnología y una técnica llamada "Segmentación Semántica", podemos distinguir entre los espacios de estacionamiento y todo lo demás a su alrededor.

¿Qué es la Segmentación Semántica?

La segmentación semántica es solo una forma elegante de decir "dividir una imagen en diferentes partes." En este caso, queremos etiquetar cada pixel como "estacionamiento" o "no estacionamiento." Es como clasificar tus jellybeans por color, pero en lugar de eso, estamos clasificando pixels por su función.

Usando Imágenes Satelitales

Recopilamos un gran conjunto de imágenes satelitales de varias ciudades de EE. UU. Este conjunto de datos tiene más de 12,000 imágenes, y cada imagen viene acompañada de una máscara que muestra dónde están los estacionamientos. Piensa en la máscara como una página de un libro para colorear que destaca los contornos del estacionamiento.

Los Beneficios del Infrarrojo cercano (NIR)

Para mejorar aún más el proceso, añadimos una capa de datos llamada Infrarrojo Cercano (NIR). Este es un tipo especial de imagen que nos ayuda a ver cosas que nuestros ojos normales no pueden. La vegetación, por ejemplo, refleja mucho NIR, lo que ayuda a separar los estacionamientos de la hierba cercana. Así que, mientras nuestras imágenes regulares muestran lo que vemos, el NIR nos da una vista extra, como visión de superhéroe.

Modelos de Aprendizaje Profundo

Ahora que tenemos nuestras imágenes, necesitamos entrenar algunos modelos inteligentes para que las entiendan. Usamos cinco modelos diferentes de aprendizaje profundo para esta tarea. Estos modelos son como libros de recetas que le dicen a las computadoras cómo reconocer patrones en las imágenes. Todos tienen ingredientes y métodos diferentes, así que queríamos ver cuál daría los mejores resultados en nuestra tarea de segmentación de estacionamientos.

Los Cinco Modelos

  1. Redes Neuronales Convolucionales Completa (FCNs): El chef clásico en la cocina. Toman un plato regular y lo hacen completamente convolucional, lo que significa que pueden entregar resultados para cada pixel.

  2. DeepLabV3: Este modelo es como el chef ambicioso que intenta hacer una comida de múltiples platos. Aprende de diferentes escalas de las imágenes para captar todos los detalles.

  3. SegFormer: Una nueva incorporación valiente a nuestra cocina, combinando las fortalezas de los métodos tradicionales y los transformadores más nuevos. Mezcla detalles locales con contexto global para hacer recomendaciones.

  4. Mask2Former: Este se enfoca en enmascarar la atención donde más importa. Es como ese amigo que sabe lo que quieres comer y va directo al grano.

  5. OneFormer: Un superestrella multitarea, trabajando duro para manejar diferentes tipos de tareas de segmentación a la vez.

Entrenando los Modelos

Para enseñar a estos modelos cómo reconocer estacionamientos, dividimos los datos en conjuntos de entrenamiento y prueba. Piensa en el conjunto de entrenamiento como sesiones de práctica donde los modelos aprenden, y el conjunto de prueba es el examen final donde vemos si realmente saben lo que hacen.

Estableciendo Parámetros de Entrenamiento

Establecimos ciertas pautas para el proceso de entrenamiento, como un equipo de chefs concentrados siguiendo una receta. Estas guías incluían qué tan rápido aprender y cómo medir el éxito. Los modelos tenían que mantener un equilibrio entre precisión y complejidad mientras evitaban errores como confundir un edificio con un estacionamiento.

Magia de Post-Procesamiento

Después de que los modelos hicieron sus predicciones, no eran perfectas. Necesitaban un poco de pulido, como un auto que necesita un buen encerado. Introdujimos algunos pasos de post-procesamiento para limpiar las predicciones y hacer que los bordes se vieran más ordenados.

Eliminando Huecos

A veces, los modelos cometían errores y dejaban pequeños huecos en las máscaras donde pensaban que había estacionamiento. Decidimos deshacernos de cualquier hueco que fuera demasiado pequeño porque generalmente estaban equivocados. Es como limpiar tu casa y tirar las migajas que nadie notaría.

Simplificando Bordes

Los bordes producidos por los modelos podían ser irregulares y dentados. Queríamos que se vieran suaves y ordenados, así que usamos herramientas especiales para simplificar estos bordes. Es como tomar un dibujo desordenado y hacerlo lucir limpio y claro.

Eliminando Edificios

Los edificios pueden parecer mucho a los estacionamientos, y a veces los modelos se confundían. Para solucionarlo, usamos un conjunto de datos que muestra específicamente dónde están los edificios y restamos esas áreas de nuestras predicciones. Es como mantener tu plato de comida casera libre de ingredientes no deseados.

Eliminando Caminos

Los caminos también pueden confundirse con espacios de estacionamiento. Creamos márgenes alrededor de los caminos para excluir esas áreas de nuestras predicciones. Solo imagina dar forma a tu comida para mantener fuera las distracciones y hacer espacio para el platillo que realmente quieres comer.

Rendimiento del Modelo

Una vez que se completaron los pasos de post-procesamiento, verificamos qué tan bien se desempeñó cada uno de los modelos. Medimos su éxito usando términos que suenan complejos pero son bastante simples: precisión pixel a pixel y media de Intersección sobre Unión (mIoU).

Resultados

Después de todo el entrenamiento y pulido, ¡OneFormer se llevó el premio! Superó a los otros modelos con tasas de precisión impresionantes. ¿Quién diría que segmentar estacionamientos podría hacerte sentir como un chef estrella?

El Papel del NIR

Agregar el canal NIR hizo una gran diferencia en el rendimiento de los modelos. Ayudó a los modelos a separar mejor las áreas de césped de los estacionamientos que antes. Los resultados mostraron que, al combinar NIR con imágenes regulares, los modelos funcionaron aún mejor.

Conclusión

Al final, nos propusimos crear un sistema que pudiera identificar automáticamente los estacionamientos usando imágenes satelitales y modelos de computadora avanzados. Usamos una combinación de imágenes RGB y NIR, aplicamos diversas técnicas de post-procesamiento, y entrenamos varios modelos de aprendizaje profundo para encontrar los mejores resultados.

¿Quién hubiera pensado que un poco de tecnología podría llevar a mejores mapas para estacionamientos? Este nuevo enfoque no solo ahorra tiempo, sino que también ayuda a las ciudades a tomar decisiones informadas sobre los requisitos de estacionamiento.

Así que, la próxima vez que entres a un estacionamiento, recuerda que podría haber todo un mundo tecnológico trabajando tras bambalinas para mantener el control de esos espacios. Y quién sabe, tal vez la próxima vez que las ciudades decidan repensar los requisitos mínimos de estacionamiento, tendrán un buen conjunto de mapas gracias a estos sistemas inteligentes.

Fuente original

Título: A Pipeline and NIR-Enhanced Dataset for Parking Lot Segmentation

Resumen: Discussions of minimum parking requirement policies often include maps of parking lots, which are time consuming to construct manually. Open source datasets for such parking lots are scarce, particularly for US cities. This paper introduces the idea of using Near-Infrared (NIR) channels as input and several post-processing techniques to improve the prediction of off-street surface parking lots using satellite imagery. We constructed two datasets with 12,617 image-mask pairs each: one with 3-channel (RGB) and another with 4-channel (RGB + NIR). The datasets were used to train five deep learning models (OneFormer, Mask2Former, SegFormer, DeepLabV3, and FCN) for semantic segmentation, classifying images to differentiate between parking and non-parking pixels. Our results demonstrate that the NIR channel improved accuracy because parking lots are often surrounded by grass, even though the NIR channel needed to be upsampled from a lower resolution. Post-processing including eliminating erroneous holes, simplifying edges, and removing road and building footprints further improved the accuracy. Best model, OneFormer trained on 4-channel input and paired with post-processing techniques achieves a mean Intersection over Union (mIoU) of 84.9 percent and a pixel-wise accuracy of 96.3 percent.

Autores: Shirin Qiam, Saipraneeth Devunuri, Lewis J. Lehe

Última actualización: 2024-12-08 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2412.13179

Fuente PDF: https://arxiv.org/pdf/2412.13179

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares