Sci Simple

New Science Research Articles Everyday

# Informática # Visão computacional e reconhecimento de padrões

Revolucionando o Mapeamento de Estacionamentos com Tecnologia

Usando imagens de satélite e modelos pra identificar estacionamentos de forma eficiente.

Shirin Qiam, Saipraneeth Devunuri, Lewis J. Lehe

― 7 min ler


Mapeamento de Mapeamento de Estacionamento Esperto espaços de estacionamento eficientes. Tecnologia avançada cria mapas de
Índice

Estacionamentos estão por toda parte, mas mapear eles pode ser meio complicado. Não é só desenhar um rabisco do seu gato; dá trabalho e precisa de bastante esforço. Muitas cidades têm "requisitos mínimos de estacionamento", o que significa que precisam oferecer um certo número de vagas para os novos prédios. Mas quem realmente quer passar horas fazendo mapas de estacionamentos quando pode simplesmente usar a tecnologia? É aqui que entram as imagens de satélite e alguns modelos de computador espertos.

O Problema com o Mapeamento de Estacionamentos

Criar mapas detalhados de estacionamentos pode ser um saco. Algumas empresas vendem esses dados, mas a maioria não é aberta pra todo mundo usar. Isso pode causar lacunas nas informações sobre onde as vagas estão. Se as cidades querem tomar decisões inteligentes sobre os requisitos de estacionamento, elas precisam de mapas precisos. Então, precisamos de uma forma melhor de conseguir essas informações.

Uma Nova Abordagem

Este estudo propõe uma solução: usar imagens de satélite e modelos de computador avançados pra identificar automaticamente os estacionamentos. Imagina câmeras inteligentes no céu tirando fotos do chão e nos dizendo onde estão todas as vagas. Usando essas imagens high-tech e uma técnica chamada "Segmentação Semântica", podemos diferenciar as vagas de estacionamento de tudo que está ao redor.

O que é Segmentação Semântica?

Segmentação semântica é só uma forma chique de dizer "dividir uma imagem em partes diferentes." Nesse caso, queremos rotular cada pixel como "estacionamento" ou "não estacionamento." É como separar suas balas de gelatina por cor, mas aqui estamos separando pixels pela sua função.

Usando Imagens de Satélite

A gente coletou um grande conjunto de imagens de satélite de várias cidades dos EUA. Esse conjunto de dados tem mais de 12.000 imagens, e cada imagem vem com uma máscara que mostra onde os estacionamentos estão. Pense na máscara como uma página de livro de colorir que destaca os contornos do estacionamento.

Os Benefícios do Infravermelho próximo (NIR)

Pra deixar o processo ainda melhor, adicionamos uma camada de dados chamada Infravermelho Próximo (NIR). Essa é uma forma especial de imagem que ajuda a gente a ver coisas que nossos olhos normais não conseguem. Vegetação, por exemplo, reflete muito NIR, o que ajuda a separar os estacionamentos da grama ao redor. Então, enquanto nossas imagens normais mostram o que a gente vê, o NIR nos dá uma visão extra, tipo uma visão de super-herói.

Modelos de Aprendizado Profundo

Agora que temos nossas imagens, precisamos treinar alguns modelos inteligentes pra entender elas. Usamos cinco modelos de aprendizado profundo diferentes pra essa tarefa. Esses modelos são como livros de receitas que dizem aos computadores como reconhecer padrões nas imagens. Todos têm ingredientes e métodos diferentes, então queríamos ver qual deles daria os melhores resultados pra nossa tarefa de segmentação de estacionamentos.

Os Cinco Modelos

  1. Redes Convolucionais Plenas (FCNs): O chef clássico da cozinha. Eles pegam um prato normal e tornam tudo completamente convolucional, o que significa que podem dar resultados pra cada pixel.

  2. DeepLabV3: Esse modelo é como o chef ambicioso tentando fazer um jantar de vários pratos. Ele aprende com diferentes escalas das imagens pra pegar todos os detalhes.

  3. SegFormer: Uma adição corajosa à nossa cozinha, combinando as forças dos métodos tradicionais e dos novos transformers. Ele mistura detalhes locais com contexto global pra fazer recomendações.

  4. Mask2Former: Esse se concentra em prestar atenção onde mais importa. É como aquele amigo que sabe o que você quer comer e vai direto ao ponto.

  5. OneFormer: Um superstar multitarefa, trabalhando duro pra lidar com diferentes tipos de tarefas de segmentação ao mesmo tempo.

Treinando os Modelos

Pra ensinar esses modelos a reconhecer os estacionamentos, dividimos os dados em conjuntos de treino e teste. Pense no conjunto de treino como sessões de prática onde os modelos aprendem, e o conjunto de teste é o exame final onde a gente vê se eles realmente sabem das coisas.

Definindo Parâmetros de Treinamento

Definimos certas diretrizes pro processo de treinamento, como uma equipe de chefs focados seguindo uma receita. Essas diretrizes incluíam quão rápido aprender e como medir o sucesso. Os modelos precisavam manter um equilíbrio entre precisão e complexidade enquanto evitavam erros como confundir um prédio com um estacionamento.

Magia do Pós-Processamento

Depois que os modelos fizeram suas previsões, eles não estavam perfeitos. Precisavam de um pouco de polimento—como um carro que precisa de uma camada de cera brilhante. Introduzimos alguns passos de pós-processamento pra limpar as previsões e deixar as bordas mais bonitas.

Removendo Buracos

Às vezes, os modelos erravam e deixavam buracos nas máscaras onde achavam que havia estacionamento. Decidimos tirar qualquer buraco que fosse muito pequeno porque geralmente estavam errados. É como limpar a casa e jogar fora as migalhas que ninguém notaria.

Simplificando Bordas

As bordas produzidas pelos modelos podiam ser irregulares e dentadas. Queríamos que elas parecessem suaves e organizadas, então usamos ferramentas especiais pra simplificar essas bordas. É como pegar um desenho bagunçado e deixá-lo limpo e claro.

Removendo Prédios

Prédios podem parecer muito com estacionamentos, e às vezes os modelos ficavam confusos. Pra corrigir isso, usamos um conjunto de dados que mostra onde os prédios estão localizados e subtraímos essas áreas das nossas previsões. É como manter sua refeição caseira longe de ingredientes indesejados.

Removendo Estradas

Estradas também podem ser confundidas com vagas. Criamos buffers ao redor das estradas pra excluir essas áreas das nossas previsões. Imagine moldando sua refeição pra deixar de fora as distrações e fazer espaço pro prato que você realmente quer comer.

Desempenho do Modelo

Uma vez que os passos de pós-processamento estavam completos, verificamos como cada modelo se saiu. Medimos seu sucesso usando termos que soam sofisticados, mas são bem simples: precisão pixel a pixel e média de Interseção sobre União (mIoU).

Resultados

Depois de todo o treinamento e polimento, o OneFormer levou a melhor! Ele superou os outros modelos com taxas de precisão impressionantes. Quem diria que segmentar estacionamentos poderia fazer você se sentir como um chef estrela?

O Papel do NIR

Adicionar o canal NIR fez uma diferença real no desempenho dos modelos. Ajudou os modelos a separar áreas gramadas dos estacionamentos melhor do que antes. Os resultados mostraram que, ao combinar NIR com imagens normais, os modelos se saíram ainda melhor.

Conclusão

No final, a gente se propôs a criar um sistema que pudesse identificar automaticamente estacionamentos usando imagens de satélite e modelos de computador avançados. Usamos uma combinação de imagens RGB e NIR, aplicamos várias técnicas de pós-processamento e treinamos vários modelos de aprendizado profundo pra encontrar os melhores resultados.

Quem diria que um pouco de tecnologia poderia levar a mapas melhores para estacionamentos? Essa nova abordagem não só economiza tempo, mas também ajuda as cidades a tomarem decisões informadas sobre os requisitos de estacionamento.

Então, da próxima vez que você entrar em um estacionamento, lembre-se que pode haver um mundo tecnológico trabalhando nos bastidores pra manter o controle dessas vagas. E quem sabe, talvez na próxima vez que as cidades decidirem repensar os requisitos mínimos de estacionamento, elas tenham um conjunto sólido de mapas graças a esses sistemas inteligentes.

Fonte original

Título: A Pipeline and NIR-Enhanced Dataset for Parking Lot Segmentation

Resumo: Discussions of minimum parking requirement policies often include maps of parking lots, which are time consuming to construct manually. Open source datasets for such parking lots are scarce, particularly for US cities. This paper introduces the idea of using Near-Infrared (NIR) channels as input and several post-processing techniques to improve the prediction of off-street surface parking lots using satellite imagery. We constructed two datasets with 12,617 image-mask pairs each: one with 3-channel (RGB) and another with 4-channel (RGB + NIR). The datasets were used to train five deep learning models (OneFormer, Mask2Former, SegFormer, DeepLabV3, and FCN) for semantic segmentation, classifying images to differentiate between parking and non-parking pixels. Our results demonstrate that the NIR channel improved accuracy because parking lots are often surrounded by grass, even though the NIR channel needed to be upsampled from a lower resolution. Post-processing including eliminating erroneous holes, simplifying edges, and removing road and building footprints further improved the accuracy. Best model, OneFormer trained on 4-channel input and paired with post-processing techniques achieves a mean Intersection over Union (mIoU) of 84.9 percent and a pixel-wise accuracy of 96.3 percent.

Autores: Shirin Qiam, Saipraneeth Devunuri, Lewis J. Lehe

Última atualização: 2024-12-08 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2412.13179

Fonte PDF: https://arxiv.org/pdf/2412.13179

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes