OpenUAS: Um Conjunto de Dados Completo para Análise Urbana no Japão
OpenUAS oferece uma visão detalhada do uso de áreas urbanas nas principais cidades do Japão.
― 8 min ler
O OpenUAS é um conjunto de dados que foi criado pra ajudar a entender como diferentes partes das cidades no Japão são usadas. Ele inclui informações sobre mais de 1,3 milhão de áreas pequenas, chamadas de meshes, que cobrem cada uma 50 metros por 50 metros. Juntas, essas meshes cobrem cerca de 3.300 quilômetros quadrados. Esse conjunto de dados é útil em várias áreas, como análise de mercado, planejamento urbano, transporte e até mesmo previsão da propagação de doenças. Ele fornece insights sobre como diferentes áreas são usadas, como onde as pessoas trabalham e moram.
Contexto
Entender como as pessoas usam diferentes áreas nas cidades é importante por várias razões. Ajuda negócios a decidir onde abrir uma loja, ajuda planejadores urbanos a criar melhores espaços públicos e ajuda a melhorar sistemas de transporte. Ao longo dos anos, pesquisadores coletaram muitos dados de localização de dispositivos como GPS, que rastreiam pra onde as pessoas vão. Especialmente durante a pandemia de COVID-19, houve uma pressão pra coletar e compartilhar dados sobre como as pessoas se moviam, pra estudar a propagação de infecções.
Mas muitos desses conjuntos de dados têm limitações. Por exemplo, alguns só olham pra corridas de táxi, enquanto outros têm informações de baixa resolução que dificultam ver padrões de uso detalhados. Pra resolver esses problemas, foi criado um conjunto de dados chamado YJMob100k, que fornece dados mais abrangentes sobre o movimento humano. Infelizmente, esse conjunto de dados sacrifica alguns detalhes por questões de Privacidade, usando medições de áreas maiores.
Técnicas de Embedding de Área
Pra driblar os desafios de compartilhar dados de localização sensíveis, os pesquisadores desenvolveram técnicas de embedding de área. Essas técnicas analisam como as pessoas usam as áreas e transformam essas informações em uma forma (vetores) que podem ser processadas por computadores, mantendo os dados anônimos. Isso nos permite estudar áreas em grupos com base em características similares, sem arriscar a privacidade individual.
Um desses métodos se chama Area2Vec. Ele rastreia quanto tempo as pessoas ficam em diferentes lugares pra criar embeddings que refletem os padrões de uso dessas áreas. Isso significa que podemos ver não apenas quais áreas estão sendo usadas, mas também como esse uso muda ao longo do tempo-seja por desenvolvimento urbano, mudanças sazonais ou pandemias. Ao tornar essa informação pública, os pesquisadores podem acompanhar mudanças no uso das áreas ao longo do tempo e comparar padrões de uso entre cidades.
A Necessidade de um Conjunto de Dados Público
Apesar da necessidade de conjuntos de dados que mostrem o uso das áreas, muitos métodos propostos não foram liberados ao público. Uma das principais razões é que os embeddings de área criados a partir de diferentes conjuntos de dados são únicos e não podem ser comparados facilmente entre si. Por exemplo, se criarmos embeddings para áreas de Nova Iorque e Tóquio separadamente, não podemos compará-los, já que não foram criados da mesma maneira. Isso torna complicado fazer comparações ao longo do tempo ou entre diferentes locais.
Pra resolver esse problema, os pesquisadores desenvolveram um método chamado Ancoragem. Esse método estabelece alguns pontos de referência nos dados-como áreas comuns-pra que possamos comparar diferentes conjuntos de dados, mesmo que tenham sido coletados em tempos ou locais diferentes. Usando esse método, conseguimos liberar publicamente um conjunto de dados chamado OpenUAS, que inclui embeddings de área para oito grandes cidades do Japão.
Como o OpenUAS Funciona
O OpenUAS inclui dados de âncora que permitem aos usuários comparar seus próprios dados de localização com os embeddings de área das várias cidades do Japão. A abordagem que usamos utiliza um método pra extrair informações de área sem precisar compartilhar dados de localização sensíveis.
Primeiro, coletamos dados de âncora-exemplos de áreas típicas, como bairros residenciais e distritos comerciais. Depois, ao criar os embeddings de área, misturamos esses dados de âncora com nossos conjuntos de dados maiores. Isso ajuda a fixar as posições das âncoras em um espaço comum, permitindo comparar diferentes áreas entre vários conjuntos de dados.
O Conjunto de Dados
O conjunto de dados OpenUAS cobre várias grandes cidades do Japão, incluindo Tóquio, Osaka, Nagoya, Sapporo, Fukuoka, Sendai, Hiroshima e Quioto. Para cada cidade, coletamos dados ao longo de diferentes períodos. Por exemplo, temos dados detalhados de Nagoya de 2019 a 2023, permitindo analisar como os padrões de uso mudaram ao longo do tempo.
Cada área no conjunto de dados é definida por uma grade de quadrados de 50m x 50m chamada meshes. Agregamos dados dessas meshes contando quantos usuários únicos visitaram cada área, garantindo que incluímos apenas aquelas com pessoas suficientes pra proteger a privacidade.
Definições e Embeddings de Área
Definimos áreas usando meshes que nos permitem coletar dados de forma eficaz. Pra nosso método funcionar, garantimos que cada mesh tenha dados suficientes, então excluímos aquelas com poucos usuários únicos. Dessa forma, conseguimos analisar como as pessoas estão usando diferentes áreas sem revelar informações pessoais.
Os embeddings de área nos ajudam a criar uma visão simplificada de como as áreas funcionam dentro de cada cidade. Eles resumem muitas características em uma representação matemática que pode ser analisada mais a fundo. O método Area2Vec nos permite entender as diferentes características de cada área com base em quanto tempo as pessoas costumam passar lá.
Ancorando o Espaço de Embedding
O método de ancoragem é uma parte fundamental pra fazer o OpenUAS funcionar. Ele nos permite fixar as posições de certos pontos de dados em nossa análise, tornando possível comparar entre diferentes conjuntos de dados. Estabelecemos âncoras com base em áreas típicas, o que nos ajuda a manter um espaço consistente entre diferentes conjuntos de dados.
Ao incorporar dados de vários locais enquanto mantemos as âncoras fixas, ajudamos a garantir que conjuntos de dados diferentes possam ser comparados de forma significativa e sem compartilhar informações sensíveis de localização. Assim, os pesquisadores podem explorar e analisar seus próprios dados ao lado dos dados do OpenUAS sem preocupações de privacidade.
Validando o Conjunto de Dados
Pra confirmar que nossos métodos são eficazes, usamos o conjunto de dados para análises entre cidades e períodos. Ao aplicar técnicas de clustering nos embeddings de área, podemos visualizar como as funções das áreas mudam ao longo do tempo e entre várias cidades.
Por exemplo, ao analisarmos Nagoya ao longo dos anos, podemos ver mudanças claras no uso das áreas, como a queda nas visitas a restaurantes durante a pandemia e como isso mudou desde então. Esse tipo de análise não se limita a apenas uma cidade, mas pode ser aplicado a todas as oito cidades em nosso conjunto de dados, permitindo insights mais amplos.
Mudanças e Padrões Mensais
Também podemos visualizar mudanças mensais dentro da mesma região. Por exemplo, se um parque realiza um evento ou um novo shopping é inaugurado, podemos ver como essas mudanças afetam o uso das áreas ao longo do tempo. Isso nos dá uma perspectiva dinâmica, enquanto observamos como diferentes influências-como eventos ou novas aberturas de negócios-impactam como e quando as pessoas usam áreas específicas.
Considerações de Privacidade
Uma das principais preocupações ao lidar com dados de localização é a privacidade. Pra abordar isso, implementamos um processo de anonimização em duas etapas. Primeiro, agregamos os dados por área, garantindo que as informações dos usuários individuais sejam removidas. Depois, incorporamos esses dados em um espaço latente pra obscurecer ainda mais os padrões individuais.
Usando esses métodos, conseguimos manter a anonimidade dos dados enquanto ainda fornecemos insights úteis sobre o uso das áreas. Garantimos que as informações sejam suficientemente abstratas pra que nenhuma pessoa possa ser identificada ou associada a pontos de dados específicos.
Aplicações do OpenUAS
O OpenUAS pode ser usado em várias aplicações, incluindo análise de uso do solo, planejamento de cidades e estratégias de marketing. Pesquisadores e analistas podem usar os dados fornecidos pra obter insights sem precisar acessar conjuntos de dados brutos de localização diretamente.
As ferramentas e o código pra utilizar os embeddings de área e os dados de âncora são disponibilizados publicamente, permitindo que mais pessoas se envolvam com o conjunto de dados e explorem padrões urbanos por conta própria.
Conclusão
O OpenUAS oferece um conjunto de dados robusto pra analisar como as cidades no Japão são usadas, fornecendo insights sobre funções urbanas em diferentes áreas e períodos. Usando técnicas de embedding de área e o método de ancoragem, conseguimos criar uma forma consistente de entender e comparar padrões de uso urbano, tudo isso respeitando a privacidade individual.
Esse conjunto de dados serve como um recurso valioso pra várias áreas e incentiva mais pesquisas em análise e planejamento urbano. Ao liberar essas informações, nossa intenção é fomentar a colaboração e inovação entre pesquisadores, planejadores de cidade e empresas que buscam entender melhor os ambientes urbanos.
Título: OpenUAS: Embeddings of Cities in Japan with Anchor Data for Cross-city Analysis of Area Usage Patterns
Resumo: We publicly release OpenUAS, a dataset of area embeddings based on urban usage patterns, including embeddings for over 1.3 million 50-meter square meshes covering a total area of 3,300 square kilometers. This dataset is valuable for analyzing area functions in fields such as market analysis, urban planning, transportation infrastructure, and infection prediction. It captures the characteristics of each area in the city, such as office districts and residential areas, by employing an area embedding technique that utilizes location information typically obtained by GPS. Numerous area embedding techniques have been proposed, and while the public release of such embedding datasets is technically feasible, it has not been realized. One reason for this is that previous methods could not embed areas from different cities and periods into the same embedding space without sharing raw location data. We address this issue by developing an anchoring method that establishes anchors within a shared embedding space. We publicly release this anchor dataset along with area embedding datasets from several periods in eight major Japanese cities.
Autores: Naoki Tamura, Kazuyuki Shoji, Shin Katayama, Kenta Urano, Takuro Yonezawa, Nobuo Kawaguchi
Última atualização: 2024-11-12 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.19872
Fonte PDF: https://arxiv.org/pdf/2407.19872
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.