O Valor do Web Scraping na Pesquisa Geográfica
Web scraping fornece dados essenciais pra entender as tendências geográficas e as mudanças urbanas.
― 15 min ler
Muitas das nossas atividades diárias acontecem online, e os pesquisadores estão usando a internet pra coletar informações sobre tendências e padrões geográficos. Web scraping é uma técnica que permite coletar dados, especialmente relacionados a atividades sociais e econômicas, de vários sites. Esse método fornece dados quase em tempo real que podem ser obtidos de forma barata. Os pesquisadores estão particularmente interessados em áreas como preços de aluguel, mudanças sociais em bairros, ambientes de negócios e planejamento urbano.
O Crescimento dos Dados Online
Desde que a internet se tornou amplamente acessível em 1991, a forma como acessamos informações mudou muito. Hoje em dia, as pessoas passam cerca de sete horas online por dia, o que representa mais de 40% do tempo que estão acordadas. Os navegadores se tornaram ferramentas essenciais para vários serviços online, com muitas plataformas online substituindo negócios tradicionais e escritórios do governo.
À medida que mais informações vão pra internet, a importância dos Dados Geográficos também aumentou. O desenvolvimento do Web 2.0 e do GeoWeb tornou os dados georreferenciados e os nomes de lugares cada vez mais acessíveis. Isso inclui páginas web dinâmicas, mapas interativos, serviços baseados em localização e informações geográficas voluntárias (VGI) criadas por usuários. Essas mudanças refletem como a localização se tornou significativa em nossas vidas diárias.
No entanto, apesar desses avanços na disponibilidade de dados, os métodos de pesquisa ainda não se atualizaram completamente. Na geografia e em áreas relacionadas, a maioria das estratégias de pesquisa online envolve a realização de pesquisas, uso de dados de infraestruturas de dados espaciais ou promoção da ciência aberta compartilhando dados e códigos. VGI e crowdsourcing se tornaram conceitos importantes, referindo-se à crescente presença de conteúdo gerado por usuários online. Plataformas de mídia social como o Twitter também estão sendo analisadas por seus insights geográficos.
Desafios de Usar a Rede Mais Ampla
A internet mais ampla carece de métodos padronizados para acessar e coletar dados, tornando o web scraping desafiador. Cada site tem seu próprio layout e regras para organizar informações, o que pode complicar os esforços de coleta de dados. No entanto, isso não significa que a internet mais ampla seja irrelevante para a pesquisa acadêmica. Assim como registros históricos valiosos, os pesquisadores podem aprender a extrair dados geográficos importantes de várias fontes online para complementar métodos tradicionais como pesquisas e estatísticas oficiais.
O web scraping é agora visto como uma maneira eficaz de recuperar informações para várias investigações de pesquisa geográfica.
Aprendendo com o Web Scraping
O web scraping também pode ser uma ferramenta educacional valiosa para ensinar ciência da informação geográfica. Ele oferece experiência prática para os alunos, expondo-os aos desafios reais que vêm com o trabalho com dados reais. A internet oferece continuamente dados frescos que podem criar experiências de aprendizado diversas que livros didáticos sozinhos não conseguem fornecer.
Além da academia, o web scraping também pode gerar insights úteis para aplicações empresariais e governamentais, como estratégias de marketing e estatísticas oficiais. Embora compartilhem alguns desafios tecnológicos com aplicações acadêmicas, as questões legais e éticas podem diferir.
Práticas Responsáveis de Web Scraping
Este artigo pretende incentivar práticas responsáveis de web scraping para pesquisa acadêmica e ensino em geografia e áreas relacionadas. Ele discute estratégias tecnológicas, desafios legais e éticos, e fornece exemplos de estudos geográficos usando web scraping como referência para trabalhos futuros.
As seções seguintes oferecem uma visão geral das oportunidades e aplicações atuais do web scraping na geografia, um fluxo de trabalho típico de web scraping, considerações legais e éticas, e os desafios relacionados à Qualidade dos Dados, com um estudo de caso sobre aluguéis de apartamentos em Leipzig, Alemanha.
Oportunidades e Aplicações na Pesquisa Geográfica
O interesse em web scraping para pesquisa cresceu nos últimos cinco anos em várias áreas, incluindo geografia, planejamento, turismo e conservação. Embora ainda seja uma atividade minoritária nessas áreas, existem estudos suficientes para identificar oportunidades potenciais de pesquisa.
Principais Áreas de Aplicação
Algumas das principais aplicações de web scraping na geografia focam no mercado imobiliário, como mercados de aluguel e turismo. Pesquisadores podem analisar mudanças em bairros urbanos devido à demanda por aluguéis de curto prazo ou mapear websites de negócios. Na geografia física, os dados costumam ser coletados de sites do governo, que podem não ter acesso padronizado.
A maioria dos estudos foca na coleta de dados espaciais, como listagens de apartamentos e informações climáticas, junto com seus dados de localização relevantes. Por exemplo, pesquisadores mapearam relações entre empresas para demonstrar como sites e links conectam várias entidades.
Fora da geografia, o web scraping tem sido usado na pesquisa de preços ao consumidor para estatísticas oficiais por mais de uma década. Essa abordagem pode ajudar a mapear diferenças de preços regionais. Embora não seja estritamente geográfico, a pesquisa de preços de alimentos também é um campo relacionado que recentemente explorou os benefícios do web scraping.
Os dados coletados da web clara, que é acessível a todos, e algumas partes da deep web, que podem ser consultadas, têm sido o foco da maioria dos estudos geográficos. No entanto, nenhuma pesquisa geográfica ainda explorou a darknet, que tem sido examinada principalmente por atividades ilegais.
Vantagens do Web Scraping
Estudos usando web scraping podem criar novos caminhos de pesquisa ao oferecer várias vantagens:
Dados em Nível de Objeto: Diferente de dados agregados, que podem não representar com precisão situações individuais, o web scraping permite que os pesquisadores coletem informações detalhadas sobre objetos específicos, como propriedades para aluguel. Essa precisão é essencial para muitas análises geográficas.
Dados em tempo real: O web scraping frequentemente fornece acesso imediato às informações mais recentes, como listagens de aluguel atuais ou dados ambientais. Embora nem sempre seja necessário para a pesquisa, ter insights atualizados pode melhorar a qualidade geral da pesquisa.
Conteúdo Gerado pelo Usuário: O web scraping captura conteúdo gerado por usuários que pode não estar incluído em registros oficiais. Essas informações podem refletir os interesses e ações de diferentes grupos, proporcionando um contexto mais rico para a pesquisa.
Evitando Limitações de Serviços Web: Nem todos os dados são fornecidos através de serviços padronizados, o que pode tornar o scraping necessário. Os pesquisadores podem recuperar dados públicos que não estão disponíveis em um determinado formato ou podem simplesmente optar por scraping em vez de acesso pago à API.
Embora esses benefícios não sejam universais para todos os cenários de web scraping, eles mostram que essa técnica é uma adição valiosa aos métodos tradicionais de coleta de dados.
Fluxo de Trabalho de Web Scraping
Um processo típico de web scraping na pesquisa geográfica requer atenção cuidadosa a questões legais e éticas, junto com uma avaliação de viabilidade do site pretendido. Os pesquisadores devem navegar pelas estruturas e layouts únicos de diferentes sites, o que pode exigir testes e ajustes significativos no software de scraping.
Para estudos geográficos, é crucial extrair informações de localização, como nomes de lugares, endereços ou coordenadas. Embora alguns sites forneçam esses dados diretamente, eles também podem escondê-los em links ou códigos que não são facilmente visíveis. Isso significa que os pesquisadores muitas vezes precisam usar algoritmos especializados para identificar e extrair essas informações.
Além dos dados de localização, os pesquisadores também podem querer desenvolver relações entre várias entidades dentro dos dados. Isso pode ser feito coletando hyperlinks ou nomes associados a organizações. Por exemplo, ao fazer scraping de sites de empresas, os pesquisadores podem reconstruir redes regionais que são relevantes para tópicos específicos.
Outro aspecto importante do web scraping é coletar atributos adicionais sobre os dados coletados. Enquanto ferramentas estabelecidas podem extrair informações de páginas web com base em suas estruturas de codificação, desafios podem surgir ao trabalhar com dados numéricos ou textuais que podem não ser padronizados.
Os pesquisadores também precisam ser capazes de lidar com os elementos dinâmicos de um site, como interações do usuário necessárias para exibir conteúdo relevante. Ferramentas como Selenium podem automatizar processos de teste, garantindo que a coleta de dados ocorra suavemente.
Considerações Legais e Éticas
Ao usar dados de terceiros obtidos através de web scraping, os pesquisadores devem pensar sobre questões legais e éticas. Essas preocupações estão relacionadas à forma como os dados são apresentados em um site, os termos de uso, implicações de privacidade e como o uso de dados impacta os proprietários e usuários do site.
Questões Legais
As leis sobre web scraping podem diferir significativamente dependendo de onde os dados são acessados. Desafios legais surgem comumente de questões de direitos autorais, que exigem que os proprietários do site deem permissão antes que seu trabalho possa ser reproduzido.
Em muitos casos, o proprietário de um site não possui os dados que ele contém, especialmente se gerados por usuários. Pode ser necessário determinar se o scraping dos dados se enquadra nas diretrizes de "uso justo", que podem permitir o uso limitado do material para pesquisa. Os pesquisadores também devem prestar atenção em arquivos robots.txt que indicam quais partes de um site podem ser acessadas.
O cumprimento contratual é outra área de foco. Fazer scraping de dados pode entrar em conflito com os termos de serviço de um site, especialmente se os usuários estiverem usando contas falsas para contornar restrições. Os tribunais têm opiniões diferentes sobre se isso constitui uma violação de contrato.
Além disso, o scraping repetido de um site pode causar interrupções no serviço, levando a uma possível responsabilidade. Felizmente, à medida que a tecnologia dos sites melhorou, esse problema se tornou menos significativo.
Questões Éticas
Mesmo quando o scraping é legalmente permitido, considerações éticas precisam ser abordadas. Questões éticas importantes incluem:
Consentimento Informado: A maioria das atividades de web scraping não tem consentimento das pessoas cujos dados estão sendo coletados. Embora o consentimento pode não ser sempre necessário, pode ser complicado navegar sobre quais informações são privadas ou públicas.
Privacidade: Os pesquisadores devem considerar se os dados coletados poderiam revelar detalhes pessoais sobre indivíduos. É essencial remover identificadores para evitar danos e proteger a privacidade das pessoas.
Ignorando Restrições: Alguns pesquisadores podem se sentir justificados em desconsiderar os termos de serviço se os benefícios potenciais do scraping forem vistos como superando quaisquer preocupações éticas. No entanto, isso pode levar a problemas legais, mesmo que o pesquisador acredite que suas intenções são boas.
Para conduzir uma pesquisa ética, os pesquisadores devem avaliar cuidadosamente os potenciais benefícios e riscos associados às suas práticas de scraping. Eles devem tentar coletar dados em um nível agregado em vez de focar em dados individuais, sempre que possível.
Desafios Metodológicos
O web scraping enfrenta uma variedade de problemas que podem afetar a qualidade dos dados coletados. Alguns desafios surgem do próprio processo de scraping, enquanto outros estão ligados às características das fontes de dados que estão sendo acessadas. É vital abordar esses desafios únicos em cada etapa da pesquisa, desde a coleta e processamento de dados até a análise.
Principais Desafios
Confiabilidade: A estrutura dos sites pode mudar inesperadamente, exigindo que os pesquisadores atualizem frequentemente seu software de scraping. Essa necessidade contínua de ajuste pode consumir recursos significativos de desenvolvimento.
Incompletude: Dados raspados podem ter lacunas significativas, seja devido a problemas técnicos ou informações incompletas fornecidas pelo site. Os pesquisadores precisam garantir que suas ferramentas possam lidar com formatos inesperados e validar os dados que coletam.
Ocultação de Localização: Alguns sites escondem intencionalmente dados de localização precisos para proteger a privacidade do usuário. Isso pode levar a erros na análise geográfica devido à redução na precisão na modelagem baseada em localização.
Personalização de Busca: Sites podem adaptar conteúdo com base em informações do usuário, afetando a precisão e a completude dos resultados de busca. Os pesquisadores podem mitigar esses efeitos imitando vários comportamentos de usuários, embora isso levante questões éticas.
Representatividade: Dados coletados através de web scraping podem carecer de representatividade, especialmente se certas ofertas não forem totalmente capturadas. Isso pode distorcer tendências e dificultar a reconciliação dos dados com estatísticas oficiais.
Inconsistências Lógicas: Coletar dados por longos períodos pode resultar em inconsistências devido a mudanças nos processos internos de coleta de dados de uma plataforma. Essas mudanças muitas vezes não são documentadas e difíceis de rastrear.
Cobertura Temporal Limitada: Scrapers podem não coletar dados continuamente, tornando desafiador o acesso a informações históricas. Arquivos da web têm alguns recursos, mas não incluem conteúdo dinâmico que pode ser crucial para a pesquisa.
Barreiras à Ciência Aberta: Dependendo das leis que governam o web scraping, os pesquisadores podem não conseguir compartilhar seus dados abertamente, o que pode dificultar a colaboração acadêmica.
Estudo de Caso: Listagens de Apartamentos em Leipzig
Pra ilustrar o potencial e os desafios do web scraping, vamos olhar para listagens de apartamentos em Leipzig, Alemanha. O objetivo era coletar conjuntos de dados que poderiam ser usados pra ensinar várias técnicas de ciência de dados geográficos a alunos de geografia, ligando teoria a aplicações práticas.
Avaliando a Viabilidade
Duas principais plataformas imobiliárias foram examinadas pra coletar dados. A ImmoScout24 foi excluída devido a restrições na coleta automatizada de dados. A Immowelt, no entanto, não tinha termos proibitivos, tornando-a adequada para scraping.
Na época da análise, as duas plataformas tinham conjuntos de listagens semelhantes em Leipzig. Como nem todos os apartamentos estão acessíveis em plataformas online, pode haver lacunas nos dados coletados, o que pode afetar a precisão das avaliações de mercado.
Implementando o Scraper
Depois de confirmar a viabilidade, um protótipo foi desenvolvido e implantado pra fazer o scraping das listagens de apartamentos da Immowelt. O R foi usado pra scraping e extração de informações, com a recuperação de dados agendada para a noite pra minimizar a sobrecarga do servidor. Os scripts foram projetados pra lidar com possíveis erros, garantindo coleta de dados resiliente.
Considerações sobre a Qualidade dos Dados
Durante o processo de scraping em 2021, alguns dias não tiveram dados coletados. No entanto, em geral, mais de 9.900 listagens foram recuperadas, com uma porcentagem significativa passando por verificações de qualidade. A maioria das informações sobre preço e tamanho estava precisa, embora alguns registros contivessem atributos implausíveis.
As informações de endereço estavam tipicamente completas, mas ajustes menores foram necessários pra padronizar os dados. A taxa de sucesso na determinação das coordenadas para as listagens foi alta, refletindo a qualidade geral dos dados raspados.
Análise Espacial
Nos contextos de ensino, subconjuntos dos dados foram usados pra realizar várias análises, como modelagem de preço hedônico. Essa abordagem permitiu que os alunos aplicassem diferentes técnicas de ciência de dados geográficos enquanto obtinham insights de dados do mundo real.
Um modelo aditivo generalizado foi usado pra analisar os preços de aluguel por metro quadrado, com um bom ajuste do modelo. A análise mostrou que apartamentos mais novos e mais próximos ao centro da cidade tendiam a ter preços de aluguel mais altos.
Conclusão
A revisão e o estudo de caso destacam que o web scraping é um método valioso pra coletar dados online para pesquisa geográfica. Embora apresente múltiplos desafios, também pode fornecer insights críticos sobre transformação urbana, dinâmicas de mercado e questões sociais. Os pesquisadores devem abraçar essa abordagem enquanto estão conscientes das fronteiras legais, éticas e metodológicas que governam seu uso. A exploração contínua do web scraping pode abrir novos caminhos pra entender a geografia no cenário digital de hoje.
Título: Web scraping: a promising tool for geographic data acquisition
Resumo: With much of our lives taking place online, researchers are increasingly turning to information from the World Wide Web to gain insights into geographic patterns and processes. Web scraping as an online data acquisition technique allows us to gather intelligence especially on social and economic actions for which the Web serves as a platform. Specific opportunities relate to near-real-time access to object-level geolocated data, which can be captured in a cost-effective way. The studied geographic phenomena include, but are not limited to, the rental market and associated processes such as gentrification, entrepreneurial ecosystems, or spatial planning processes. Since the information retrieved from the Web is not made available for that purpose, Web scraping faces several unique challenges, several of which relate to location. Ethical and legal issues mainly relate to intellectual property rights, informed consent and (geo-) privacy, and website integrity and contract. These issues also effect the practice of open science. In addition, there are technical and statistical challenges that relate to dependability and incompleteness, data inconsistencies and bias, as well as the limited historical coverage. Geospatial analyses furthermore usually require the automated extraction and subsequent resolution of toponyms or addresses (geoparsing, geocoding). A study on apartment rent in Leipzig, Germany is used to illustrate the use of Web scraping and its challenges. We conclude that geographic researchers should embrace Web scraping as a powerful and affordable digital fieldwork tool while paying special attention to its legal, ethical, and methodological challenges.
Autores: Alexander Brenning, Sebastian Henn
Última atualização: 2023-05-31 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.19893
Fonte PDF: https://arxiv.org/pdf/2305.19893
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.airdna.co/
- https://ec.europa.eu/eurostat/cros/system/files/wpc_deliverable_c1_ess_web-scraping_policy_template_2019_07_15.pdf
- https://arxiv.org/abs/2105.13957
- https://datahippo.org/
- https://datareportal.com/reports/digital-2022-global-overview-report
- https://www.law.com/newyorklawjournal/almID/1202610687621
- https://www.handelsblatt.com/unternehmen/it-medien/immobilienportale-immonet-und-immowelt-fusionieren/11356640.html
- https://docs.ropensci.org/RSelenium/
- https://www.horizont.net/marketing/nachrichten/online-marktplatz-mit-dieser-kampagne-attackiert-ebay-kleinanzeigenimmoscout24-immowelt--co-197229
- https://arxiv.org/abs/2207.01683
- https://insideairbnb.com/
- https://ssrn.com/abstract=3491192
- https://CRAN.R-project.org/package=robotstxt
- https://www.pangaea.de/
- https://www.crummy.com/software/BeautifulSoup/
- https://github.com/tomslee/airbnb-data-collection
- https://www.zensus2022.de/DE/Aktuelles/Zensus_2022_Ergebnisveroeffentlichung_verschiebt_sich_voraussichtlich_in_den_Maerz_2024.html
- https://dan-suciu.medium.com/the-complete-manual-to-legal-ethical-web-scraping-in-2021-3eeae278b334
- https://dev.to/digitallyrajat/the-ultimate-guide-to-legal-and-ethical-web-scraping-in-2022-4c11
- https://www.nytimes.com/2022/04/29/us/2020-census-release.html
- https://CRAN.R-project.org/package=stringr
- https://CRAN.R-project.org/package=rvest