El valor del web scraping en la investigación geográfica
El web scraping proporciona datos clave para entender las tendencias geográficas y los cambios urbanos.
― 15 minilectura
Tabla de contenidos
Muchas de nuestras actividades diarias suceden en línea y los investigadores están usando internet para recopilar información sobre tendencias y patrones geográficos. El web scraping es una técnica que nos permite recolectar datos, especialmente relacionados con actividades sociales y económicas, de varios sitios web. Este método proporciona datos casi en tiempo real que se pueden obtener de forma económica. Los investigadores están particularmente interesados en áreas como precios de alquiler, cambios sociales en vecindarios, entornos empresariales y planificación urbana.
El Aumento de Datos en Línea
Desde que internet se volvió accesible en 1991, la manera en que accedemos a la información ha cambiado drásticamente. Hoy en día, la gente pasa unas siete horas online cada día, lo que representa más del 40% de sus horas despiertas. Los navegadores se han vuelto herramientas esenciales para varios servicios en línea, y muchas plataformas online han reemplazado a negocios tradicionales y oficinas gubernamentales.
A medida que más y más información se vuelve digital, la importancia de los Datos Geográficos también ha crecido. El desarrollo de Web 2.0 y el GeoWeb ha hecho que los datos georreferenciados y los nombres de lugares sean cada vez más accesibles. Esto incluye páginas web dinámicas, mapas interactivos, servicios basados en ubicación e información geográfica voluntaria (VGI) creada por usuarios. Estos cambios reflejan lo significativo que se ha vuelto el lugar en nuestras vidas cotidianas.
Sin embargo, a pesar de estos avances en la disponibilidad de datos, los métodos de investigación no han evolucionado completamente. En geografía y campos relacionados, la mayoría de las estrategias de investigación online implican realizar encuestas, usar datos de infraestructuras de datos espaciales o promover la ciencia abierta compartiendo datos y código. VGI y crowdsourcing se han convertido en conceptos importantes, refiriéndose a la creciente presencia de Contenido Generado por Usuarios en línea. Las plataformas de redes sociales como Twitter también están siendo analizadas por sus perspectivas geográficas.
Desafíos de Usar la Web Más Amplia
La web más amplia carece de métodos estandarizados para acceder y recopilar datos, lo que hace que el web scraping sea un desafío. Cada sitio web tiene su propia estructura y reglas para organizar información, lo que puede complicar los esfuerzos de recolección de datos. Sin embargo, esto no significa que la web más amplia sea irrelevante para la investigación académica. Al igual que los registros históricos valiosos, los investigadores pueden aprender a extraer datos geográficos importantes de varias fuentes en línea para complementar métodos tradicionales como encuestas y estadísticas oficiales.
El web scraping ahora se ve como una manera efectiva de recuperar información para varias consultas de investigación geográfica.
Aprendiendo a Través del Web Scraping
El web scraping también puede ser una herramienta educativa valiosa para enseñar ciencias de la información geográfica. Ofrece experiencia práctica a los estudiantes, exponiéndolos a los desafíos reales que conlleva trabajar con datos reales. Internet continuamente ofrece datos frescos que pueden crear experiencias de aprendizaje diversas que los libros de texto no pueden proporcionar por sí solos.
Más allá del ámbito académico, el web scraping también puede generar información útil para aplicaciones empresariales y gubernamentales, como estrategias de marketing y estadísticas oficiales. Aunque comparten algunos desafíos tecnológicos con las aplicaciones académicas, los problemas legales y éticos pueden diferir.
Prácticas Responsables de Web Scraping
Este artículo busca fomentar prácticas responsables de web scraping para la investigación académica y la enseñanza en geografía y campos relacionados. Se discuten estrategias tecnológicas, desafíos legales y éticos, y se proporcionan ejemplos de estudios geográficos que usan web scraping como referencia para trabajos futuros.
Las siguientes secciones ofrecen una visión general de las oportunidades actuales y aplicaciones del web scraping en geografía, un flujo de trabajo típico de web scraping, consideraciones legales y éticas, y los desafíos relacionados con la Calidad de los datos, con un estudio de caso sobre los alquileres de apartamentos en Leipzig, Alemania.
Oportunidades y Aplicaciones en Investigación Geográfica
El interés en el web scraping para investigación ha crecido en los últimos cinco años en varios campos, incluyendo geografía, planificación, turismo y conservación. Aunque aún es una actividad menor en estas áreas, hay suficientes estudios para identificar oportunidades de investigación potenciales.
Áreas Clave de Aplicación
Algunas de las principales aplicaciones del web scraping en geografía se centran en bienes raíces, como mercados de alquiler y turismo. Los investigadores pueden analizar cambios en vecindarios urbanos debido a demandas de alquiler a corto plazo o mapear sitios web de negocios. En geografía física, los datos a menudo se recopilan de sitios web gubernamentales, que pueden no tener acceso estandarizado.
La mayoría de los estudios se enfocan en recolectar datos espaciales, como listados de apartamentos e información climática, junto con sus datos de ubicación relevantes. Por ejemplo, los investigadores han mapeado relaciones entre compañías para demostrar cómo los sitios web y los enlaces conectan diversas entidades.
Fuera de la geografía, el web scraping ha sido utilizado en investigaciones de precios al consumidor para estadísticas oficiales desde hace más de una década. Este enfoque puede ayudar a mapear diferencias de precios regionales. Aunque no es estrictamente geográfico, la investigación sobre precios de alimentos también es un campo relacionado que recientemente ha explorado los beneficios del web scraping.
Los datos recopilados de la web clara, que es accesible para todos, y algunas partes de la deep web, que pueden ser consultadas, han sido el foco de la mayoría de los estudios geográficos. Sin embargo, ninguna investigación geográfica ha explorado aún la dark web, que se ha examinado principalmente por actividades ilegales.
Ventajas del Web Scraping
Los estudios que utilizan web scraping pueden crear nuevos caminos de investigación al ofrecer numerosas ventajas:
Datos a Nivel de Objeto: A diferencia de los datos agregados, que pueden no representar con precisión situaciones individuales, el web scraping permite a los investigadores recopilar información detallada sobre objetos específicos, como propiedades en alquiler. Esta precisión es esencial para muchos análisis geográficos.
Datos en tiempo real: El web scraping a menudo proporciona acceso inmediato a la información más reciente, como listados de alquiler actuales o datos ambientales. Si bien no siempre es necesario para la investigación, tener información oportuna puede mejorar la calidad general de la investigación.
Contenido Generado por Usuarios: El web scraping captura contenido generado por usuarios que puede no estar incluido en registros oficiales. Esta información puede reflejar los intereses y acciones de diferentes grupos, proporcionando un contexto más rico para la investigación.
Evitando Limitaciones de Servicios Web: No todos los datos son proporcionados a través de servicios estandarizados, lo que puede hacer que el scraping sea necesario. Los investigadores pueden recuperar datos públicos que no están disponibles en un formato dado o simplemente optar por el scraping en lugar de acceder a APIs de pago.
Si bien estos beneficios no son universales para todos los escenarios de web scraping, muestran que esta técnica es una valiosa adición a los métodos de recolección de datos tradicionales.
Flujo de Trabajo de Web Scraping
Un proceso típico de web scraping en investigación geográfica requiere atención cuidadosa a los problemas legales y éticos, junto con una evaluación de viabilidad del sitio web en cuestión. Los investigadores deben navegar las estructuras y diseños únicos de diferentes sitios web, lo que puede requerir pruebas y ajustes significativos al software de scraping.
Para los estudios geográficos, es crucial extraer información de ubicación como nombres de lugares, direcciones o coordenadas. Aunque algunos sitios web proporcionan estos datos directamente, también pueden ocultarlos en enlaces o en código que no es fácilmente visible. Esto significa que los investigadores a menudo necesitan usar algoritmos especializados para identificar y extraer esta información.
Además de los datos de ubicación, los investigadores también pueden querer desarrollar relaciones entre varias entidades dentro de los datos. Esto se puede lograr recolectando hipervínculos o nombres asociados con organizaciones. Por ejemplo, al raspar sitios web de compañías, los investigadores podrían reconstruir redes regionales que son relevantes para temas específicos.
Otro aspecto importante del web scraping es reunir atributos adicionales sobre los datos recolectados. Mientras que las herramientas establecidas pueden extraer información de las páginas web según su estructura de codificación, pueden surgir desafíos al trabajar con datos numéricos o textuales que pueden no estar estandarizados.
Los investigadores también necesitan poder manejar los elementos dinámicos de un sitio web, como las interacciones de usuarios requeridas para mostrar contenido relevante. Herramientas como Selenium pueden automatizar procesos de prueba, asegurando que el scraping de datos funcione sin problemas.
Consideraciones Legales y Éticas
Al utilizar datos de terceros obtenidos a través de web scraping, los investigadores deben pensar en cuestiones legales y éticas. Estas preocupaciones están relacionadas con cómo se presenta la información en un sitio web, los términos de uso, las implicaciones de privacidad y cómo el uso de datos impacta a los propietarios y usuarios del sitio.
Problemas Legales
Las leyes sobre web scraping pueden diferir significativamente dependiendo de dónde se accede a los datos. Los desafíos legales comúnmente surgen de problemas de derechos de autor, que requieren que los propietarios de sitios web den permiso antes de que su trabajo pueda ser reproducido.
En muchos casos, el propietario de un sitio web no posee los datos que contiene, especialmente si son generados por usuarios. Puede ser necesario determinar si raspar los datos cae bajo las pautas de "uso justo", que pueden permitir un uso limitado del material para investigación. Los investigadores también deben prestar atención a los archivos robots.txt que indican qué partes de un sitio web se pueden acceder.
El cumplimiento contractual es otra área de enfoque. Raspar datos puede entrar en conflicto con los términos de servicio de un sitio web, particularmente si los usuarios utilizan cuentas falsas para eludir restricciones. Los tribunales tienen diferentes opiniones sobre si esto constituye una violación de contrato.
Además, el scraping repetido de un sitio web puede causar interrupciones en el servicio, lo que lleva a la posible responsabilidad. Afortunadamente, a medida que la tecnología web ha mejorado, este problema se ha vuelto menos significativo.
Problemas Éticos
Incluso cuando el scraping es legalmente permitido, deben abordarse consideraciones éticas. Los problemas éticos importantes incluyen:
Consentimiento Informado: La mayoría de las actividades de web scraping no tienen el consentimiento de las personas cuyos datos están siendo recolectados. Aunque el consentimiento puede no ser siempre requerido, puede ser complicado navegar qué información es privada o pública.
Privacidad: Los investigadores deben considerar si los datos recolectados podrían revelar detalles personales sobre individuos. Es esencial eliminar identificadores para evitar daños y proteger la privacidad de las personas.
Ignorar Restricciones: Algunos investigadores pueden sentirse justificados en ignorar los términos de servicio si los posibles beneficios del scraping se consideran superiores a cualquier preocupación ética. Sin embargo, esto puede llevar a problemas legales, incluso si el investigador cree que sus intenciones son buenas.
Para llevar a cabo una investigación ética, los investigadores deben evaluar cuidadosamente los beneficios y riesgos potenciales asociados con sus prácticas de scraping. Deben tratar de recopilar datos a un nivel agregado en lugar de centrarse en puntos de datos individuales cuando sea posible.
Desafíos Metodológicos
El web scraping se encuentra con una variedad de problemas que pueden afectar la calidad de los datos recopilados. Algunos desafíos surgen del propio proceso de scraping, mientras que otros están vinculados a las características de las fuentes de datos que se están accediendo. Es vital abordar estos desafíos únicos en cada paso de la investigación, desde la recolección de datos y el procesamiento hasta el análisis.
Desafíos Clave
Confiabilidad: La estructura de los sitios web puede cambiar inesperadamente, requiriendo que los investigadores actualicen frecuentemente su software de scraping. Esta necesidad continua de ajuste puede consumir recursos de desarrollo significativos.
Incompletitud: Los datos raspados pueden tener importantes vacíos ya sea debido a problemas técnicos o información incompleta proporcionada por el sitio web. Los investigadores necesitan asegurarse de que sus herramientas pueden manejar formatos inesperados y validar los datos que recopilan.
Ocultamiento de Ubicación: Algunos sitios web intencionalmente ocultan datos de ubicación precisos para proteger la privacidad del usuario. Esto puede llevar a errores en el análisis geográfico debido a la reducción de la precisión en la modelización basada en ubicación.
Personalización de Búsqueda: Los sitios web pueden adaptar contenido basado en información del usuario, afectando la precisión y la completitud de los resultados de búsqueda. Los investigadores pueden mitigar estos efectos imitando diversos comportamientos de usuario, aunque esto plantea cuestiones éticas.
Representatividad: Los datos recolectados a través de web scraping pueden carecer de representación, especialmente si ciertas ofertas no son capturadas completamente. Esto puede distorsionar tendencias y dificultar la reconciliación de datos con estadísticas oficiales.
Inconsistencias Lógicas: Raspar datos por periodos prolongados puede resultar en inconsistencias debido a cambios en los procesos internos de recopilación de datos de una plataforma. Estos cambios a menudo no están documentados y son difíciles de rastrear.
Cobertura Temporal Limitada: Los scrappers pueden no recopilar datos de manera continua, lo que dificulta el acceso a información histórica. Los archivos web tienen algunos recursos, pero no incluyen contenido dinámico que puede ser crucial para la investigación.
Barreras para la Ciencia Abierta: Dependiendo de las leyes que rigen el web scraping, los investigadores pueden no poder compartir sus datos abiertamente, lo que puede obstaculizar la colaboración académica.
Estudio de Caso: Listados de Apartamentos en Leipzig
Para ilustrar el potencial y los desafíos del web scraping, analizaremos los listados de apartamentos de Leipzig, Alemania. El objetivo era recopilar conjuntos de datos que pudieran usarse para enseñar varias técnicas de ciencia de datos geográficos a estudiantes de geografía, vinculando la teoría a aplicaciones prácticas.
Evaluación de Viabilidad
Se examinaron dos plataformas principales de bienes raíces para recopilar datos. ImmoScout24 fue excluido debido a restricciones en la recopilación de datos automatizada. Immowelt, sin embargo, no tenía términos prohibitivos, lo que la hacía adecuada para el scraping.
En el momento del análisis, las dos plataformas tenían conjuntos de listados similares en Leipzig. Dado que no todos los apartamentos son accesibles en plataformas online, puede haber vacíos en los datos recopilados, lo que puede afectar la precisión de las evaluaciones del mercado.
Implementación del Scraper
Después de confirmar la viabilidad, se desarrolló y desplegó un prototipo para raspar listados de apartamentos de Immowelt. Se utilizó R para raspar y extraer información, con la recuperación de datos programada por la noche para minimizar la carga en el servidor. Los scripts estaban diseñados para manejar posibles errores, asegurando una recolección de datos resistente.
Consideraciones de Calidad de Datos
A lo largo del proceso de scraping en 2021, algunos días no se recopilaron datos. Sin embargo, en general, se recuperaron más de 9,900 listados, con un porcentaje significativo aprobando los controles de calidad. La mayoría de la información sobre precios y tamaño era precisa, aunque algunos registros contenían atributos implausibles.
La información de direcciones estaba típicamente completa, pero fueron necesarios ajustes menores para estandarizar los datos. La tasa de éxito para determinar coordenadas para los listados fue alta, reflejando la calidad general de los datos raspados.
Análisis Espacial
En contextos de enseñanza, se utilizaron subconjuntos de los datos para llevar a cabo varios análisis, como el modelado hedónico de precios. Este enfoque permitió a los estudiantes aplicar diferentes técnicas de ciencia de datos geográficos mientras obtenían información de datos del mundo real.
Se utilizó un modelo aditivo generalizado para analizar precios de alquiler por metro cuadrado, con un buen ajuste del modelo. El análisis mostró que los apartamentos más nuevos y aquellos más cercanos al centro de la ciudad tendían a tener precios de alquiler más altos.
Conclusión
La revisión y el estudio de caso destacan que el web scraping es un método valioso para recopilar datos en línea para la investigación geográfica. Aunque presenta múltiples desafíos, también puede proporcionar información crítica sobre la transformación urbana, la dinámica del mercado y los problemas sociales. Los investigadores deben adoptar este enfoque mientras son conscientes de los límites legales, éticos y metodológicos que rigen su uso. La continua exploración del web scraping puede abrir nuevas avenidas para entender la geografía en el paisaje digital de hoy.
Título: Web scraping: a promising tool for geographic data acquisition
Resumen: With much of our lives taking place online, researchers are increasingly turning to information from the World Wide Web to gain insights into geographic patterns and processes. Web scraping as an online data acquisition technique allows us to gather intelligence especially on social and economic actions for which the Web serves as a platform. Specific opportunities relate to near-real-time access to object-level geolocated data, which can be captured in a cost-effective way. The studied geographic phenomena include, but are not limited to, the rental market and associated processes such as gentrification, entrepreneurial ecosystems, or spatial planning processes. Since the information retrieved from the Web is not made available for that purpose, Web scraping faces several unique challenges, several of which relate to location. Ethical and legal issues mainly relate to intellectual property rights, informed consent and (geo-) privacy, and website integrity and contract. These issues also effect the practice of open science. In addition, there are technical and statistical challenges that relate to dependability and incompleteness, data inconsistencies and bias, as well as the limited historical coverage. Geospatial analyses furthermore usually require the automated extraction and subsequent resolution of toponyms or addresses (geoparsing, geocoding). A study on apartment rent in Leipzig, Germany is used to illustrate the use of Web scraping and its challenges. We conclude that geographic researchers should embrace Web scraping as a powerful and affordable digital fieldwork tool while paying special attention to its legal, ethical, and methodological challenges.
Autores: Alexander Brenning, Sebastian Henn
Última actualización: 2023-05-31 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.19893
Fuente PDF: https://arxiv.org/pdf/2305.19893
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.airdna.co/
- https://ec.europa.eu/eurostat/cros/system/files/wpc_deliverable_c1_ess_web-scraping_policy_template_2019_07_15.pdf
- https://arxiv.org/abs/2105.13957
- https://datahippo.org/
- https://datareportal.com/reports/digital-2022-global-overview-report
- https://www.law.com/newyorklawjournal/almID/1202610687621
- https://www.handelsblatt.com/unternehmen/it-medien/immobilienportale-immonet-und-immowelt-fusionieren/11356640.html
- https://docs.ropensci.org/RSelenium/
- https://www.horizont.net/marketing/nachrichten/online-marktplatz-mit-dieser-kampagne-attackiert-ebay-kleinanzeigenimmoscout24-immowelt--co-197229
- https://arxiv.org/abs/2207.01683
- https://insideairbnb.com/
- https://ssrn.com/abstract=3491192
- https://CRAN.R-project.org/package=robotstxt
- https://www.pangaea.de/
- https://www.crummy.com/software/BeautifulSoup/
- https://github.com/tomslee/airbnb-data-collection
- https://www.zensus2022.de/DE/Aktuelles/Zensus_2022_Ergebnisveroeffentlichung_verschiebt_sich_voraussichtlich_in_den_Maerz_2024.html
- https://dan-suciu.medium.com/the-complete-manual-to-legal-ethical-web-scraping-in-2021-3eeae278b334
- https://dev.to/digitallyrajat/the-ultimate-guide-to-legal-and-ethical-web-scraping-in-2022-4c11
- https://www.nytimes.com/2022/04/29/us/2020-census-release.html
- https://CRAN.R-project.org/package=stringr
- https://CRAN.R-project.org/package=rvest