El papel de los ccTLD en la investigación en línea
Examinando cómo los ccTLDs moldean la presencia local de la web.
― 9 minilectura
Tabla de contenidos
- La importancia de los ccTLD
- Desafíos para acceder a ccTLD
- Fuentes de datos públicas
- Recopilando nombres de dominio
- Hallazgos sobre la cobertura de dominios
- Contribuciones de fuentes de datos individuales
- Presencia activa en la web
- Oportunidad de los datos
- Generalizando hallazgos a otros ccTLD
- Recomendaciones para los registros de dominios
- Conclusión
- Próximos pasos para la investigación
- Fuente original
- Enlaces de referencia
Los nombres de dominio son esenciales para acceder a sitios web. Permiten a los usuarios encontrar información en línea sin tener que recordar direcciones numéricas complicadas. Sin embargo, hay diferentes tipos de nombres de dominio, incluyendo los dominios de nivel superior de código de país (ccTLD) que representan países específicos. Desafortunadamente, muchos estudios sobre Internet a menudo pasan por alto estos ccTLD, lo que lleva a una imagen incompleta de la presencia global en la web.
En los últimos años, los investigadores han comenzado a buscar maneras de incluir ccTLD en sus estudios. Este esfuerzo puede ayudar a entender cuán diversa es realmente la web. Una forma de recopilar información sobre ccTLD es utilizar fuentes de datos públicas que rastrean nombres de dominio registrados. Este artículo habla sobre cómo los investigadores pueden analizar ccTLD utilizando Datos Públicos y lo que han encontrado hasta ahora.
La importancia de los ccTLD
Los ccTLD son los nombres de dominio que terminan con una extensión específica del país, como .uk para el Reino Unido o .ca para Canadá. Cada país gestiona su propio ccTLD, que puede reflejar actividades locales en línea y cultura. Cuando los investigadores excluyen los ccTLD de sus datos, se pierden aspectos significativos del mundo en línea.
Muchos países tienen sitios web locales activos y ricos que son cruciales para entender el paisaje de Internet. Sin estos dominios, los estudios pueden estar sesgados, llevando a generalizaciones que no representan todas las regiones. Al incorporar ccTLD, los investigadores pueden obtener una visión más completa de cómo las personas usan la web.
Desafíos para acceder a ccTLD
A pesar de su importancia, obtener datos sobre ccTLD puede ser complicado. El acceso a listas completas de dominios bajo ccTLD no siempre es sencillo. En algunos casos, los investigadores deben pasar por un proceso largo para conseguir estos datos, lo que puede incluir contactar a los registros de dominio y firmar acuerdos estrictos.
Como resultado, muchos estudios tienden a depender de fuentes más accesibles, que a menudo se enfocan en dominios de nivel superior genéricos (gTLD) como .com o .org. Aunque estos dominios se usan mucho, no capturan la diversidad de la web local en diferentes países.
Fuentes de datos públicas
Para abordar estos desafíos, los investigadores están recurriendo a fuentes de datos públicas. Dos recursos clave son los registros de Transparencia de Certificados (CT) y los datos de Common Crawl. Estas fuentes pueden proporcionar información valiosa sobre ccTLD sin el largo proceso de acceso.
Registros de Transparencia de Certificados (CT)
Los registros CT son registros de certificados SSL/TLS que se emiten para sitios web seguros. Cuando un propietario de un sitio web quiere asegurar su sitio, necesita obtener un certificado, que luego se registra públicamente. Esto significa que cualquiera puede acceder a estos registros para ver qué nombres de dominio se han registrado para sitios seguros. Estos registros han cobrado cada vez más importancia a medida que ha crecido el uso de conexiones seguras.
Los registros CT proporcionan una forma viable de recopilar nombres de dominio, ya que muchas organizaciones están obligadas a registrar sus certificados para cumplir con las políticas de los principales navegadores. Esto convierte a los registros CT en una rica fuente de datos de nombres de dominio.
Datos de Common Crawl
Common Crawl es una organización sin fines de lucro que rastrea la web y recopila grandes cantidades de datos. Estos datos incluyen información sobre páginas web y nombres de dominio. La organización actualiza regularmente su conjunto de datos, lo que lo convierte en un recurso valioso para investigadores que buscan analizar la web a lo largo del tiempo.
Common Crawl se centra en indexar contenido web y puede proporcionar información sobre millones de nombres de dominio, incluidos los que están bajo ccTLD. La combinación de datos de los registros CT y de Common Crawl permite a los investigadores obtener información sobre dominios web locales que de otro modo permanecerían ocultos.
Recopilando nombres de dominio
En su estudio, los investigadores recopilaron nombres de dominio tanto de los registros CT como de los datos de Common Crawl para crear una base de datos completa. Al hacerlo, pretendían comparar estos nombres con una línea base conocida, que incluye listas de dominios reales de zonas ccTLD.
Los investigadores se enfocaron en 19 ccTLD específicos para investigar cuánto alcance podían lograr a través de datos públicos. Quisieron ver si los datos públicos podrían servir como un proxy confiable para entender la presencia web asociada con estos ccTLD.
Hallazgos sobre la cobertura de dominios
Los resultados mostraron que los datos públicos pueden cubrir una parte significativa de los dominios ccTLD. Los investigadores encontraron que la cobertura variaba entre el 43% y el 80% para los ccTLD que estudiaron. Esto significa que, usando fuentes públicas, pudieron identificar una cantidad considerable de nombres de dominio activos dentro de estos dominios específicos del país.
La cobertura también aumentó con el tiempo, a medida que más propietarios de dominios comenzaron a asegurar sus sitios y registrar sus certificados. Esta tendencia indica que las fuentes de datos públicas están siendo cada vez más útiles para capturar la presencia local en la web.
Contribuciones de fuentes de datos individuales
Al analizar cuánto contribuyó cada fuente de datos pública a la cobertura general, los investigadores encontraron que los registros CT desempeñaron un papel crucial. Proporcionaron la mayoría de los nombres de dominio, mientras que los datos de Common Crawl complementaron esta cobertura.
Por ejemplo, en 2023, un número significativo de nombres de dominio solo estaba disponible a través de los registros CT. Esto enfatiza la importancia de usar múltiples fuentes de datos para obtener una comprensión completa del paisaje web.
Presencia activa en la web
Los investigadores también investigaron si los nombres de dominio obtenidos de fuentes públicas estaban activos en la web. Al verificar la presencia de registros específicos y escanear puertos web abiertos, pudieron determinar el uso activo de estos dominios.
Descubrieron que una gran mayoría de los dominios obtenidos de fuentes públicas tenían presencia activa en la web. Esto coincide con la expectativa de que la mayoría de los nombres de dominio registrados se están utilizando efectivamente para alojar contenido en la web.
Oportunidad de los datos
Otro aspecto que investigaron los investigadores fue qué tan rápido aparecían los nombres de dominio recién registrados en las fuentes de datos públicas. Descubrieron que muchos dominios recién creados aparecían en los registros CT dentro de un día de su registro, siendo la mayoría registrados en cinco días. Este registro oportuno hace de los registros CT un recurso valioso para rastrear nuevos dominios.
Generalizando hallazgos a otros ccTLD
A pesar de centrarse en una selección limitada de ccTLD, los investigadores creían que sus hallazgos podrían aplicarse de manera más amplia. Ampliaron su análisis a dominios de nivel superior genéricos (gTLD) para validar aún más sus conclusiones. Encontraron patrones similares en las tasas de cobertura, lo que indica que las perspectivas obtenidas de fuentes públicas podrían ser relevantes para otros ccTLD también.
Recomendaciones para los registros de dominios
Basándose en sus hallazgos, los investigadores pidieron más transparencia a los registros de ccTLD. Sugerieron que hacer listas de dominios más accesibles públicamente beneficiaría a la comunidad investigadora y proporcionaría una imagen más clara del paisaje web. Algunos registros ya han hecho sus datos públicos, y otros podrían seguir su ejemplo para apoyar una mejor investigación en línea.
Conclusión
En conclusión, el estudio resalta la importancia de los ccTLD para entender la web. Al utilizar fuentes de datos públicas como los registros CT y Common Crawl, los investigadores pueden obtener información valiosa sobre las presencias web locales que de otro modo se pasarían por alto. Los hallazgos indican que los datos públicos pueden capturar efectivamente una parte significativa de los dominios activos bajo ccTLD, y esta cobertura está aumentando constantemente.
A medida que Internet continúa evolucionando, es esencial hacer un seguimiento de las registraciones de dominios y la presencia en la web para entender la diversidad de las actividades en línea. Al fomentar la colaboración entre investigadores y registros de ccTLD, podemos mejorar nuestro conocimiento sobre la web y asegurar que las voces locales sean escuchadas en el espacio digital.
Próximos pasos para la investigación
Mirando hacia el futuro, los investigadores están ansiosos por continuar su trabajo sobre ccTLD y explorar fuentes públicas adicionales. Su objetivo es liberar sus conjuntos de datos consolidados a la comunidad, avanzando en el esfuerzo por entender la intrincada red de nombres de dominio en todo el mundo. Al compartir esta información, esperan contribuir a las discusiones en curso sobre la diversidad web, el acceso y el papel de las culturas locales en la configuración de Internet.
La importancia de rastrear ccTLD no puede subestimarse. A medida que más países y regiones continúan innovando en línea, la necesidad de datos completos sigue siendo una prioridad. Involucrarse con fuentes públicas y fomentar la apertura entre los registros ayudará a los investigadores a construir una imagen más completa de la web, beneficiando a todos los involucrados.
A medida que la web crece y se adapta, las ideas obtenidas de la investigación sobre ccTLD servirán como base para futuros estudios, ayudando a dar forma a la comprensión de cómo las personas se conectan en línea a través de diferentes culturas y regiones.
Título: This Is a Local Domain: On Amassing Country-Code Top-Level Domains from Public Data
Resumen: Domain lists are a key ingredient for representative censuses of the Web. Unfortunately, such censuses typically lack a view on domains under country-code top-level domains (ccTLDs). This introduces unwanted bias: many countries have a rich local Web that remains hidden if their ccTLDs are not considered. The reason ccTLDs are rarely considered is that gaining access -- if possible at all -- is often laborious. To tackle this, we ask: what can we learn about ccTLDs from public sources? We extract domain names under ccTLDs from 6 years of public data from Certificate Transparency logs and Common Crawl. We compare this against ground truth for 19 ccTLDs for which we have the full DNS zone. We find that public data covers 43%-80% of these ccTLDs, and that coverage grows over time. By also comparing port scan data we then show that these public sources reveal a significant part of the Web presence under a ccTLD. We conclude that in the absence of full access to ccTLDs, domain names learned from public sources can be a good proxy when performing Web censuses.
Autores: Raffaele Sommese, Roland van Rijswijk-Deij, Mattijs Jonker
Última actualización: 2023-09-04 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.01441
Fuente PDF: https://arxiv.org/pdf/2309.01441
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.