Die Rolle von ccTLDs in der Online-Forschung
Untersuchen, wie ccTLDs die lokale Präsenz im Web beeinflussen.
― 8 min Lesedauer
Inhaltsverzeichnis
- Die Bedeutung von ccTLDs
- Herausforderungen beim Zugriff auf ccTLDs
- Öffentliche Datenquellen
- Sammlung von Domainnamen
- Ergebnisse zur Domainabdeckung
- Beiträge individueller Datenquellen
- Aktive Webpräsenz
- Aktualität der Daten
- Verallgemeinerung der Ergebnisse auf andere ccTLDs
- Empfehlungen für Domain-Registrierungen
- Fazit
- Nächste Schritte für die Forschung
- Originalquelle
- Referenz Links
Domainnamen sind wichtig, um auf Websites zuzugreifen. Sie ermöglichen es den Nutzern, Informationen online zu finden, ohne sich komplizierte Zahlenadressen merken zu müssen. Es gibt jedoch verschiedene Arten von Domainnamen, einschliesslich länderspezifischer Top-Level-Domains (ccTLDs), die bestimmte Länder repräsentieren. Leider werden in vielen Internetstudien diese ccTLDs oft übersehen, was zu einem unvollständigen Bild der globalen Webpräsenz führt.
In den letzten Jahren haben Forscher begonnen, nach Möglichkeiten zu suchen, ccTLDs in ihre Studien einzubeziehen. Diese Bemühungen können helfen, zu verstehen, wie vielfältig das Web wirklich ist. Eine Möglichkeit, Informationen über ccTLDs zu sammeln, besteht darin, öffentliche Datenquellen zu nutzen, die registrierte Domainnamen verfolgen. Dieser Artikel diskutiert, wie Forscher ccTLDs mit öffentlichen Daten analysieren können und was sie bisher herausgefunden haben.
Die Bedeutung von ccTLDs
ccTLDs sind die Domainnamen, die mit einer länderspezifischen Endung enden, wie .uk für das Vereinigte Königreich oder .ca für Kanada. Jedes Land verwaltet seine eigene ccTLD, die lokale Online-Aktivitäten und Kultur widerspiegeln kann. Wenn Forscher ccTLDs aus ihren Daten ausschliessen, verpassen sie wichtige Aspekte der Online-Welt.
Viele Länder haben aktive und reiche lokale Websites, die entscheidend sind, um die Internetlandschaft zu verstehen. Ohne diese Domains können Studien voreingenommen sein, was zu Verallgemeinerungen führen kann, die nicht alle Regionen repräsentieren. Durch die Einbeziehung von ccTLDs können Forscher ein vollständigeres Bild davon gewinnen, wie die Leute das Web nutzen.
Herausforderungen beim Zugriff auf ccTLDs
Trotz ihrer Bedeutung kann das Obtaining von Daten über ccTLDs herausfordernd sein. Der Zugang zu umfassenden Listen von Domains unter ccTLDs ist nicht immer einfach. In einigen Fällen müssen Forscher einen langen Prozess durchlaufen, um diese Daten zu erhalten, was das Kontaktieren von Domain-Registrierungsstellen und das Unterzeichnen strenger Vereinbarungen einschliessen kann.
Infolgedessen verlassen sich viele Studien oft auf zugänglichere Quellen, die sich häufig auf generische Top-Level-Domains (gTLDs) wie .com oder .org konzentrieren. Auch wenn diese Domains weit verbreitet sind, erfassen sie nicht die Vielfalt des lokalen Webs in verschiedenen Ländern.
Öffentliche Datenquellen
Um diese Herausforderungen zu bewältigen, wenden sich Forscher öffentlichen Datenquellen zu. Zwei wichtige Ressourcen sind die Certificate Transparency (CT) Logs und die Common Crawl-Daten. Diese Quellen können wertvolle Informationen über ccTLDs bereitstellen, ohne den langen Zugriffprozess.
Certificate Transparency (CT) Logs
CT-Logs sind Aufzeichnungen von SSL/TLS-Zertifikaten, die für sichere Websites ausgestellt werden. Wenn ein Website-Besitzer seine Seite sichern will, muss er ein Zertifikat erhalten, das dann öffentlich protokolliert wird. Das bedeutet, dass jeder auf diese Protokolle zugreifen kann, um zu sehen, welche Domainnamen für sichere Seiten registriert wurden. Diese Protokolle sind immer wichtiger geworden, da die Nutzung sicherer Verbindungen zugenommen hat.
CT-Logs bieten eine praktikable Möglichkeit zur Sammlung von Domainnamen, da viele Organisationen verpflichtet sind, ihre Zertifikate zu protokollieren, um den Richtlinien der grossen Browser zu entsprechen. Das macht CT-Logs zu einer reichen Quelle für Domainnamen-Daten.
Common Crawl-Daten
Common Crawl ist eine gemeinnützige Organisation, die das Web crawlt und grosse Mengen an Daten sammelt. Diese Daten enthalten Informationen über Webseiten und Domainnamen. Die Organisation aktualisiert regelmässig ihr Datenset, was sie zu einer wertvollen Ressource für Forscher macht, die das Web über die Zeit analysieren möchten.
Common Crawl konzentriert sich auf die Indizierung von Webinhalten und kann Informationen über Millionen von Domainnamen bereitstellen, einschliesslich derjenigen unter ccTLDs. Die Kombination von Daten aus CT-Logs und Common Crawl ermöglicht es Forschern, Einblicke in lokale Web-Domains zu erhalten, die sonst verborgen bleiben würden.
Sammlung von Domainnamen
In ihrer Studie sammelten Forscher Domainnamen aus CT-Logs und Common Crawl-Daten, um eine umfassende Datenbank zu erstellen. Dadurch wollten sie diese Namen mit einer bekannten Basis vergleichen, die tatsächliche Domainlisten aus ccTLD-Zonen umfasst.
Die Forscher konzentrierten sich auf 19 spezifische ccTLDs, um zu untersuchen, wie viel Abdeckung sie durch Öffentliche Daten erreichen könnten. Sie wollten sehen, ob öffentliche Daten als zuverlässige Proxy für das Verständnis der Webpräsenz dieser ccTLDs dienen könnten.
Ergebnisse zur Domainabdeckung
Die Ergebnisse zeigten, dass öffentliche Daten einen signifikanten Teil der ccTLD-Domains abdecken können. Die Forscher fanden heraus, dass die Abdeckung für die untersuchten ccTLDs zwischen 43% und 80% lag. Das bedeutet, dass sie durch die Nutzung öffentlicher Quellen eine beträchtliche Anzahl aktiver Domainnamen innerhalb dieser länderspezifischen Domains identifizieren konnten.
Die Abdeckung nahm zudem mit der Zeit zu, da immer mehr Domaininhaber begannen, ihre Seiten zu sichern und ihre Zertifikate zu registrieren. Dieser Aufwärtstrend zeigt, dass öffentliche Datenquellen immer nützlicher werden, um die lokale Webpräsenz zu erfassen.
Beiträge individueller Datenquellen
Bei der Analyse, wie viel jeder öffentliche Datenquelle zur gesamten Abdeckung beitrug, fanden die Forscher heraus, dass CT-Logs eine entscheidende Rolle spielten. Diese lieferten die Mehrheit der Domainnamen, während die Common Crawl-Daten diese Abdeckung ergänzten.
Zum Beispiel war 2023 eine erhebliche Anzahl von Domainnamen nur über CT-Logs verfügbar. Das unterstreicht die Bedeutung der Nutzung mehrerer Datenquellen, um ein vollständiges Verständnis der Weblandschaft zu gewinnen.
Aktive Webpräsenz
Die Forscher untersuchten auch, ob die aus öffentlichen Quellen gesammelten Domainnamen aktiv im Web genutzt wurden. Indem sie nach spezifischen Aufzeichnungen suchten und nach offenen Webports scannen, konnten sie die aktive Nutzung dieser Domains feststellen.
Sie fanden heraus, dass ein überwältigender Teil der aus öffentlichen Quellen erhaltenen Domains eine aktive Webpräsenz hatte. Das entspricht der Erwartung, dass die meisten registrierten Domainnamen tatsächlich verwendet werden, um Inhalte im Web zu hosten.
Aktualität der Daten
Ein weiterer Aspekt, den die Forscher untersuchten, war, wie schnell neu registrierte Domainnamen in öffentlichen Datenquellen erschienen. Sie entdeckten, dass viele neu erstellte Domains innerhalb eines Tages nach der Registrierung in CT-Logs auftauchten, wobei die meisten innerhalb von fünf Tagen protokolliert wurden. Diese zeitgerechte Aufzeichnung macht CT-Logs zu einer wertvollen Ressource für die Verfolgung neuer Domains.
Verallgemeinerung der Ergebnisse auf andere ccTLDs
Trotz des Fokus auf eine begrenzte Auswahl an ccTLDs glaubten die Forscher, dass ihre Ergebnisse breiter anwendbar sein könnten. Sie erweiterten ihre Analyse auf generische Top-Level-Domains (gTLDs), um ihre Schlussfolgerungen weiter zu validieren. Sie fanden ähnliche Muster in den Abdeckungsraten, was darauf hinweist, dass die aus öffentlichen Quellen gewonnenen Erkenntnisse auch für andere ccTLDs relevant sein könnten.
Empfehlungen für Domain-Registrierungen
Basierend auf ihren Ergebnissen forderten die Forscher mehr Transparenz von den ccTLD-Registrierungsstellen. Sie schlugen vor, die Domainlisten öffentlich zugänglicher zu machen, um der Forschungsgemeinschaft zu helfen und ein klareres Bild der Weblandschaft zu schaffen. Einige Registrierungsstellen haben ihre Daten bereits öffentlich gemacht, und andere könnten dem Beispiel folgen, um bessere Online-Forschung zu unterstützen.
Fazit
Zusammenfassend hebt die Studie die Bedeutung von ccTLDs für das Verständnis des Webs hervor. Durch die Nutzung öffentlicher Datenquellen wie CT-Logs und Common Crawl können Forscher wertvolle Einblicke in lokale Webpräsenz gewinnen, die sonst übersehen würden. Die Ergebnisse zeigen, dass öffentliche Daten effektiv einen signifikanten Teil der aktiven Domains unter ccTLDs erfassen können, und diese Abdeckung nimmt stetig zu.
Während das Internet weiterhin wächst, ist es entscheidend, die Registrierung von Domains und die Webpräsenz zu verfolgen, um die Vielfalt der Online-Aktivitäten zu verstehen. Durch die Förderung der Zusammenarbeit zwischen Forschern und ccTLD-Registrierungsstellen können wir unser Wissen über das Web verbessern und sicherstellen, dass lokale Stimmen im digitalen Raum gehört werden.
Nächste Schritte für die Forschung
Ausblickend sind die Forscher gespannt darauf, ihre Arbeit an ccTLDs fortzusetzen und weitere öffentliche Quellen zu erkunden. Sie beabsichtigen, ihre konsolidierten Datensätze der Gemeinschaft zur Verfügung zu stellen, um das Verständnis des komplexen Netzes von Domainnamen weltweit zu erweitern. Durch das Teilen dieser Informationen hoffen sie, zu laufenden Diskussionen über Webvielfalt, Zugang und die Rolle lokaler Kulturen bei der Gestaltung des Internets beizutragen.
Die Bedeutung der Verfolgung von ccTLDs kann nicht hoch genug eingeschätzt werden. Während immer mehr Länder und Regionen online innovieren, bleibt der Bedarf an umfassenden Daten eine Priorität. Die Zusammenarbeit mit öffentlichen Quellen und die Förderung von Offenheit unter den Registrierungsstellen werden den Forschern helfen, ein vollständigeres Bild des Webs zu erstellen, wovon alle Beteiligten profitieren.
Während das Web wächst und sich anpasst, werden die Erkenntnisse aus der ccTLD-Forschung als Grundlage für zukünftige Studien dienen, um zu helfen, das Verständnis dafür zu formen, wie Menschen online über verschiedene Kulturen und Regionen hinweg miteinander verbunden sind.
Titel: This Is a Local Domain: On Amassing Country-Code Top-Level Domains from Public Data
Zusammenfassung: Domain lists are a key ingredient for representative censuses of the Web. Unfortunately, such censuses typically lack a view on domains under country-code top-level domains (ccTLDs). This introduces unwanted bias: many countries have a rich local Web that remains hidden if their ccTLDs are not considered. The reason ccTLDs are rarely considered is that gaining access -- if possible at all -- is often laborious. To tackle this, we ask: what can we learn about ccTLDs from public sources? We extract domain names under ccTLDs from 6 years of public data from Certificate Transparency logs and Common Crawl. We compare this against ground truth for 19 ccTLDs for which we have the full DNS zone. We find that public data covers 43%-80% of these ccTLDs, and that coverage grows over time. By also comparing port scan data we then show that these public sources reveal a significant part of the Web presence under a ccTLD. We conclude that in the absence of full access to ccTLDs, domain names learned from public sources can be a good proxy when performing Web censuses.
Autoren: Raffaele Sommese, Roland van Rijswijk-Deij, Mattijs Jonker
Letzte Aktualisierung: 2023-09-04 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2309.01441
Quell-PDF: https://arxiv.org/pdf/2309.01441
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.