Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Kryptographie und Sicherheit

Wikimedia-Stiftung teilt sicher verbesserte Seitenaufrufdaten

Neue detaillierte Wikipedia-Seitenaufrufstatistiken veröffentlicht mit Datenschutzmassnahmen.

― 6 min Lesedauer


WikipediaWikipediaSeitenaufrufdatenverbessertmit Datenschutzmassnahmen geteilt.Detaillierte Seitenaufruf-Statistiken
Inhaltsverzeichnis

Seit vielen Jahren teilt die Wikimedia Foundation Daten darüber, wie viele Leute täglich jede Wikipedia-Seite besuchen. Diese Infos sind nützlich für Wikipedia-Editoren, um herauszufinden, welche Themen verbessert werden müssen. Sie helfen auch Forschern in verschiedenen Bereichen.

Im Juni 2023 hat die Foundation angefangen, detailliertere Statistiken zu teilen, einschliesslich von wo die Besucher kommen. Um das zu tun und die Daten der Besucher sicher zu halten, nutzen sie eine Methode namens differenzielle Privatsphäre. Diese Methode schützt die Identitäten von Leuten, die Wikipedia durchstöbern oder bearbeiten.

Dieses Dokument erklärt, wie diese Daten geteilt werden, was die Ziele sind, die Schritte, die unternommen wurden, um dorthin zu kommen, und wie die Infos verarbeitet werden. Wikipedia ist eine der meistbesuchten Webseiten weltweit und zieht jedes Jahr Milliarden von Nutzern an. Die Foundation sammelt eine Menge Daten über Seitenbesuche, bekannt als Pageview-Daten.

Seit fast zwei Jahrzehnten bietet die Foundation Zugang zu diesen Pageview-Daten über die Pageview API. Diese Daten sind wertvoll für Editor:innen, um den Einfluss ihrer Arbeit zu verstehen und zu entscheiden, wo sie ihre Verbesserungen fokussieren sollten. Sie sind auch eine nützliche Ressource für akademische Studien und helfen dabei, die Nutzergewohnheiten, das Online-Verhalten und die geteilten Informationen zu beleuchten.

Im Laufe der Zeit haben viele Leute nach detaillierteren Pageview-Daten gefragt, insbesondere nach Daten nach Ländern. Die Foundation wollte diese Anfragen berücksichtigen und gleichzeitig ihre Datenschutzrichtlinien einhalten. Die Wahrung der Nutzerdaten ist wichtig, um die Bewegung für freies Wissen zu unterstützen, da individuelle Nutzer nicht für ihre Surfaktivitäten verfolgt werden sollten.

Die Foundation hat erkannt, dass es nicht ausreicht, die Daten einfach zusammenzufassen, um das Risiko der Identifizierung von Personen zu eliminieren. Daher haben sie beschlossen, differenzielle Privatsphäre zu nutzen, um die detaillierteren Daten zu teilen. Dieser Ansatz ermöglicht es Organisationen, die Risiken beim Teilen von Daten zu reduzieren und zu verstehen.

Der Prozess begann mit einer Zusammenarbeit mit Tumult Labs, um eine neue Datenpipeline zur Datenfreigabe mithilfe von differenzieller Privatsphäre zu entwickeln. Dieses System ist jetzt betriebsbereit und ermöglicht die Veröffentlichung wertvoller Daten über die Nutzung von Wikipedia.

Workflow für die private Datenfreigabe

Die Vorbereitung für die private Datenfreigabe umfasst drei wichtige Phasen: Build, Tune und Deploy.

  1. Build: Der erste Schritt ist, das Problem klar zu definieren und was Erfolg bedeutet. Dazu wird mit den Stakeholdern gesprochen, wie die Daten genutzt werden. Dann wird ein Prototyp erstellt, der hilft, die getroffenen Entscheidungen zu identifizieren und wie diese später für bessere Ergebnisse angepasst werden könnten.

  2. Tune: In dieser Phase experimentiert das Team mit verschiedenen Einstellungen für den Algorithmus. Sie bewerten die Ausgabequalität und optimieren diese anhand der vorher definierten Erfolgsmetriken. Dabei werden Anpassungen vorgenommen, um sicherzustellen, dass die Daten sowohl den Datenschutz- als auch den Nutzungsanforderungen entsprechen.

  3. Deploy: Der letzte Schritt besteht darin, den Algorithmus abzuschliessen und die Daten für die Veröffentlichung vorzubereiten. Es wird Dokumentation für zukünftige Nutzer erstellt, und die Daten werden mit der Öffentlichkeit geteilt.

Gewünschte Ausgabedaten

Das Ziel dieses Projekts ist es, detailliertere Daten bereitzustellen, einschliesslich der täglichen Pageview-Zahlen nach Ländern. Derzeit liefert die Pageview API allgemeine Zahlen, aber das Projekt zielt darauf ab, Statistiken zu teilen, die den Ursprung dieser Besuche widerspiegeln.

Die Eingabedaten stammen aus zwei Hauptquellen:

  1. Aktuelles Pageviews-Dataset: Dieses Dataset umfasst einzelne Pageviews, die in den letzten 90 Tagen erfasst wurden. Da Privatsphäre wichtig ist, werden diese Daten nicht länger gespeichert.

  2. Historisches Pageviews-Dataset: Nach 90 Tagen werden die Daten in stündliche Zähler zusammengefasst, die für zukünftige Nutzung gespeichert werden.

Datenschutzziele

Die Nutzung von differenzieller Privatsphäre bedeutet, zu entscheiden, was in den Daten geschützt werden muss. Bei langfristigen Projekten ist es wichtig, Zeiträume und welche Daten geschützt werden, zu definieren.

Ziel ist es, tägliche Daten zu veröffentlichen, während die Privatsphäre der Nutzer gewahrt bleibt. Wenn ein Nutzer regelmässig dieselbe Seite besucht, könnte sein Verhalten aus den Daten abgeleitet werden. Um dieses Risiko zu mindern, hat das Team strenge Datenschutzparameter gewählt.

Totale Anonymität für jeden einzelnen Nutzer ist unmöglich, deshalb liegt der Fokus darauf, die Gerätebeiträge jeden Tag zu schützen. Für das aktuelle Pageviews-Dataset verwendet das Projekt ein Verfahren, bei dem clientseitiges Zählen hilft, sicherzustellen, dass die Beiträge auf eine angemessene Anzahl begrenzt sind.

Für das historische Pageviews-Dataset können die Nutzerbeiträge nicht begrenzt werden. Stattdessen wird eine bestimmte Anzahl täglicher Pageviews gesichert, um die Nutzer zu schützen, ohne sie direkt zu verknüpfen.

Messung der Genauigkeit

Um sicherzustellen, dass die geteilten Daten genau sind, werden drei Metriken verwendet: relative Fehler, Ausfallrate und falsche Aktivitätsrate.

  1. Relative Fehler: Dies misst, wie viel Rauschen den Zählern während des Datenschutzprozesses hinzugefügt wird. Ziel ist es, dieses Rauschen auf einem handhabbaren Niveau zu halten.

  2. Ausfallrate: Einige niedrige Zähler werden aus den Ausgabedaten entfernt, um sie sauber zu halten. Diese Metrik verfolgt, wie viele Zähler unterdrückt wurden, insbesondere bei populäreren Seiten.

  3. Falsche Aktivitätsrate: Da einige Seiten möglicherweise keine Besuche erhalten, könnte das Hinzufügen von Rauschen zu falschen Aktivitäten führen. Die falsche Aktivitätsrate verfolgt, wie viele Zähler fälschlicherweise als aktiv markiert wurden.

Technische Beschreibung der Algorithmen

Um private Datensätze zu generieren, werden zwei Hauptprozesse genutzt: einer für aktuelle Pageviews und einer für historische Daten.

  1. Algorithmus für aktuelle Pageviews: Dieser Ansatz stellt sicher, dass die Nutzerbeiträge jeden Tag begrenzt sind, sodass das Risiko, das Nutzerverhalten offenzulegen, geringer ist. Dies beinhaltet clientseitiges Filtern, bei dem jedes Nutzergerät seine Beiträge zählt und angibt, welche zur Analyse gesendet werden sollen.

  2. Algorithmus für historische Pageviews: Da die Daten hier bereits zusammengefasst sind, wird das Verfahren nicht auf die Nutzer basierenden Beiträge begrenzen. Stattdessen nutzt es eine andere Einheit der Privatsphäre und fügt Rauschen zu den Summen vor der Veröffentlichung hinzu.

Fazit

Das Projekt zur Veröffentlichung von Wikipedia-Nutzungsdaten hat eine Fülle neuer Informationen hervorgebracht. Durch den Einsatz robuster Datenschutzmassnahmen kann die Wikimedia Foundation detaillierte Einblicke teilen und gleichzeitig die Sicherheit der Nutzer wahren.

Dank dieses Aufwands wurden über 135 Millionen Statistiken veröffentlicht, die Milliarden von Pageviews abdecken. Die Genauigkeitsmetriken zeigen, dass die Qualität dieser Daten akzeptabel ist, wobei die meisten Zähler innerhalb eines angemessenen Fehlerbereichs liegen und nur sehr wenige als aktiv falsch gekennzeichnet wurden.

Die erfolgreiche Integration differenzieller Privatsphäre bietet ein Modell für andere Organisationen, die ein Gleichgewicht zwischen Transparenz und Nutzerdatenschutz anstreben. Während die umfangreichen Datensätze zur Erkundung bereitstehen, wird es spannend sein zu sehen, wie sie in verschiedenen Forschungs- und Praxisbereichen genutzt werden.

Originalquelle

Titel: Publishing Wikipedia usage data with strong privacy guarantees

Zusammenfassung: For almost 20 years, the Wikimedia Foundation has been publishing statistics about how many people visited each Wikipedia page on each day. This data helps Wikipedia editors determine where to focus their efforts to improve the online encyclopedia, and enables academic research. In June 2023, the Wikimedia Foundation, helped by Tumult Labs, addressed a long-standing request from Wikipedia editors and academic researchers: it started publishing these statistics with finer granularity, including the country of origin in the daily counts of page views. This new data publication uses differential privacy to provide robust guarantees to people browsing or editing Wikipedia. This paper describes this data publication: its goals, the process followed from its inception to its deployment, the algorithms used to produce the data, and the outcomes of the data release.

Autoren: Temilola Adeleye, Skye Berghel, Damien Desfontaines, Michael Hay, Isaac Johnson, Cléo Lemoisson, Ashwin Machanavajjhala, Tom Magerlein, Gabriele Modena, David Pujol, Daniel Simmons-Marengo, Hal Triedman

Letzte Aktualisierung: 2023-09-01 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2308.16298

Quell-PDF: https://arxiv.org/pdf/2308.16298

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel