Simple Science

Ciência de ponta explicada de forma simples

# Informática# Criptografia e segurança

Fundação Wikimedia Compartilha Dados de Visualização de Página Melhorados com Segurança

Novas estatísticas detalhadas de visualizações de página da Wikipedia foram divulgadas usando medidas de privacidade.

― 7 min ler


Dados de Visualizações deDados de Visualizações dePáginas da WikipediaMelhoradoscom medidas de privacidade.visualizações de página compartilhadasEstatísticas detalhadas de
Índice

Por muitos anos, a Wikimedia Foundation tem compartilhado dados sobre quantas pessoas visitam cada página da Wikipedia diariamente. Essa informação é útil para os editores da Wikipedia entenderem quais tópicos precisam de melhorias. Também ajuda pesquisadores de várias áreas.

Em junho de 2023, a fundação começou a compartilhar estatísticas mais detalhadas, incluindo de onde vêm os visitantes. Para fazer isso, enquanto mantém as informações dos visitantes seguras, eles usaram um método chamado Privacidade Diferencial. Esse método ajuda a proteger as identidades das pessoas que estão navegando ou editando a Wikipedia.

Esse documento explica como esses dados são compartilhados, quais são os objetivos, as etapas necessárias para chegar lá e como a informação é processada. A Wikipedia é um dos sites mais visitados do mundo, atraindo bilhões de usuários todo ano. A fundação coleta muitos dados sobre visitas às páginas, conhecidos como dados de visualização de páginas.

Por quase duas décadas, a fundação tem fornecido acesso a esses dados de visualização através da Pageview API. Esses dados são valiosos para os editores entenderem o impacto do trabalho deles e decidirem onde focar as melhorias. Também é um recurso útil para estudos acadêmicos, ajudando a esclarecer hábitos de usuários, comportamento online e informações compartilhadas.

Com o tempo, muita gente pediu dados de visualização de páginas mais detalhados, principalmente por país. A fundação queria atender a esses pedidos, mas mantendo sua política de privacidade. Manter os dados dos usuários privados é essencial para apoiar o movimento de conhecimento livre, já que as pessoas não devem ser rastreadas por suas atividades de navegação.

A fundação percebeu que apenas resumir os dados não elimina o risco de identificar indivíduos. Então, decidiram usar a privacidade diferencial para compartilhar os dados mais detalhados. Essa abordagem permite que organizações reduzam e entendam os riscos associados ao compartilhamento de dados.

O processo começou com a colaboração com a Tumult Labs para desenvolver um novo pipeline de compartilhamento de dados usando privacidade diferencial. Esse sistema já está em operação, permitindo a liberação de insights valiosos sobre o uso da Wikipedia.

Fluxo de Trabalho para Compartilhar Dados de Forma Privada

A preparação para compartilhar dados de forma privada envolve três etapas principais: Construir, Ajustar e Implantar.

  1. Construir: O primeiro passo é definir claramente o problema e como o sucesso se parece. Isso é feito conversando com as partes interessadas sobre como os dados serão usados. Em seguida, um protótipo é criado, o que ajuda a identificar as escolhas feitas e como elas podem ser ajustadas mais tarde para melhores resultados.

  2. Ajustar: Nessa fase, a equipe experimenta diferentes configurações para o algoritmo. Eles avaliam a qualidade do output e otimizam usando as métricas de sucesso definidas anteriormente. Isso envolve fazer ajustes para garantir que os dados atendam às necessidades de privacidade e utilidade.

  3. Implantar: O passo final é finalizar o algoritmo e preparar os dados para publicação. Documentação é criada para futuros usuários, e os dados são compartilhados com o público.

Dados de Saída Desejados

O objetivo desse projeto é fornecer dados mais detalhados, incluindo contagens diárias de visualizações de páginas por país. Atualmente, a Pageview API fornece contagens gerais, mas o projeto visa compartilhar estatísticas que reflitam a origem dessas visitas.

Os dados de entrada vêm de duas fontes principais:

  1. Conjunto de Dados de Visualizações Atuais: Esse conjunto inclui visualizações individuais registradas nos últimos 90 dias. Como a privacidade é vital, esses dados não são mantidos por mais tempo.

  2. Conjunto de Dados de Visualizações Históricas: Após 90 dias, os dados são resumidos em contagens horárias que são armazenadas para uso futuro.

Objetivos de Privacidade

Usar privacidade diferencial significa decidir o que precisa ser protegido nos dados. Para projetos de longo prazo, é essencial definir períodos de tempo e quais dados estão protegidos.

O objetivo é liberar dados diários enquanto mantém a privacidade dos usuários intacta. Se um usuário visita regularmente a mesma página, seu comportamento pode ser inferido a partir dos dados. Para mitigar esse risco, a equipe escolheu parâmetros de privacidade rigorosos.

A anonimidade total de cada usuário individual é impossível, então o foco está em proteger as contribuições dos dispositivos a cada dia. Para o conjunto de dados de visualizações atuais, o projeto usa um método onde a contagem do lado do cliente ajuda a garantir que as contribuições sejam limitadas a um número razoável.

Para o conjunto de dados de visualizações históricas, as contribuições dos usuários não podem ser limitadas. Em vez disso, um número fixo de visualizações diárias é garantido para proteger os usuários sem vinculá-los diretamente.

Medindo a Precisão

Para garantir que os dados compartilhados sejam precisos, três métricas são usadas: erro relativo, taxa de supressão e taxa espúria.

  1. Erro Relativo: Mede quanto ruído é adicionado às contagens durante o processo de privacidade. O objetivo é manter esse ruído em um nível administrável.

  2. Taxa de Supressão: Algumas contagens baixas são removidas dos dados de saída para mantê-los limpos. Essa métrica rastreia quantas contagens foram suprimidas, especialmente entre páginas mais populares.

  3. Taxa Espúria: Como algumas páginas podem não receber visitas, adicionar ruído pode resultar em atividades falsas sendo relatadas. A taxa espúria rastreia quantas contagens foram marcadas incorretamente como ativas.

Descrição Técnica dos Algoritmos

Para gerar contagens de dados privadas, dois processos principais são utilizados: um para visualizações atuais e um para dados históricos.

  1. Algoritmo de Visualizações Atuais: Essa abordagem garante que as contribuições dos usuários sejam limitadas a cada dia, assim há menos risco de expor o comportamento do usuário. Envolve filtragem do lado do cliente, onde cada dispositivo do usuário conta suas contribuições e indica quais devem ser enviadas para análise.

  2. Algoritmo de Visualizações Históricas: Aqui, como os dados já estão resumidos, o método não limita as contribuições com base nos usuários. Em vez disso, usa uma unidade de privacidade diferente e adiciona ruído às somas antes da publicação.

Conclusão

O projeto para publicar dados de uso da Wikipedia resultou em uma riqueza de novas informações. Ao empregar medidas robustas de privacidade, a Wikimedia Foundation pode compartilhar insights detalhados enquanto mantém a segurança dos usuários.

Graças a esse esforço, mais de 135 milhões de estatísticas foram liberadas, cobrindo bilhões de visualizações de páginas. As Métricas de Precisão mostram que a qualidade desses dados é aceitável, com a maioria das contagens dentro de uma faixa de erro razoável e muito poucas contagens sendo marcadas incorretamente como ativas.

A integração bem-sucedida da privacidade diferencial oferece um modelo para outras organizações que buscam equilibrar transparência com privacidade do usuário. À medida que os vastos conjuntos de dados se tornam disponíveis para exploração, será fascinante ver como serão utilizados em várias áreas de pesquisa e prática.

Fonte original

Título: Publishing Wikipedia usage data with strong privacy guarantees

Resumo: For almost 20 years, the Wikimedia Foundation has been publishing statistics about how many people visited each Wikipedia page on each day. This data helps Wikipedia editors determine where to focus their efforts to improve the online encyclopedia, and enables academic research. In June 2023, the Wikimedia Foundation, helped by Tumult Labs, addressed a long-standing request from Wikipedia editors and academic researchers: it started publishing these statistics with finer granularity, including the country of origin in the daily counts of page views. This new data publication uses differential privacy to provide robust guarantees to people browsing or editing Wikipedia. This paper describes this data publication: its goals, the process followed from its inception to its deployment, the algorithms used to produce the data, and the outcomes of the data release.

Autores: Temilola Adeleye, Skye Berghel, Damien Desfontaines, Michael Hay, Isaac Johnson, Cléo Lemoisson, Ashwin Machanavajjhala, Tom Magerlein, Gabriele Modena, David Pujol, Daniel Simmons-Marengo, Hal Triedman

Última atualização: 2023-09-01 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.16298

Fonte PDF: https://arxiv.org/pdf/2308.16298

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes