Simple Science

Ciência de ponta explicada de forma simples

# Informática# Criptografia e segurança# Bases de dados

Equilibrando a Privacidade dos Dados e as Insumos de Transporte

As cidades ganham dados de transporte importantes enquanto lidam com preocupações de privacidade.

― 7 min ler


Privacidade na Coleta dePrivacidade na Coleta deDados de Transportesobre o transporte.usuários enquanto coletam informaçõesAs cidades protegem os dados dos
Índice

Cidades ao redor do mundo estão tentando reduzir suas emissões de carbono. Pra tomar decisões informadas, elas precisam de dados precisos sobre como as pessoas se movem usando diferentes tipos de transporte. O Google tem uma ferramenta chamada Environmental Insights Explorer (EIE) que coleta e compartilha esse tipo de dado. O EIE reúne informações sobre como as pessoas viajam em mais de 2.400 cidades e fornece insights sobre as emissões relacionadas ao transporte. Isso ajuda os governos locais a definir metas para reduzir as emissões e planejar sistemas de transporte melhores.

Porém, coletar dados sobre o movimento humano levanta preocupações sobre privacidade. A galera quer usar esses dados valiosos, mas não quer que suas informações pessoais sejam reveladas. Pra resolver isso, o Google tá usando técnicas de privacidade que anonimizar os dados, enquanto ainda permite que as cidades consigam insights úteis.

O Desafio da Privacidade de Dados

Quando compartilha dados sobre mobilidade humana, é importante equilibrar acessibilidade e privacidade. O desafio é garantir que nenhuma informação pessoal seja exposta, mas ainda assim tornar os dados úteis. Por exemplo, se os dados sobre transporte forem compartilhados, isso deve ser feito de uma forma que proteja a privacidade dos usuários. O Google quer enfrentar esse desafio usando um método chamado Privacidade Diferencial (DP), que adiciona ruído aos dados pra evitar identificação de registros individuais.

A privacidade diferencial funciona permitindo acesso a padrões gerais nos dados sem revelar informações específicas dos usuários. Dessa forma, mesmo que alguns dados brutos sejam perdidos, as tendências gerais ainda podem ser entendidas. O objetivo é fornecer Dados Agregados úteis (por exemplo, a distância total percorrida) sem divulgar as viagens de indivíduos específicos.

Como os Dados Funcionam

O EIE coleta dados de pessoas que optaram por usar o Google Local History em seus smartphones. Os usuários podem permitir que o Google rastreie seus movimentos. Esses dados incluem informações sobre como eles viajam, seja de carro, de bike, a pé, ou de transporte público. Cada viagem registrada pelo app inclui a localização de partida, destino, modo de transporte, distância percorrida e tempo gasto.

Pra proteger a privacidade, os dados são processados localmente nos dispositivos dos usuários antes de serem enviados pro servidor. O servidor só vê dados agregados, o que reforça ainda mais a anonimidade. Esse processo permite coletar uma grande quantidade de dados enquanto protege as informações pessoais.

Agregando Dados pra Insights Úteis

Os dados do EIE são desmembrados em estatísticas úteis, tipo o número de viagens feitas usando cada método de transporte em áreas específicas. Isso também inclui quão longe as pessoas viajaram e quanto dióxido de carbono (CO2) elas geraram durante essas viagens. Analisando esses dados, as cidades podem entender quais métodos de transporte são mais usados e como eles contribuem pras emissões.

Cada semana, o objetivo é gerar novas estatísticas com base nos dados coletados dos usuários naquela semana específica. Pra cada combinação de região, direção e modo de transporte, três métricas-chave são fornecidas: o número de viagens realizadas, a distância total percorrida e a duração total das viagens. Essas métricas ajudam as cidades a acompanhar seu progresso em direção às metas de redução de emissões.

Comparando Diferentes Abordagens

Existem diferentes métodos pra garantir a privacidade dos dados enquanto a informação continua útil. Uma abordagem é calcular estatísticas separadamente pra cada modo de transporte. Esse método permite configurações de privacidade personalizadas com base no número de viagens e tipos de transporte. Porém, isso significa que o orçamento de privacidade deve ser dividido entre várias estatísticas diferentes, o que pode diminuir a eficácia delas.

Outro método é calcular uma única estatística global que abranja todos os detalhes. Isso fornece uma abordagem mais simples pra privacidade, mas pode fazer os dados ficarem menos precisos devido ao ruído adicionado indiscriminadamente.

O Google desenvolveu um novo método, chamado Activity + Metric Scaling, que combina os benefícios das duas abordagens. Esse método ajusta os dados com base no modo de viagem e no tipo de métrica que tá sendo medida. Ao escalar a contribuição de cada usuário pro total de dados antes de adicionar ruído, esse método busca manter a utilidade das estatísticas enquanto ainda garante a privacidade.

O Processo de Avaliação

Pra garantir que seus métodos sejam eficazes, o Google avaliou três técnicas diferentes de medição de privacidade usando um conjunto de dados com informações de milhões de usuários. O objetivo era entender qual método oferece o melhor equilíbrio entre proteção da privacidade e precisão dos dados compartilhados.

Ao ajustar seu orçamento de privacidade- a quantidade de informações que pode ser compartilhada sem perder a privacidade dos usuários- o Google testou quão bem cada método funcionava. Eles olharam especificamente pro erro relativo ponderado, que mostra quão precisas são as estimativas estatísticas quando comparadas aos valores reais.

Os resultados mostraram que o método Activity + Metric Scaling superou outras técnicas base ao manter uma precisão mais uniforme entre diferentes métricas.

Lições Aprendidas e Direções Futuras

Essa pesquisa mostrou que é possível calcular estatísticas significativas sobre mobilidade enquanto respeita a privacidade dos usuários. O novo mecanismo garante que os dados sejam anonimizados e continuem úteis pros planejadores urbanos e formuladores de políticas.

Os achados sugerem que há potencial pra esse método ser usado em outras áreas além dos dados de transporte. O processo precisará ser refinado pra automatizar alguns aspectos do manuseio de dados, garantindo que a privacidade dos usuários continue protegida sem precisar de dados públicos extensos pra ajustes.

Trabalhos futuros poderiam envolver a criação de mecanismos que se adaptem aos tipos de dados que estão sendo processados. Reconhecendo a importância de consultas específicas, pode ser possível melhorar ainda mais a eficácia do sistema e fazer um uso melhor dos dados coletados.

Conclusão

Dados de regiões diversas podem ser aproveitados de forma eficaz pra apoiar o planejamento urbano sustentável enquanto garante que a privacidade individual seja respeitada. O Environmental Insights Explorer do Google é um grande passo pra fornecer às cidades as ferramentas que elas precisam pra tomar decisões informadas com base em padrões de mobilidade. As abordagens que estão sendo desenvolvidas têm o potencial de oferecer insights importantes sem comprometer a privacidade pessoal.

Combinando métodos avançados de privacidade com coleta de dados prática, o Google busca apoiar as cidades em seus esforços pra reduzir emissões, melhorar a infraestrutura de transporte e trabalhar em direção a um futuro mais sustentável. À medida que os métodos continuam a evoluir, a esperança é que mais cidades consigam acessar dados valiosos enquanto garantem que a privacidade de seus residentes seja respeitada.

Fonte original

Título: Releasing Large-Scale Human Mobility Histograms with Differential Privacy

Resumo: Environmental Insights Explorer (EIE) is a Google product that reports aggregate statistics about human mobility, including various methods of transit used by people across roughly 50,000 regions globally. These statistics are used to estimate carbon emissions and provided to policymakers to inform their decisions on transportation policy and infrastructure. Due to the inherent sensitivity of this type of user data, it is crucial that the statistics derived and released from it are computed with appropriate privacy protections. In this work, we use a combination of federated analytics and differential privacy to release these required statistics, while operating under strict error constraints to ensure utility for downstream stakeholders. In this work, we propose a new mechanism that achieves $ \epsilon \approx 2 $-DP while satisfying these strict utility constraints, greatly improving over natural baselines. We believe this mechanism may be of more general interest for the broad class of group-by-sum workloads.

Autores: Christopher Bian, Albert Cheu, Yannis Guzman, Marco Gruteser, Peter Kairouz, Ryan McKenna, Edo Roth

Última atualização: 2024-07-03 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.03496

Fonte PDF: https://arxiv.org/pdf/2407.03496

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes