Usando Dados de Mobilidade para Modelagem de Doenças
Como os dados de mobilidade e as medidas de privacidade impactam as previsões de propagação de doenças.
― 8 min ler
Índice
- O que é Dados de Mobilidade?
- O Papel dos Dados de Mobilidade na Modelagem de doenças
- Privacidade e Compartilhamento de Dados
- Aplicando Privacidade Diferencial na Modelagem de Doenças
- Analisando Dados de Mobilidade
- Cenários Analisados
- Conectividade e Dinâmica da Doença
- Variações nas Características da Epidemia
- Modelos de Metapopulação e Sua Importância
- Direções Futuras
- Conclusão
- Fonte original
O uso de dados de celular tem crescido em áreas como Saúde Pública, planejamento urbano e como lidar com desastres naturais há mais de dez anos. A pandemia de COVID-19 empurrou essa tendência ainda mais pra frente, já que as autoridades precisavam rastrear movimentos e tomar decisões sobre restrições de viagem e lockdowns. Durante a pandemia, Dados de Mobilidade ajudaram a modelar como o vírus se espalhou, permitindo que especialistas monitorassem ou previssem a transmissão da COVID-19.
O que é Dados de Mobilidade?
Os dados de mobilidade dos celulares mostram como os movimentos das pessoas mudam ao longo do tempo. Esses dados ajudam a entender como as pessoas interagem, vendo de onde surgem os casos de doenças e prevendo como um vírus pode se espalhar geograficamente. Pesquisadores analisam esses dados, muitas vezes coletados para cobrança ou através de plataformas digitais, pra entender melhor o comportamento humano. Por exemplo, padrões de mobilidade foram usados pra estudar as sazonalidades de doenças como dengue e rubéola em países como Paquistão e Quênia.
O Papel dos Dados de Mobilidade na Modelagem de doenças
Durante a pandemia de COVID-19, os dados de mobilidade se tornaram cruciais. Pesquisadores usaram essas informações pra criar modelos que mostraram como o movimento humano afetou a propagação do vírus. Esses modelos também previram como a epidemia se desenrolaria e estimaram a eficácia de medidas como lockdowns e distanciamento social.
Apesar da utilidade desses conjuntos de dados, a privacidade continua sendo uma preocupação grande. Mesmo quando os dados são desidentificados e agregados, as pessoas se preocupam com suas informações pessoais sendo usadas sem consentimento. Atualmente, não existem acordos ou diretrizes padronizadas pra garantir privacidade enquanto se beneficia os esforços de saúde pública.
Privacidade e Compartilhamento de Dados
À medida que a tecnologia continua evoluindo, a quantidade de dados disponíveis cresce rapidamente. Isso facilita pra que empresas ou indivíduos reidentifiquem dados que antes eram considerados anônimos. Pra lidar com essas questões de privacidade, vários frameworks foram desenvolvidos. Um deles é chamado de Privacidade Diferencial (DP), que ajuda a equilibrar privacidade e utilidade dos dados.
DP funciona adicionando ruído aleatório aos dados, o que dificulta a identificação de indivíduos específicos a partir do conjunto de dados. Assim, os pesquisadores ainda conseguem obter informações úteis enquanto protegem a privacidade individual. O conceito de DP está sendo adotado por várias empresas e agências governamentais, mas ainda não tá claro como deve ser aplicado a dados de mobilidade na modelagem de doenças.
Aplicando Privacidade Diferencial na Modelagem de Doenças
Neste artigo, vamos explorar como DP pode ser usado em modelos que preveem a propagação de doenças infecciosas. Vamos analisar como diferentes níveis de ruído afetam características importantes de uma epidemia através de simulações. Nosso método se baseia em um modelo existente e analisa como a adição de ruído impacta saídas-chave relacionadas à propagação da doença.
Usamos dados reais de mobilidade do estado de Nova York durante o início da pandemia de COVID-19 pra mostrar como aplicar privacidade diferencial pode influenciar certas métricas associadas à propagação de doenças. Nossas descobertas sugerem que usar DP pode alterar algumas estimativas, mas ainda fornece uma proteção significativa à privacidade.
Analisando Dados de Mobilidade
Os dados de mobilidade que analisamos foram coletados entre 15 de agosto e 15 de novembro de 2020. Esses dados incluíram um grande número de transições (mais de 800.000) entre condados em Nova York, com uma média de cerca de 9.000 transições por dia. O número de transições variou bastante entre os condados, com alguns tendo bem poucas e outros muitos. Depois de adicionar DP, o número total de transições relatadas mudou, mas a classificação geral das rotas de viagem permaneceu consistente.
Cenários Analisados
Analisamos vários cenários pra ver como adicionar ruído através de DP afetou a propagação das doenças. O primeiro cenário considerou surtos iniciando tanto em condados grandes quanto pequenos. Condados grandes, como Kings e Queens, têm populações de cerca de 2 milhões, enquanto os menores, como Allegany e Essex, têm populações em torno de 46.000 e 37.000, respectivamente.
Quando o surto começou em condados grandes, vimos que começou por volta do dia 50 e atingiu o pico por volta do dia 75, com cerca de 1% da população infectada. Nos condados menores, no entanto, o surto começou mais tarde, por volta do dia 60, e atingiu o pico por volta do dia 150, afetando cerca de 5% da população.
Testamos várias combinações de cenários e níveis de ruído em 1.000 iterações. Quando a epidemia começou em condados maiores, as métricas relacionadas ao tamanho do surto e ao número de condados com casos eram maiores do que nos condados menores. No entanto, quando introduzimos um ruído significativo, muitas das estimativas iniciais caíram, enquanto as taxas de propagação e outros fatores aumentaram.
Conectividade e Dinâmica da Doença
Em seguida, analisamos como o nível de conectividade entre condados afetou as previsões. Simulamos surtos em pares de condados com baixa, média ou nenhuma conectividade com um condado maior (Kings County). Em áreas com baixa conectividade, o número de infecções permaneceu bem baixo, enquanto a conectividade média apresentou uma taxa de infecção levemente aumentada.
Descobrimos que o aumento do ruído geralmente levou a uma queda nas métricas importantes sobre a propagação da doença. Esse padrão continuou em vários cenários, incluindo quando os surtos começaram em condados menores e em condados que eram mal conectados na rede de mobilidade.
Variações nas Características da Epidemia
Pra aprofundar na natureza das doenças que se espalham, testamos várias mudanças potenciais na trajetória dos surtos nos condados de Kings e Queens. Olhamos como uma propagação mais rápida da epidemia devido ao aumento das taxas de transmissão afetou as métricas. Também consideramos cenários com altos versus baixos números de indivíduos assintomáticos.
Quando aumentamos a taxa de transmissão, o pico da epidemia chegou muito mais cedo, e mais indivíduos foram infectados do que nas simulações anteriores. No entanto, à medida que o ruído aumentou, as métricas mostraram comportamentos conservadores ou resultados mais erráticos.
Modelos de Metapopulação e Sua Importância
Durante a pandemia de COVID-19, pesquisadores desenvolveram vários modelos de metapopulação pra informar decisões, antecipar a propagação da doença e identificar fraquezas nos sistemas de saúde. Dados de mobilidade foram vitais nesses modelos, fornecendo insights sobre diferentes fatores geográficos e comportamentais entre as populações. No entanto, ainda há preocupação de que tais dados possam revelar comportamentos de viagem de indivíduos específicos, por isso medidas de privacidade são críticas.
Nossa pesquisa indica que quando modelos de metapopulação utilizam dados de mobilidade, aplicar ruído pode ajudar a manter a validade de métricas importantes em vários níveis de ruído. Até certo ponto, a adição de ruído parece proteger a privacidade individual enquanto ainda permite boas estimativas de métricas de saúde pública.
Direções Futuras
Embora nossas descobertas se concentrem em uma combinação específica de dados de mobilidade e técnicas de modelagem, elas apresentam um framework flexível. Isso pode ajudar pesquisadores a avaliar o equilíbrio entre privacidade e precisão à medida que os dados de mobilidade se tornam mais amplamente usados na modelagem de doenças.
Como próximo passo, os pesquisadores poderiam usar nossas descobertas pra avaliar como diferentes níveis de ruído que preserva a privacidade afetam seus modelos e conjuntos de dados específicos. Isso poderia, em última análise, contribuir pra uma melhor proteção de privacidade enquanto garante que os dados de saúde pública continuem úteis pra análise.
Conclusão
O uso de dados de celular apresenta tanto oportunidades quanto desafios em áreas como saúde pública e epidemiologia. Embora esses conjuntos de dados possam revelar insights importantes, especialmente durante Epidemias, é crucial garantir a privacidade dos indivíduos. A privacidade diferencial oferece uma solução promissora ao fornecer um método de analisar dados de mobilidade enquanto protege informações pessoais. À medida que as metodologias evoluem, o equilíbrio entre privacidade e utilidade continuará sendo uma consideração essencial pra pesquisadores e tomadores de decisão.
Título: A standardised differential privacy framework for epidemiological modelling with mobile phone data
Resumo: During the COVID-19 pandemic, the use of mobile phone data for monitoring human mobility patterns has become increasingly common, both to study the impact of travel restrictions on population movement and epidemiological modelling. Despite the importance of these data, the use of location information to guide public policy can raise issues of privacy and ethical use. Studies have shown that simple aggregation does not protect the privacy of an individual, and there are no universal standards for aggregation that guarantee anonymity. Newer methods, such as differential privacy, can provide statistically verifiable protection against identifiability but have been largely untested as inputs for compartment models used in infectious disease epidemiology. Our study examines the application of differential privacy as an anonymisation tool in epidemiological models, studying the impact of adding quantifiable statistical noise to mobile phone-based location data on the bias of ten common epidemiological metrics. We find that many epidemiological metrics are preserved and remain close to their non-private values when the true noise state is less than 20, in a count transition matrix, which corresponds to a privacy-less parameter[isin] = 0.05 per release. We show that differential privacy offers a robust approach to preserving individual privacy in mobility data while providing useful population-level insights for public health. Importantly, we have built a modular software pipeline to facilitate the replication and expansion of our framework. Author SummaryHuman mobility data has been used broadly in epidemiological population models to better understand the transmission dynamics of an epidemic, predict its future trajectory, and evaluate potential interventions. The availability and use of these data inherently raises the question of how we can balance individual privacy and the statistical utility of these data. Unfortunately, there are few existing frameworks that allow us to quantify this trade-off. Here, we have developed a framework to implement a differential privacy layer on top of human mobility data which can guarantee a minimum level of privacy protection and evaluate their effects on the statistical utility of model outputs. We show that this set of models and their outputs are resilient to high levels of privacy-preserving noise and suggest a standard privacy threshold with an epsilon of 0.05. Finally, we provide a reproducible framework for public health researchers and data providers to evaluate varying levels of privacy-preserving noise in human mobility data inputs, models, and epidemiological outputs.
Autores: Nishant Kishore, M. K. Savi, A. Yadav, W. Zhang, N. Vembar, A. Schroeder, S. Balsari, C. O. Buckee, S. Vadhan
Última atualização: 2023-03-23 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2023.03.16.23287382
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.03.16.23287382.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.