Simple Science

Ciência de ponta explicada de forma simples

# Informática# Criptografia e segurança

Uma Abordagem Segura para Calcular Estatísticas Baseadas em Rank

Apresentando um modelo para cálculo preciso de estatísticas baseadas em rankings, de forma privada.

― 7 min ler


Modelo de EstatísticasModelo de EstatísticasBaseado em Rank Seguroeficiente e privada.Cálculo de estatísticas de forma
Índice

No mundo de hoje, tá rolando uma baita geração e coleta de dados de várias fontes. Esses dados podem contar muita coisa pra gente se conseguirmos tirar estatísticas úteis deles. Mas, extrair essas estatísticas pode ser complicado, especialmente quando queremos manter a privacidade dos indivíduos em segurança.

Estatísticas como a média podem ser afetadas por valores extremos, conhecidos como outliers. Por exemplo, quando olhamos para as rendas médias ou preços de casas, alguns valores muito altos podem distorcer a média, tornando-a menos útil. Por causa disso, outras estatísticas como a mediana ou percentis são frequentemente usadas, já que são menos influenciadas por esses outliers. A mediana, por exemplo, é o valor do meio quando todos os pontos de dados estão organizados, tornando-a uma medida melhor em conjuntos de dados distorcidos.

Com a privacidade dos dados se tornando uma preocupação maior, enfrentamos novos desafios para calcular essas estatísticas de forma segura. Muitos métodos atuais trocam precisão por privacidade ou não são eficientes o suficiente para aplicações do mundo real. Neste artigo, vamos explorar uma nova maneira de calcular estatísticas baseadas em classificação, mantendo os dados privados.

Soluções Atuais

Vamos dar uma olhada nos métodos existentes que as pessoas usam para calcular estatísticas enquanto garantem a privacidade dos dados. Basicamente, são três técnicas principais que o pessoal costuma usar:

  1. Cálculo Multi-Partes (MPC): Isso permite que várias partes calculem uma função sobre seus inputs mantendo esses inputs ocultos. Mas, pode não ser seguro se algumas partes agirem de maneira maliciosa.

  2. Criptografia Homomórfica (HE): Isso envolve criptografar os dados para que cálculos possam ser feitos sem precisar descriptografá-los primeiro. Embora pareça ótimo, muitas vezes pode ser lento e consumir muitos recursos.

  3. Privacidade Diferencial (DP): Essa técnica adiciona um pouco de ruído aos dados pra esconder as contribuições individuais, garantindo que os resultados permaneçam privados. Porém, esse método pode comprometer a precisão dos resultados finais.

Existem dois cenários principais em que podemos querer calcular estatísticas:

  • Combinando dados individuais: Cada usuário tem seus próprios dados, e queremos calcular algo como a mediana global a partir desses dados.

  • Combinando conjuntos de dados: Cada usuário tem um conjunto de dados, e queremos calcular estatísticas de todos os conjuntos juntos.

Limitações das Abordagens Atuais

Cada um dos métodos atuais tem suas questões. Para MPC, especialmente em casos de partes maliciosas, pode haver riscos se alguns usuários tentarem enganar o sistema. Além disso, muitos métodos de MPC não funcionam bem para grandes conjuntos de dados.

Para HE, embora permita cálculos seguros, tende a exigir muito poder de processamento e tempo, o que pode ser inviável. Também pode ter dificuldades com um número maior de usuários, tornando-o menos escalável.

DP, embora seja bom pra garantir privacidade, muitas vezes exige um compromisso entre precisão e privacidade. Os usuários podem acabar recebendo resultados imprecisos se quiserem manter suas informações privadas seguras.

Uma Nova Abordagem

A gente propõe um novo modelo que foca em calcular estatísticas baseadas em classificação, como medianas, percentis e quartis, sobre conjuntos de dados distribuídos. Nossa abordagem oferece mais segurança sem sacrificar eficiência ou precisão.

Principais Características do Nosso Modelo

  1. Protocolos Interativos e Não Interativos: Desenvolvemos dois métodos. O método interativo requer que os usuários participem, enquanto a versão não interativa permite que os usuários enviem seus dados uma vez e deixem o sistema fazer todos os cálculos necessários.

  2. Preservação da Privacidade: Nosso modelo garante que os dados individuais permaneçam ocultos mesmo enquanto calculamos estatísticas coletivas.

  3. Resistência à Colusão: Tomamos medidas para impedir que grupos de usuários enganem o sistema agindo juntos.

  4. Eficiência: Nossos protocolos precisam de bem menos trabalho computacional do que outros, tornando-os mais rápidos e práticos para aplicações do mundo real.

  5. Alta Precisão: Nosso sistema pode fornecer resultados precisos sem precisar comprometer a privacidade.

Protocolos Detalhados

Protocolo Interativo

No protocolo interativo, os usuários devem participar durante todo o cálculo. Primeiro, os usuários sugerem um valor de mediana com base em seus dados e compartilham essa sugestão com os outros. O sistema então processa essas entradas em rodadas, checando e refinando os valores até encontrar a mediana.

Esse método garante que a privacidade individual seja mantida. Ele compara valores e usa checagens para garantir que todos estão fornecendo informações precisas. No entanto, requer que todos os usuários estejam online durante o processo.

Protocolo Não Interativo

A versão não interativa é feita pra ser conveniente. Os usuários enviam suas informações uma vez, e o sistema garante que os cálculos sejam feitos sem mais interação deles. Essa versão usa um método chamado mascaramento distribuído para manter os inputs dos usuários privados enquanto ainda permite que o sistema calcule os valores necessários.

Nesse método, os usuários geram números aleatórios pra mascarar seus dados reais. Esses valores mascarados são então usados ao longo do processo de cálculo, garantindo que mesmo se alguém tentar espionar, não vai conseguir acessar nenhuma informação sensível.

Abordando Preocupações de Segurança

Prevemos várias ameaças à segurança que podem surgir durante o cálculo:

  • Usuários Maliciosos: Alguns usuários podem tentar inserir dados falsos ou sair no meio do processo. Implementamos checagens pra evitar esse tipo de manipulação.

  • Colusão Entre Usuários: Pra evitar colusões potenciais, incorporamos métodos que garantem que se alguns usuários agir em conjunto pra enganar o sistema, ELES ainda serão bloqueados, evitando que ganhem qualquer vantagem.

  • Outliers: Reconhecemos que outliers podem distorcer resultados. Nossas estatísticas escolhidas não são muito afetadas por valores extremos, tornando nosso sistema robusto mesmo quando esses valores estão presentes.

Melhorias em Relação às Soluções Existentes

Nosso novo modelo demonstra várias vantagens em relação às soluções existentes:

  1. Maior Segurança: Nossa abordagem garante que a privacidade individual seja robusta contra atos maliciosos e colusão.

  2. Maior Eficiência: Comparado a métodos que exigem processamento extenso, nossos protocolos são projetados pra serem mais eficientes, tornando-os práticos para conjuntos de dados maiores e um número elevado de usuários.

  3. Nenhuma Troca Entre Precisão e Privacidade: Diferente da privacidade diferencial, nosso método permite alta precisão mesmo enquanto preserva a privacidade dos dados.

  4. Aplicação Versátil: Nosso modelo pode ser usado efetivamente em cenários de dados individuais e em cenários envolvendo múltiplos conjuntos de dados.

  5. Modularidade: O modelo de computação pode ser configurado com diferentes métodos de criptografia dependendo das exigências de situações específicas.

Conclusão

Em resumo, propomos uma nova maneira de calcular estatísticas baseadas em classificação que é segura, eficiente e respeitosa com a privacidade individual. Com a quantidade crescente de dados e as preocupações cada vez maiores com a privacidade, nosso modelo aborda essas questões de forma eficaz, oferecendo melhor precisão e eficiência do que as soluções existentes.

A necessidade de equilibrar cuidadosamente privacidade e precisão é mais importante do que nunca, e nosso modelo tem potencial pra contribuir significativamente pra esse objetivo. À medida que continuamos a refinar nossa abordagem e expandir suas aplicações, estamos ansiosos pra contribuir com um futuro mais seguro e perspicaz para a análise de dados.

Esse novo método abre caminhos para mais pesquisas e implementações práticas em várias indústrias, garantindo que decisões baseadas em dados possam ser feitas de forma eficiente e responsável.

Fonte original

Título: Practically Efficient Secure Computation of Rank-based Statistics Over Distributed Datasets

Resumo: In this paper, we propose a practically efficient model for securely computing rank-based statistics, e.g., median, percentiles and quartiles, over distributed datasets in the malicious setting without leaking individual data privacy. Based on the binary search technique of Aggarwal et al. (EUROCRYPT \textquotesingle 04), we respectively present an interactive protocol and a non-interactive protocol, involving at most $\log ||R||$ rounds, where $||R||$ is the range size of the dataset elements. Besides, we introduce a series of optimisation techniques to reduce the round complexity. Our computing model is modular and can be instantiated with either homomorphic encryption or secret-sharing schemes. Compared to the state-of-the-art solutions, it provides stronger security and privacy while maintaining high efficiency and accuracy. Unlike differential-privacy-based solutions, it does not suffer a trade-off between accuracy and privacy. On the other hand, it only involves $O(N \log ||R||)$ time complexity, which is far more efficient than those bitwise-comparison-based solutions with $O(N^2\log ||R||)$ time complexity, where $N$ is the dataset size. Finally, we provide a UC-secure instantiation with the threshold Paillier cryptosystem and $\Sigma$-protocol zero-knowledge proofs of knowledge.

Autores: Nan Wang, Sid Chi-Kin Chau

Última atualização: 2023-02-16 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2302.08121

Fonte PDF: https://arxiv.org/pdf/2302.08121

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes