Simple Science

Ciência de ponta explicada de forma simples

# Informática# Estruturas de dados e algoritmos

Dados Sintéticos e Privacidade na Colaboração

Novos métodos geram dados sintéticos para proteger a privacidade em cenários colaborativos.

― 8 min ler


Dados Sintéticos queDados Sintéticos quePreservam a Privacidadesegura de dados.Um novo algoritmo promove a colaboração
Índice

O compartilhamento de dados é importante para muitas tarefas em áreas como pesquisa, marketing e saúde. No entanto, compartilhar dados reais pode levar a riscos de privacidade, uma vez que informações pessoais sensíveis podem ser expostas. Uma forma de lidar com esse problema é através de Dados Sintéticos, que são dados falsos que imitam dados reais sem divulgar informações pessoais. Esse método permite que as organizações realizem análises sem comprometer a privacidade.

A Privacidade Diferencial é uma técnica popular que ajuda a proteger dados individuais ao compartilhar ou usar dados. Ela funciona garantindo que a saída de uma análise de dados não revele muito sobre os dados de um único indivíduo. Essa abordagem está sendo aplicada à geração de dados sintéticos, permitindo que os dados sejam compartilhados enquanto ainda se mantém a informação pessoal segura.

Este artigo discute um novo método projetado para gerar dados sintéticos enquanto mantém a privacidade, especialmente em casos onde os dados são mantidos por diferentes partes. Essa situação surge quando organizações desejam trabalhar juntas, mas não podem compartilhar seus dados reais. O método introduzido é adaptado para tais cenários, garantindo que informações sensíveis permaneçam protegidas enquanto permite análises úteis.

A Necessidade de Privacidade no Compartilhamento de Dados

A importância da privacidade no compartilhamento de dados não pode ser subestimada. Com o aumento das violações de dados e a crescente preocupação sobre como as informações pessoais são usadas, os indivíduos estão mais cientes de seus direitos em relação à privacidade. Leis como o Regulamento Geral de Proteção de Dados (GDPR) na Europa e a Lei de Privacidade do Consumidor da Califórnia (CCPA) nos Estados Unidos estabelecem diretrizes rigorosas para o manuseio de informações pessoais.

As organizações que desejam usar dados sensíveis devem navegar cuidadosamente por essas regulamentações. Embora a colaboração entre diferentes partes possa levar a insights mais significativos, compartilhar dados brutos diretamente muitas vezes não é viável devido a preocupações com a privacidade. Esse cenário gerou a busca por abordagens inovadoras que permitam o compartilhamento de dados sem comprometer a privacidade individual.

Dados Sintéticos: Uma Solução

Os dados sintéticos servem como uma solução viável para as preocupações de privacidade associadas ao compartilhamento de dados reais. Ao criar conjuntos de dados que se assemelham a dados genuínos sem incluir informações pessoais reais, as organizações podem se envolver em várias análises sem arriscar violações de privacidade.

O desafio reside em criar dados sintéticos que sejam representativos dos dados originais e protejam adequadamente a privacidade individual. A privacidade diferencial surgiu como uma ferramenta crítica nesse esforço, fornecendo uma estrutura matemática para quantificar e gerenciar riscos de privacidade. Ao permitir um certo nível de ruído nos dados, a privacidade diferencial garante que os detalhes individuais permaneçam ocultos mesmo nos resultados estatísticos.

O Desafio do Aprendizado Federado Vertical

Em muitas situações, especialmente em saúde ou finanças, os dados podem estar distribuídos entre várias organizações-os dados podem pertencer às mesmas pessoas, mas conter diferentes atributos. Por exemplo, uma organização pode ter dados sobre condições de saúde, enquanto outra pode ter informações sobre renda. Esse cenário é conhecido como aprendizado federado vertical.

O aprendizado federado vertical apresenta desafios específicos. Embora as organizações participantes queiram colaborar, elas não podem compartilhar seus dados reais devido a preocupações de privacidade. Além disso, garantir que os dados sintéticos gerados levem em conta as correlações entre diferentes atributos é crucial para análises significativas.

Manter a privacidade enquanto reconstrói com precisão as correlações entre atributos entre diferentes partes é uma tarefa complexa. Isso levou ao desenvolvimento de novos algoritmos projetados especificamente para esses cenários.

Introduzindo o VertiMRF

Para enfrentar os desafios do aprendizado federado vertical, um novo algoritmo chamado VertiMRF foi desenvolvido. Esse algoritmo gera dados sintéticos enquanto garante que a privacidade dos indivíduos seja mantida. Ao empregar técnicas de privacidade diferencial, o VertiMRF permite que as organizações colaborem sem expor dados sensíveis.

O VertiMRF opera em várias fases-chave. Inicialmente, cada parte de dados constrói um Campo Aleatório de Markov (MRF) local para capturar os relacionamentos entre seus atributos. Os MRFs locais então codificam os dados enquanto garantem que a privacidade seja preservada. Uma vez que essa informação local é processada, um servidor central combina as informações codificadas para gerar um MRF global, que garante que a distribuição global de dados seja representada com precisão.

Ao utilizar as estruturas criadas nos MRFs locais e os insights combinados de diferentes partes, o VertiMRF reconstrói uma visão global dos dados. Esse método aprimora a capacidade de analisar correlações entre partes sem comprometer a privacidade individual.

Componentes Chave do VertiMRF

Campos Aleatórios de Markov Locais

Os MRFs locais são uma pedra angular do VertiMRF. Cada parte de dados gera seu MRF local com base no conjunto de atributos que possui. Essa etapa permite que cada parte entenda como seus dados se relacionam internamente. Ao focar em atributos locais, o MRF captura correlações de forma eficaz, o que é essencial para uma síntese precisa de dados posteriormente.

Compartilhamento de Informações com Privacidade Diferencial

Para proteger a privacidade, o algoritmo incorpora privacidade diferencial no processo de compartilhamento de informações. Cada parte compartilha informações codificadas sobre seus dados locais enquanto garante que nenhum registro individual possa ser facilmente identificado. Esse processo de codificação adiciona ruído, reduzindo o risco de revelar qualquer informação sensível.

Construção do MRF Global

Uma vez que a informação local é codificada, o servidor central é responsável por gerar um MRF global. Esse processo envolve combinar os MRFs locais em um modelo coeso que retém as informações úteis necessárias para análises. O MRF global captura os relacionamentos entre os diferentes atributos mantidos por várias partes, facilitando a síntese abrangente de dados.

Técnicas para Grandes Domínios de Atributos

Com conjuntos de dados que possuem muitos atributos ou tamanhos de domínio elevados, técnicas específicas são implementadas dentro do VertiMRF. Essas técnicas se concentram na redução de dimensões e na imposição de consistência. Estratégias de redução de dimensões minimizam a complexidade dos dados enquanto mantêm propriedades estatísticas chave. A imposição de consistência garante que os dados sintetizados permaneçam precisos em diferentes representações de atributos.

Validação Experimental

A eficácia do VertiMRF foi verificada através de extensos experimentos utilizando conjuntos de dados do mundo real. Os resultados demonstram que o VertiMRF supera vários métodos de referência na geração de dados sintéticos enquanto preserva a privacidade.

Esses experimentos comparam a distância média de variação total (TVD) entre os dados sintéticos gerados e os conjuntos de dados originais. Os resultados indicam que o VertiMRF consistentemente produz TVD mais baixos, demonstrando sua capacidade de gerar dados sintéticos de alta qualidade.

Além disso, o algoritmo foi testado quanto ao seu impacto no desempenho de classificadores. Classificadores SVM treinados em dados sintéticos produzidos usando o VertiMRF apresentaram taxas de má classificação mais baixas em comparação com outros métodos, apoiando ainda mais sua utilidade em aplicações do mundo real.

Conclusão

A crescente importância da privacidade dos dados e a necessidade de colaboração entre organizações criaram uma demanda por métodos eficazes de compartilhar dados sem comprometer informações individuais. O VertiMRF apresenta uma abordagem promissora para sintetizar dados em cenários de aprendizado federado vertical enquanto assegura a privacidade diferencial.

Ao aproveitar os MRFs locais e o processamento centralizado, o VertiMRF captura correlações valiosas entre atributos mantidos por diferentes partes. O método retém eficazmente as propriedades estatísticas dos dados originais enquanto aborda os desafios da privacidade e do compartilhamento de dados.

À medida que as organizações continuam a buscar abordagens inovadoras para análise de dados, o desenvolvimento e a aplicação de métodos como o VertiMRF desempenharão um papel vital na manutenção da confiança e integridade no uso de dados. A geração de dados sintéticos, quando combinada com garantias robustas de privacidade, abre a porta para insights poderosos enquanto protege informações individuais essenciais.

Fonte original

Título: VertiMRF: Differentially Private Vertical Federated Data Synthesis

Resumo: Data synthesis is a promising solution to share data for various downstream analytic tasks without exposing raw data. However, without a theoretical privacy guarantee, a synthetic dataset would still leak some sensitive information. Differential privacy is thus widely adopted to safeguard data synthesis by strictly limiting the released information. This technique is advantageous yet presents significant challenges in the vertical federated setting, where data attributes are distributed among different data parties. The main challenge lies in maintaining privacy while efficiently and precisely reconstructing the correlation among cross-party attributes. In this paper, we propose a novel algorithm called VertiMRF, designed explicitly for generating synthetic data in the vertical setting and providing differential privacy protection for all information shared from data parties. We introduce techniques based on the Flajolet-Martin sketch (or frequency oracle) for encoding local data satisfying differential privacy and estimating cross-party marginals. We provide theoretical privacy and utility proof for encoding in this multi-attribute data. Collecting the locally generated private Markov Random Field (MRF) and the sketches, a central server can reconstruct a global MRF, maintaining the most useful information. Additionally, we introduce two techniques tailored for datasets with large attribute domain sizes, namely dimension reduction and consistency enforcement. These two techniques allow flexible and inconsistent binning strategies of local private MRF and the data sketching module, which can preserve information to the greatest extent. We conduct extensive experiments on four real-world datasets to evaluate the effectiveness of VertiMRF. End-to-end comparisons demonstrate the superiority of VertiMRF, and ablation studies validate the effectiveness of each component.

Autores: Fangyuan Zhao, Zitao Li, Xuebin Ren, Bolin Ding, Shusen Yang, Yaliang Li

Última atualização: 2024-06-27 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.19008

Fonte PDF: https://arxiv.org/pdf/2406.19008

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes