Simple Science

La science de pointe expliquée simplement

# Informatique# Ordinateurs et société

Risques de confidentialité dans les données du recensement pour le logement subventionné

Une étude révèle que des préoccupations concernant la vie privée affectent la participation au recensement dans les logements subventionnés.

― 7 min lire


Problèmes deProblèmes deconfidentialité desdonnées du recensementrisques de confidentialité.résidents en logement vulnérables à desLes données de recensement exposent les
Table des matières

Alors que le Bureau du Recensement américain met en place de nouvelles mesures de confidentialité, il y a un débat en cours sur la nécessité de protections plus solides pour les statistiques publiques. Ce sujet est particulièrement important pour les gens vivant dans des logements subventionnés, qui peuvent craindre l'expulsion s'ils divulguent des membres non autorisés de leur foyer, comme des enfants, lors du recensement. Notre recherche combine des statistiques du Décennal Census et du Département du logement et du développement urbain (HUD) pour montrer qu'il est possible d'identifier ces ménages, qui pourraient vivre en violation des règles d'Occupation.

Les préoccupations

Les résidents de logements subventionnés peuvent être mal à l'aise de partager des informations complètes à cause de leur peur de l'expulsion. Par exemple, s'ils informent les agents du recensement sur des membres de leur ménage supplémentaires non autorisés par leur bail, ils craignent que cela entraîne des actions punitives de la part des propriétaires ou des agences de logement. Cette peur peut conduire à des réponses inexactes lors du recensement, ce qui affecte la qualité des statistiques publiques.

Il y a des cas documentés où les répondants omettent de signaler des enfants ou d'autres membres du ménage à cause de ces craintes. Cette réticence à divulguer complètement ne touche pas seulement les Données collectées, mais a également des implications plus larges pour les politiques publiques et l'allocation des ressources.

Focalisation de la recherche

Notre recherche examine spécifiquement comment les statistiques publiques peuvent être utilisées pour identifier les ménages qui ne respectent pas les normes d'occupation. Par exemple, la règle des "deux cœurs par chambre" établie par le HUD suggère que pas plus de deux personnes ne devraient partager une chambre. Nous avons mené des expériences en utilisant à la fois des données réelles et synthétiques pour évaluer comment les statistiques publiques pourraient exposer ces ménages non conformes.

Méthodes

Pour évaluer ces risques de confidentialité, nous réalisons ce qu'on peut appeler une attaque de reconstruction. En gros, nous utilisons des données publiques-spécifiquement la taille du ménage, la race, l'ethnicité et l'âge-pour identifier des blocs où des ménages conformes pourraient vivre en violation des directives d'occupation. En reliant ces données avec les informations du HUD, nous démontrons qu'il est possible, avec des ressources relativement minimales, de localiser des ménages enfreignant ces règles.

Notre étude révèle qu'en utilisant des programmes mathématiques simples, les informations contenues dans le recensement de 2010 et les données du HUD suffisent à identifier des blocs avec des ménages qui pourraient vivre en violation de leurs baux. Ce processus peut se faire rapidement sur un équipement informatique standard, soulevant de graves inquiétudes sur la sécurité des informations privées pour ces populations vulnérables.

Échange aléatoire et mesures de confidentialité

Le Bureau du recensement avait auparavant utilisé une méthode d'échange aléatoire pour protéger les données des répondants. Cependant, nos expériences ont montré que cette mesure à elle seule ne réduit pas significativement la capacité d'identifier les ménages en violation des limites d'occupation. Nous avons aussi examiné un autre mécanisme basé sur la confidentialité différentielle, mis en œuvre lors du recensement de 2020, et constaté qu'il était plus efficace pour protéger contre de potentielles violations de la Vie privée.

L'introduction de la confidentialité différentielle change la façon dont les données sont rapportées et stockées, offrant de meilleures protections pour les réponses individuelles. Bien que certains soutiennent que ces nouvelles protections dépassent ce qui est légalement nécessaire, elles peuvent jouer un rôle clé pour encourager les individus vulnérables à participer au recensement sans craindre de répercussions.

Impact sur la qualité des données

La peur de la surveillance et de la ré-identification à partir des données publiques peut décourager les résidents des logements publics de participer pleinement aux enquêtes. Ça veut dire que les données collectées peuvent ne pas représenter fidèlement la vraie population, ce qui impacte divers niveaux de planification et de financement gouvernementaux.

Notre recherche met en avant les effets directs que les préoccupations de confidentialité ont sur la qualité des données du recensement. Nous avons vu plusieurs rapports indiquant que les gens omettent délibérément des informations sur leurs formulaires de recensement par peur de l'expulsion ou de conséquences négatives de la part des autorités du logement ou des propriétaires.

Résultats empiriques

À travers une série d'expériences, nous avons pu quantifier le risque associé aux statistiques publiques révélant des ménages vivant en violation des limites d'occupation. Nous avons combiné des données du recensement décennial de 2010 avec des données du HUD pour effectuer notre analyse. Nos résultats indiquaient qu'un attaquant pouvait utiliser efficacement des équations simples pour révéler des informations sur des ménages supposés en violation.

Nous avons montré qu'en s'appuyant sur un ensemble limité de statistiques publiques disponibles, on pouvait identifier des blocs avec des ménages qui violent les normes d'occupation du HUD, souvent avec un haut degré de confiance. Dans certains cas, l'exactitude de cette identification pouvait être atteinte en quelques secondes, avec des configurations informatiques standard.

De plus, nos expériences avec des données synthétiques ont indiqué que les méthodes traditionnelles de protection de la vie privée, telles que l'échange de dossiers, sont insuffisantes. En revanche, des méthodes comme la confidentialité différentielle ont été plus efficaces pour limiter la précision de telles attaques sur la reconstruction d'identité.

Implications pratiques

Ces résultats suscitent de sérieuses inquiétudes concernant la confidentialité des résidents de logements subventionnés. Si les données publiques peuvent être utilisées pour reconstruire des informations sensibles sur des ménages individuels, cela menace la sécurité de ceux qui sont déjà vulnérables.

Les décideurs doivent tenir compte de ces risques de confidentialité lors de la conception des méthodes de collecte de données publiques. La tendance vers des approches plus respectueuses de la vie privée peut non seulement améliorer la sécurité des informations sensibles, mais aussi accroître les taux de participation parmi les groupes marginalisés qui craignent des répercussions en divulguant trop d'informations.

Considérations supplémentaires

Bien que notre recherche fournisse des informations précieuses, il y a plusieurs limitations et facteurs à considérer. Premièrement, la précision de nos résultats dépend des ensembles de données spécifiques utilisés et des erreurs inhérentes à ceux-ci. Par exemple, des problèmes tels que les non-réponses ou les inexactitudes dans le lien des données pourraient affecter l'évaluation globale des risques.

Deuxièmement, comme les microdonnées liées au recensement sont confidentielles, nous avons utilisé des données synthétiques pour la validation dans certaines de nos expériences. Cependant, cela ne représente pas toujours parfaitement les situations réelles, ce qui pourrait fausser les résultats.

Conclusion

Cette étude sert d'exemple crucial sur la façon dont les statistiques publiques pourraient exposer les ménages vulnérables à des risques de confidentialité. Elle met en lumière des problèmes spécifiques qui peuvent dissuader les résidents de logements subventionnés de s'engager dans le recensement et d'autres enquêtes. Nos résultats suggèrent que les méthodes de protection existantes peuvent ne pas être adéquates et soulignent la nécessité de protocoles de confidentialité plus robustes.

Les discussions en cours peuvent guider les approches futures pour concevoir des méthodes fiables et précises de collecte de données publiques qui protègent la vie privée individuelle. Les décideurs doivent trouver un équilibre entre obtenir des données précises pour un usage public et garantir la sécurité et la confidentialité de tous les répondants.

Source originale

Titre: Quantifying Privacy Risks of Public Statistics to Residents of Subsidized Housing

Résumé: As the U.S. Census Bureau implements its controversial new disclosure avoidance system, researchers and policymakers debate the necessity of new privacy protections for public statistics. With experiments on both published statistics and synthetic data, we explore a particular privacy concern: respondents in subsidized housing may deliberately not mention unauthorized children and other household members for fear of being evicted. By combining public statistics from the Decennial Census and the Department of Housing and Urban Development, we demonstrate a simple, inexpensive reconstruction attack that could identify subsidized households living in violation of occupancy guidelines in 2010. Experiments on synthetic data suggest that a random swapping mechanism similar to the Census Bureau's 2010 disclosure avoidance measures does not significantly reduce the precision of this attack, while a differentially private mechanism similar to the 2020 disclosure avoidance system does. Our results provide a valuable example for policymakers seeking a trustworthy, accurate census.

Auteurs: Ryan Steed, Diana Qing, Zhiwei Steven Wu

Dernière mise à jour: 2024-07-05 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.04776

Source PDF: https://arxiv.org/pdf/2407.04776

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires