Comprendre les risques de confidentialité des données ouvertes
Explorer l'équilibre entre l'accès aux données ouvertes et les risques pour la vie privée.
― 8 min lire
Table des matières
Les Données ouvertes, c'est un moyen pour les gens d'accéder à des infos qui étaient avant privées, surtout de la part des gouvernements. Ces données peuvent aider les citoyens à comprendre des sujets importants comme la santé, l'éducation et l'économie. Mais quand ces données sont partagées sans vérifications adéquates, ça peut poser de gros problèmes de confidentialité. Même si les données sont anonymisées, il y a plein de cas où les individus peuvent être ré-identifiés quand ces données sont combinées avec d'autres infos disponibles publiquement.
Par exemple, des études ont montré qu'un bon pourcentage de gens aux États-Unis peut être identifié à partir de Jeux de données anonymisés en utilisant certains détails personnels. Dans un cas, des dossiers médicaux de patients en Australie ont été publiés d'une manière où les gens ont pu identifier ces patients en quelques mois. De même, des détails privés ont été révélés quand des données de transports publics ont été partagées à Riga, en Lettonie.
Ces incidents soulèvent des inquiétudes sur la confiance entre les citoyens et leur gouvernement. Si les gens pensent que leurs infos personnelles pourraient être exposées, ils pourraient donner des réponses inexactes dans des sondages ou d'autres situations. Donc, il est important d'examiner de près les risques liés au partage des données ouvertes.
Vulnérabilités dans les données ouvertes
Les portails de données ouvertes offrent une grande variété d'infos faciles à trouver et à utiliser. Cependant, cette facilité d'accès peut mener à des menaces pour la Vie privée personnelle. Même si beaucoup de jeux de données sont anonymisés pour protéger les individus, il y a encore des risques importants quand ces jeux de données sont combinés avec d'autres. Par exemple, lier des jeux de données en fonction d'attributs comme l'âge, la race ou la localisation peut mener à l'identification d'individus.
Beaucoup de jeux de données sont publiés sans suivi continu. Une fois que les données deviennent publiques, de nombreuses organisations arrêtent de vérifier les soucis de confidentialité. C'est problématique parce que de nouveaux jeux de données publiés plus tard peuvent affecter les précédents. Il est crucial que plusieurs parties prenantes travaillent ensemble pour s'assurer que la vie privée est protégée quand on travaille avec des jeux de données ouverts.
Exercice de Red Team
Pour identifier les faiblesses dans les données ouvertes, un groupe de chercheurs a réalisé un exercice de red team. Ce processus consistait à imiter les actions d'un attaquant pour trouver des vulnérabilités dans le système de données ouvertes. L'objectif était de comprendre comment les données pouvaient être mal utilisées.
Pendant l'exercice, les chercheurs ont cherché des jeux de données avec des Identifiants connus, comme l'âge et la race, pour voir comment cela pouvait mener à des violations de la vie privée. Ils ont découvert que certains jeux de données avaient très peu d'enregistrements pour des combinaisons spécifiques de ces identifiants. Si quelqu'un venait à lier ces jeux de données avec d'autres ayant des attributs similaires, cela pourrait révéler des infos sensibles sur des individus.
Ils ont aussi évalué les risques associés à la jonction de deux jeux de données. Même des jeux de données ne partageant pas d'attributs peuvent mener à des violations quand ils sont combinés avec un troisième jeu de données qui le fait. Cette idée est connue sous le nom de divulgation transitive, et même si les chercheurs n'ont pas trouvé d'exemples directs durant leur exercice, ils pensent que ça mérite plus d'attention dans les recherches futures.
Curation des données
Avec la prise de conscience des vulnérabilités dans les jeux de données ouverts, les chercheurs ont reconnu la nécessité d'une approche ciblée pour identifier les jeux de données à haut risque. Ils ont voulu filtrer un plus petit ensemble de jeux de données particulièrement vulnérables aux violations de la vie privée.
En utilisant des portails de données ouvertes existants, ils ont rassemblé une variété de jeux de données. Ils ont créé une méthode pour identifier les jeux de données contenant des combinaisons d'identifiants connus. Grâce à une analyse manuelle, ils ont déterminé quels jeux de données étaient directement liés à des sujets humains et ont écarté ceux qui ne l'étaient pas. Le résultat final était une collection de jeux de données soigneusement sélectionnés qui pouvaient poser un risque plus élevé pour la vie privée.
Analytique visuelle pour le suivi des risques
Pour aider les gardiens de données à surveiller ces risques, un outil d'analyse visuelle nommé PRIVEE a été développé. Cet outil aide les défenseurs des données à identifier les vulnérabilités de confidentialité dans les jeux de données ouverts. Avec PRIVEE, les défenseurs peuvent grouper visuellement les jeux de données en fonction d'attributs communs et les classer selon leurs niveaux de risque.
L'outil permet aux défenseurs des données de voir des combinaisons de jeux de données qui pourraient mener à des vulnérabilités. Ils peuvent aussi visualiser d'éventuelles divulgations et choisir des clés de jonction adaptées pour évaluer les risques plus efficacement. En utilisant des représentations visuelles des données, les défenseurs peuvent mieux identifier quels jeux de données posent le plus de risques de violations d'infos personnelles.
Scénarios d'attaque
Avec un jeu de données soigneusement sélectionné et l'utilisation de l'outil PRIVEE, les chercheurs ont identifié plusieurs scénarios d'attaque potentiels. Ils ont cherché des enregistrements qui pouvaient être liés à des informations sensibles en utilisant des quasi-identifiants. Par exemple, des jeux de données avec un petit nombre d'enregistrements pour certaines combinaisons d'âge et de sexe étaient particulièrement vulnérables.
Dans un cas, deux jeux de données séparés ont révélé que deux individus étaient impliqués dans le même crime quand ils étaient liés par un identifiant commun. Les chercheurs ont noté plusieurs autres exemples où combiner des jeux de données a conduit à l'exposition d'infos personnelles. Ces résultats soulignent l'importance d'évaluer soigneusement les risques associés aux jeux de données ouverts pour protéger la vie privée individuelle.
Défis et directions futures
Identifier des violations de la vie privée à travers des recherches traditionnelles est souvent difficile. Le volume de données disponibles rend difficile pour les gardiens de données de détecter les violations. Par conséquent, des systèmes comme PRIVEE sont essentiels pour améliorer la capacité à surveiller et évaluer ces risques.
Cependant, les chercheurs ont identifié un besoin de développement supplémentaire. Bien que l'outil soit utile, il pourrait être amélioré pour mieux servir les sujets de données qui pourraient vouloir savoir si leurs infos pourraient être compromises. Les conceptions futures devraient envisager des moyens d'autonomiser les citoyens à comprendre comment leurs données pourraient être à risque.
De plus, les chercheurs explorent le concept de jonctions transitives plus en profondeur. Ce domaine d'étude peut révéler des risques qui ne sont pas facilement détectables mais qui peuvent avoir des implications significatives pour la vie privée personnelle.
Conclusion
Les jeux de données ouverts jouent un rôle crucial pour rendre les données gouvernementales accessibles et améliorer la transparence. Cependant, ils comportent aussi le risque d'exposer des infos privées s'ils ne sont pas bien gérés. La recherche discutée ici souligne l'importance de comprendre ces risques et de trouver des moyens de les aborder.
Le développement d'un ensemble de jeux de données vulnérables soigneusement sélectionnés, ainsi que des outils comme PRIVEE pour l'évaluation visuelle des risques, est un pas dans la bonne direction. À l'avenir, il sera important de continuer à explorer les risques associés aux jeux de données ouverts et de trouver de nouvelles manières de protéger la vie privée individuelle tout en poursuivant la transparence et l'accès à l'information.
Titre: Power to the Data Defenders: Human-Centered Disclosure Risk Calibration of Open Data
Résumé: The open data ecosystem is susceptible to vulnerabilities due to disclosure risks. Though the datasets are anonymized during release, the prevalence of the release-and-forget model makes the data defenders blind to privacy issues arising after the dataset release. One such issue can be the disclosure risks in the presence of newly released datasets which may compromise the privacy of the data subjects of the anonymous open datasets. In this paper, we first examine some of these pitfalls through the examples we observed during a red teaming exercise and then envision other possible vulnerabilities in this context. We also discuss proactive risk monitoring, including developing a collection of highly susceptible open datasets and a visual analytic workflow that empowers data defenders towards undertaking dynamic risk calibration strategies.
Auteurs: Kaustav Bhattacharjee, Aritra Dasgupta
Dernière mise à jour: 2023-04-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.11278
Source PDF: https://arxiv.org/pdf/2304.11278
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.michaelshell.org/
- https://www.michaelshell.org/tex/ieeetran/
- https://www.ctan.org/tex-archive/macros/latex/contrib/IEEEtran/
- https://www.ieee.org/
- https://www.latex-project.org/
- https://www.michaelshell.org/tex/testflow/
- https://www.ctan.org/tex-archive/macros/latex/contrib/oberdiek/
- https://www.ctan.org/tex-archive/macros/latex/contrib/cite/
- https://www.ctan.org/tex-archive/macros/latex/required/graphics/
- https://www.ctan.org/tex-archive/info/
- https://www.tug.org/applications/pdftex
- https://www.ctan.org/tex-archive/macros/latex/required/amslatex/math/
- https://www.ctan.org/tex-archive/macros/latex/contrib/algorithms/
- https://algorithms.berlios.de/index.html
- https://www.ctan.org/tex-archive/macros/latex/contrib/algorithmicx/
- https://www.ctan.org/tex-archive/macros/latex/required/tools/
- https://www.ctan.org/tex-archive/macros/latex/contrib/mdwtools/
- https://www.ctan.org/tex-archive/macros/latex/contrib/eqparbox/
- https://www.ctan.org/tex-archive/obsolete/macros/latex/contrib/subfigure/
- https://www.ctan.org/tex-archive/macros/latex/contrib/subfig/
- https://www.ctan.org/tex-archive/macros/latex/contrib/caption/
- https://www.ctan.org/tex-archive/macros/latex/base/
- https://www.ctan.org/tex-archive/macros/latex/contrib/sttools/
- https://www.ctan.org/tex-archive/macros/latex/contrib/misc/
- https://www.michaelshell.org/contact.html
- https://dx.doi.org/10.14722/usec.2023.237256
- https://www.usablesecurity.net/USEC/
- https://www.ctan.org/tex-archive/biblio/bibtex/contrib/doc/
- https://www.michaelshell.org/tex/ieeetran/bibtex/