Simple Science

La science de pointe expliquée simplement

# Informatique# Cryptographie et sécurité

Évaluation de la nouvelle API de Google : Vie privée vs. Utilité

Une analyse de l'efficacité de l'API à équilibrer la vie privée des utilisateurs et les besoins en publicité.

― 9 min lire


Préoccupations concernantPréoccupations concernantla vie privée de l'APIGooglede Google.Dévoiler les risques dans l'API de pub
Table des matières

L'API pour le web est un nouveau système développé par Google pour remplacer les cookies tiers. Ce système est censé aider les Annonceurs à montrer des pubs pertinentes tout en protégeant la Vie privée des Utilisateurs. Il y a eu pas mal de débats entre les chercheurs et Google sur le fait de savoir si ce système offre vraiment à la fois la confidentialité et l'utilité.

Un des principaux problèmes dans ce débat concerne les Données utilisées dans les études testant cette API. Certains chercheurs ont utilisé des petites quantités de données collectées auprès de quelques utilisateurs ou ont créé de fausses données pour étudier l'API. D'un autre côté, Google a utilisé ses propres données privées mais n'a pas partagé assez de détails, rendant difficile pour les autres de comprendre ou de vérifier leurs conclusions.

Cet article vise à fournir une évaluation claire de la dernière version de l'API en utilisant un grand ensemble de données de navigation réelles auxquelles tout le monde peut accéder. On va regarder comment les Intérêts des utilisateurs changent avec le temps, si les annonceurs peuvent suivre les utilisateurs sur la base de ces données, et on encourage les entreprises à partager des données utilisateur anonymisées pour des évaluations futures.

Intérêts des utilisateurs dans le temps

Pour commencer notre évaluation, on vérifie d'abord à quel point les intérêts uniques et stables des utilisateurs réels le sont. Ça nous donne un aperçu de comment l'API peut être utilisée pour suivre les utilisateurs au fil du temps.

Notre analyse montre que 93 % des utilisateurs ont un top cinq d'intérêts uniques chaque semaine. En plus, 47 % des utilisateurs ont trois intérêts ou plus qui restent les mêmes d'une semaine à l'autre, tandis que moins de 6 % des utilisateurs n'en ont aucun. Cette stabilité dans les intérêts signifie que les annonceurs pourraient potentiellement suivre les utilisateurs de manière efficace si leurs intérêts sont suffisamment uniques.

Identification des utilisateurs

Ensuite, on explore si l'API peut être utilisée pour suivre les utilisateurs sur la base de leurs intérêts vus sur différents sites web. Quand on a utilisé les données de nos 1207 utilisateurs, on a trouvé que 46 % des utilisateurs pouvaient être identifiés sur deux sites après juste une observation de leurs intérêts. Ce chiffre augmente avec plus d'observations, 55 % identifiés après deux observations et 60 % après trois.

Ces résultats montrent que l'API ne garantit pas le même niveau de confidentialité pour tous les utilisateurs. Plus spécifiquement, les utilisateurs avec des intérêts stables sont à un plus grand risque d'être suivis. Les annonceurs peuvent rapidement les réidentifier, et ça soulève de sérieuses inquiétudes concernant la vie privée des utilisateurs.

Importance des données publiques

Notre évaluation met en avant le besoin d'évaluations claires et reproductibles des capacités de l'API. Google et d'autres organisations doivent partager des données utilisateur anonymisées pour aider les chercheurs à confirmer leurs affirmations. Sans accès à de vraies données utilisateur, il est difficile de déterminer si les mesures de protection de la vie privée sont efficaces.

Les données publiques sont essentielles pour comprendre les risques de confidentialité. Des études récentes montrent que l'API pourrait ne pas être en mesure de protéger les utilisateurs comme Google le prétend. Il est crucial d'avoir un ensemble de données partagé qui permet des évaluations approfondies des nouvelles technologies censées protéger la vie privée des utilisateurs.

Analyses précédentes

Avant de plonger plus profondément dans l'API, il est utile de jeter un œil aux études antérieures. Dans des travaux antérieurs, Google a publié des rapports sur l'API mais a utilisé des données privées auxquelles les autres ne pouvaient pas accéder. Ça pose problème, car les chercheurs ne peuvent pas vérifier les affirmations de Google sans les mêmes données.

Certaines études indépendantes ont collecté des données à partir de petits échantillons d'utilisateurs mais manquaient toujours de l'échelle nécessaire pour des évaluations complètes. Ces analyses antérieures ont mis en lumière des préoccupations potentielles, comme le fait que les utilisateurs avec des intérêts constants font face à un risque plus élevé d'être suivis.

Dernière version de l'API

La nouvelle version de l'API est arrivée avec plusieurs changements et améliorations visant à augmenter son utilité. Par exemple, Google a mis à jour la taxonomie utilisée pour catégoriser les sujets et a amélioré le classificateur d'apprentissage automatique qui détermine quels sujets sont pertinents pour chaque utilisateur.

Les changements visaient à mieux aligner les intérêts des annonceurs avec ce que les utilisateurs veulent vraiment voir. Cependant, ces modifications pour améliorer l'efficacité du système pourraient involontairement mettre la vie privée des utilisateurs en danger en permettant aux annonceurs d'identifier les utilisateurs plus facilement.

Analyse des historiques de navigation réels

Pour évaluer l'API, nous avons utilisé un ensemble de données d'historiques de navigation réels collectés auprès d'utilisateurs en Allemagne. Nous avons anonymisé les données pour protéger l'identité des utilisateurs. Les données que nous avons utilisées contenaient plus de neuf millions d'URL visitées par des utilisateurs à travers des milliers de domaines uniques sur une période de cinq semaines.

En analysant ces données, nous avons pu simuler comment l'API classifierait les intérêts des utilisateurs sur la base de leur comportement de navigation. Nous nous sommes concentrés spécifiquement sur la stabilité et l'unicité des intérêts des utilisateurs dans le temps.

Évaluation des risques de confidentialité

En examinant les risques de confidentialité de l'API, nous avons regardé comment l'API pourrait permettre aux annonceurs d'identifier les utilisateurs. Même si Google prétend que l'API offre une meilleure protection que les méthodes précédentes, notre analyse révèle que ce n'est pas le cas pour tous les utilisateurs.

L'API fonctionne en permettant aux annonceurs d'observer les intérêts que les utilisateurs ont partagés dans le passé. Cette méthode peut involontairement entraîner un suivi des utilisateurs sur la base de très peu d'observations. Comme le montre nos résultats, les utilisateurs stables font face à une plus grande chance d'être reconnus, ce qui peut conduire à des violations potentielles de la vie privée.

Sujets bruyants et déniabilité de la vie privée

Google a aussi essayé d'ajouter du "bruit" dans les données présentées aux annonceurs. En incluant des sujets aléatoires, l'API donne aux utilisateurs une déniabilité plausible sur leur comportement de navigation. Cependant, notre recherche suggère que cette méthode pourrait ne pas être efficace pour masquer les vrais intérêts des utilisateurs.

On a découvert que les annonceurs pouvaient signaler des sujets bruyants et les distinguer des véritables intérêts. Par exemple, si un sujet apparaît rarement sur des sites populaires, c'est probablement un sujet de bruit. Cette capacité à identifier les sujets bruyants facilite la compréhension des véritables préférences des utilisateurs par les annonceurs.

Ré-identification à travers les sites

Notre dernière analyse s'est concentrée sur la capacité des annonceurs à réidentifier des utilisateurs à travers différents sites. Nous avons simulé un scénario où deux annonceurs observaent les intérêts d'un utilisateur sur différents sites web. Ils pouvaient utiliser les informations recueillies pour identifier si le même utilisateur a visité les deux sites.

Dans nos tests, nous avons constaté que 46 % des utilisateurs pouvaient être identifiés de manière unique après juste une observation. Ce chiffre n'a fait qu'augmenter avec des observations supplémentaires, montrant un risque clair que les utilisateurs soient suivis.

Limites de l'étude

Il est important de reconnaître les limites auxquelles notre étude a fait face. L'ensemble de données que nous avons utilisé a été collecté en Allemagne en 2018, ce qui peut ne pas représenter fidèlement les habitudes de navigation de tous les utilisateurs aujourd'hui. La taille de l'échantillon relativement petite pose également des défis pour tirer des conclusions générales.

Malgré ces limites, utiliser ces données offre des perspectives précieuses sur les risques potentiels de l'API. Cela met en lumière les risques de confidentialité qui existaient lors de la collecte de données et si l'API aurait suffisamment protégé les utilisateurs.

Recommandations pour les évaluations futures

Pour améliorer les évaluations des garanties de confidentialité et d'utilité de l'API, nous recommandons des définitions claires des objectifs. Les objectifs de Washington doivent être mesurables pour permettre des évaluations précises. De plus, les évaluations devraient éviter de s'appuyer sur des ensembles de données privés, car cela limite l'accès aux informations nécessaires.

Au lieu de cela, nous plaidons pour la publication d'ensembles de données anonymisées par des entreprises comme Google. Cela permettrait aux chercheurs de réaliser des évaluations indépendantes et de vérifier les affirmations en toute confiance.

Les travaux futurs devraient également explorer des méthodes supplémentaires pour identifier les sujets bruyants et analyser le comportement des utilisateurs. Au fur et à mesure que de nouvelles propositions sont introduites, des évaluations en cours seront vitales pour garantir que la vie privée des utilisateurs est protégée de manière efficace.

Conclusion

Grâce à notre analyse, nous avons confirmé que l'API ne fournit pas de garanties de confidentialité cohérentes pour tous les utilisateurs. Nous avons souligné un risque significatif de fingerprinting des utilisateurs, en particulier pour ceux avec des intérêts stables, indiquant que les préoccupations en matière de vie privée sont réelles et doivent être abordées.

Nos résultats soulignent l'importance des données publiques et des évaluations reproductibles. À mesure que de nouvelles technologies émergent, l'infrastructure pour évaluer leur efficacité doit aussi évoluer. Les efforts pour améliorer la vie privée des utilisateurs doivent être basés sur des recherches vérifiables et des méthodologies claires pour éviter les erreurs précédentes dans le déploiement de technologies.

Le besoin de transparence et de collaboration dans l'industrie tech est critique. En encourageant les entreprises à partager des ensembles de données anonymisées et représentatives, on peut s'assurer que les nouvelles technologies protègent vraiment la vie privée des utilisateurs sans sacrifier l'utilité que recherchent les annonceurs.

Source originale

Titre: A Public and Reproducible Assessment of the Topics API on Real Data

Résumé: The Topics API for the web is Google's privacy-enhancing alternative to replace third-party cookies. Results of prior work have led to an ongoing discussion between Google and research communities about the capability of Topics to trade off both utility and privacy. The central point of contention is largely around the realism of the datasets used in these analyses and their reproducibility; researchers using data collected on a small sample of users or generating synthetic datasets, while Google's results are inferred from a private dataset. In this paper, we complement prior research by performing a reproducible assessment of the latest version of the Topics API on the largest and publicly available dataset of real browsing histories. First, we measure how unique and stable real users' interests are over time. Then, we evaluate if Topics can be used to fingerprint the users from these real browsing traces by adapting methodologies from prior privacy studies. Finally, we call on web actors to perform and enable reproducible evaluations by releasing anonymized distributions. We find that for the 1207 real users in this dataset, the probability of being re-identified across websites is of 2%, 3%, and 4% after 1, 2, and 3 observations of their topics by advertisers, respectively. This paper shows on real data that Topics does not provide the same privacy guarantees to all users and that the information leakage worsens over time, further highlighting the need for public and reproducible evaluations of the claims made by new web proposals.

Auteurs: Yohan Beugin, Patrick McDaniel

Dernière mise à jour: 2024-08-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.19577

Source PDF: https://arxiv.org/pdf/2403.19577

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires