L'API Topics : Une nouvelle approche pour la vie privée des pubs en ligne
L'API Topics de Google vise à améliorer la vie privée des utilisateurs dans la pub.
― 8 min lire
Table des matières
Le suivi web avec des cookies tiers inquiète pas mal de monde niveau privacy. Beaucoup demandent d’arrêter cette méthode, car ça suit les utilisateurs sur différents sites sans qu’ils aient vraiment donné leur accord. Récemment, Google a lancé l'API Topics comme un nouveau moyen de gérer la pub tout en respectant mieux la vie privée des utilisateurs. Ce système crée un profil d'utilisateur basé sur ce qu'il regarde en ligne. Les Annonceurs utilisent ensuite ces profils pour montrer des pubs qui collent aux intérêts des utilisateurs. Mais c'est important de comprendre comment ça fonctionne et quels sont ses faiblesses.
Comprendre l'API Topics
L'API Topics a été pensée pour remplacer l'ancienne méthode de suivi des utilisateurs via les cookies. Au lieu de collecter des infos personnelles détaillées, elle génère un profil qui résume les intérêts d'un utilisateur basé sur son activité en ligne récente. Chaque semaine, le navigateur choisit des sujets que les visiteurs de sites ont montré, ce qui est moins intrusif que les méthodes classiques.
Quand un utilisateur visite un site, l'API Topics génère un profil d'intérêts possibles selon les types de sites qu'il a fréquentés. Les sites peuvent alors demander une version de ce profil qui ne dévoile pas d'infos personnelles facilement identifiables.
Pour garder un certain niveau de privacy, l'API Topics remplace aléatoirement certains sujets par des sujets non liés. Ça veut dire que même si les annonceurs peuvent avoir une idée des goûts d'un utilisateur, ils ne peuvent pas savoir qui c'est avec certitude.
Suivi web aujourd'hui
Dans le paysage publicitaire actuel, les entreprises collectent et analysent des données pour monétiser leur contenu. Les données des utilisateurs sont récoltées pour construire des profils détaillés qui orientent le placement des pubs. Ce processus s'appuie généralement sur des cookies tiers qui suivent les utilisateurs sur plusieurs sites. Quand un utilisateur va sur un site, un tracker ajoute un cookie à son navigateur. Ce cookie contient un identifiant unique, ce qui permet aux trackers de relier plusieurs visites au même utilisateur.
Cependant, cette méthode a reçu beaucoup de critiques à cause du manque de consentement des utilisateurs et du potentiel d'abus. Certains navigateurs ont commencé à restreindre l'utilisation des cookies tiers. Du coup, beaucoup d'entreprises et de chercheurs cherchent des alternatives qui respectent mieux la vie privée des utilisateurs.
Nouvelles mesures de privacy
Pour s'éloigner des méthodes de suivi intrusives, on explore de nouvelles propositions qui permettent aux utilisateurs de mieux contrôler leurs données. Ces nouvelles approches cherchent souvent à remplacer les cookies tiers par des systèmes qui protègent les infos des utilisateurs tout en offrant des pubs personnalisées.
La première tentative de Google à ce sujet s'appelait Federated Learning of Cohorts (FLoC). Dans ce système, les utilisateurs étaient regroupés par cohortes selon des intérêts communs sans rendre publiques leurs identités individuelles. Mais ce système a été critiqué car il permettait toujours un suivi potentiel à travers les cohortes au fil du temps, ce qui pourrait mener à une identification individuelle.
Avec l'API Topics, le navigateur se charge de générer des Profils d'utilisateur basés sur l'activité de navigation tout en gardant des mesures de privacy plus strictes. Cette approche protège non seulement mieux les identités individuelles, mais limite aussi les données partagées avec les annonceurs.
Le risque de Ré-identification
Malgré ces avancées, l'API Topics n'est pas infaillible. Des chercheurs ont évalué ses vulnérabilités, surtout le potentiel de ré-identification. Ça veut dire qu'une personne mal intentionnée pourrait utiliser l'API Topics pour rassembler suffisamment d'infos pour identifier un utilisateur sur différents sites.
En utilisant des données réelles de trafic internet, les chercheurs ont testé comment un attaquant pourrait accumuler des sujets. En rassemblant assez de sujets qui intéressent l'utilisateur sur le temps, il pourrait être possible d'associer ce profil avec des utilisateurs visitant d'autres sites. Ce risque montre qu'hier l'API Topics fait des progrès pour protéger la vie privée des utilisateurs, cela ne supprime pas la possibilité qu'ils soient Suivis ou identifiés.
Comment fonctionne la ré-identification ?
Pour comprendre comment la ré-identification pourrait se faire avec l'API Topics, il faut voir comment les profils d'utilisateur sont construits. Le navigateur collecte des données sur les sites qu'un utilisateur visite au fil du temps et combine ces infos dans un profil de sujets. Quand un attaquant cherche à identifier un utilisateur, il lui faut rassembler des sujets exposés et les associer avec des profils d'un autre site.
Si un utilisateur visite souvent un site particulier et qu'un attaquant peut observer ses sujets, il peut essayer de créer un profil unique. En procédant ainsi, l'attaquant pourrait constater que le profil a ses propres caractéristiques, ce qui rendrait plus facile d'identifier l'utilisateur dans un autre contexte.
Pour évaluer à quel point un profil utilisateur est vulnérable à ce type d'attaque, il faut prendre en compte le nombre d'utilisateurs qui pourraient avoir des profils similaires. Si beaucoup d'utilisateurs ont le même ou un profil similaire, alors le risque de ré-identification diminue, car il est plus difficile de cibler un individu.
Le rôle de la taille de la population dans l'anonymat
La taille de l'audience d'un site peut beaucoup influencer la probabilité d'une ré-identification réussie. Une plus grande population augmente la probabilité qu'un profil utilisateur soit partagé entre plusieurs individus. Donc, plus l’audience est grande, moins il y a de chances d'identifier un utilisateur spécifique. Cependant, ça n'élimine pas totalement le risque, surtout pour les personnes avec des intérêts très uniques.
En plus, si un attaquant utilise des infos supplémentaires-comme l'adresse IP d'un utilisateur, le type de dispositif, ou d'autres facteurs d'identification-il peut réduire le groupe de potentiels correspondances. Cette action augmenterait les chances d'une attaque de ré-identification réussie.
Réduire les risques
Une des caractéristiques clés de l'API Topics est son remplacement aléatoire des sujets. En remplaçant périodiquement les sujets réels par des aléatoires, l'API crée un bouclier contre la ré-identification facile. L'idée est que si beaucoup de sujets dans un profil utilisateur sont insérés au hasard, le profil devient plus difficile à associer à un individu.
Cependant, cette randomisation peut aussi jouer contre les utilisateurs. Les sujets aléatoires peuvent parfois filtrer des intérêts authentiques, rendant difficile d'identifier des profils uniques. Il peut y avoir des domaines où les utilisateurs ne visitent que sporadiquement des sujets spécifiques, et ces intérêts rares pourraient être exclus.
En gros, ajouter des sujets aléatoires améliore l'anonymat dans une certaine mesure, mais il est essentiel de trouver un équilibre entre trop de randomisation et le besoin de maintenir des profils publicitaires utiles.
Tester l'API Topics
Pour évaluer l'efficacité de l'API Topics à prévenir la ré-identification, divers modèles ont été créés pour simuler le comportement des utilisateurs. En examinant comment les utilisateurs interagissent en ligne et comment leurs profils sont formés, les chercheurs peuvent mieux comprendre les limitations des protections de l'API.
À travers des simulations, les chercheurs ont trouvé que même si l'API Topics offre un certain niveau de protection, les chances de ré-identification correcte peuvent encore atteindre entre 15 % à 17 %. Ça veut dire qu'il y a un risque significatif que les utilisateurs puissent être identifiés selon les sujets qui leur sont associés.
Dernières réflexions
Le développement de l'API Topics représente un effort pour s'éloigner des méthodes de suivi web intrusives tout en permettant des expériences publicitaires personnalisées. Cependant, l'analyse montre que le potentiel de ré-identification reste une préoccupation, et une recherche continue est nécessaire pour trouver de meilleures façons de protéger les utilisateurs.
Alors que l'API Topics peut obscurcir les identités des utilisateurs, cela ne garantit pas une anonymité absolue. La fréquence des visites sur les sites et la diversité des intérêts des utilisateurs joueront un rôle crucial dans la vulnérabilité des individus à être suivis.
Alors que les annonceurs et les entreprises technologiques s'adaptent à ce nouveau paysage, il est crucial de surveiller l'efficacité de l'API Topics et de proposer des améliorations là où c'est nécessaire. De nouvelles méthodes doivent toujours être explorées pour gérer les préoccupations de privacy tout en équilibrant les intérêts des annonceurs et des utilisateurs.
En gros, même si l'API Topics est un pas en avant dans la quête de la vie privée des utilisateurs, ça reste pas infaillible. Des efforts continus sont nécessaires pour garantir que les utilisateurs peuvent naviguer sur Internet sans craindre d'être suivis ou identifiés.
Titre: On the Robustness of Topics API to a Re-Identification Attack
Résumé: Web tracking through third-party cookies is considered a threat to users' privacy and is supposed to be abandoned in the near future. Recently, Google proposed the Topics API framework as a privacy-friendly alternative for behavioural advertising. Using this approach, the browser builds a user profile based on navigation history, which advertisers can access. The Topics API has the possibility of becoming the new standard for behavioural advertising, thus it is necessary to fully understand its operation and find possible limitations. This paper evaluates the robustness of the Topics API to a re-identification attack where an attacker reconstructs the user profile by accumulating user's exposed topics over time to later re-identify the same user on a different website. Using real traffic traces and realistic population models, we find that the Topics API mitigates but cannot prevent re-identification to take place, as there is a sizeable chance that a user's profile is unique within a website's audience. Consequently, the probability of correct re-identification can reach 15-17%, considering a pool of 1,000 users. We offer the code and data we use in this work to stimulate further studies and the tuning of the Topic API parameters.
Auteurs: Nikhil Jha, Martino Trevisan, Emilio Leonardi, Marco Mellia
Dernière mise à jour: 2023-06-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.05094
Source PDF: https://arxiv.org/pdf/2306.05094
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://blog.google/products/chrome/update-testing-privacy-sandbox-web/
- https://privacysandbox.com/news/the-next-stages-of-privacy-sandbox-general-availability
- https://github.com/nikhiljha95/topics-api-simulator
- https://www.pimcity-h2020.eu/
- https://developer.chrome.com/docs/privacy-sandbox/topics/
- https://iabtechlab.com/standards/audience-taxonomy/
- https://github.com/patcg-individual-drafts/topics/blob/main/taxonomy_v1.md
- https://github.com/patcg-individual-drafts/topics