Décor de liens : Risques de suivi et de vie privée
Examiner l'utilisation des décorations de liens dans le suivi en ligne.
― 8 min lire
Table des matières
- Qu'est-ce que les décorations de lien ?
- Comment les décorations de lien sont mal utilisées
- Solutions existantes et leurs limites
- Une nouvelle approche pour détecter et assainir les décorations de lien
- Mesurer la prévalence des décorations de lien
- Identifier les abus de décorations de lien
- Infos partagées via les décorations de lien
- Techniques d'évasion des suiveurs
- Conclusion
- Source originale
- Liens de référence
La Vie privée en ligne devient de plus en plus importante alors que de plus en plus de gens réalisent comment leurs infos sont suivies pendant qu'ils naviguent sur le web. Beaucoup de sites utilisent des techniques pour collecter des données sur les utilisateurs sans leur consentement, ce qui soulève des inquiétudes sur la vie privée et la sécurité. Une méthode courante de Suivi, c'est ce qu'on appelle les décorations de lien. Ce sont des petits trucs ajoutés aux URLs qui peuvent être utilisés pour identifier les utilisateurs et suivre leurs activités sur différents sites.
Cet article va parler de comment les décorations de lien sont utilisées pour le suivi, des défis qu'elles posent, et d'une nouvelle approche pour les détecter et les assainir afin de protéger la vie privée des utilisateurs.
Qu'est-ce que les décorations de lien ?
Les décorations de lien désignent les informations supplémentaires qui peuvent être ajoutées à une URL. Une URL est composée de plusieurs parties : le schéma (comme http ou https), le nom de domaine (comme www.example.com), le chemin de la ressource (qui pointe vers une page ou un fichier spécifique), des Paramètres de requête (qui sont des paires clé-valeur pour des infos supplémentaires), et des fragments (qui peuvent désigner une section spécifique d'une page).
Alors que les paramètres de requête sont souvent reconnus comme des décorations de lien, d'autres éléments comme les chemins de ressource et les fragments peuvent aussi jouer un rôle dans le suivi. Ces décorations permettent aux sites de passer des infos sur les utilisateurs pendant qu'ils naviguent d'une page à l'autre. Malheureusement, beaucoup d'annonceurs et de suiveurs abusent de ces décorations pour rassembler des données personnelles.
Comment les décorations de lien sont mal utilisées
L'abus des décorations de lien n'est pas un nouveau problème. Les annonceurs les utilisent depuis les débuts d'internet pour suivre le comportement des utilisateurs et mesurer le succès de leurs campagnes. Ça inclut l'utilisation de paramètres spécifiques qui peuvent identifier les utilisateurs sur plusieurs sites.
Par exemple, certains sites peuvent inclure des paramètres dans leurs URLs pour suivre si un utilisateur a cliqué sur une pub particulière. Ces paramètres peuvent capturer des infos sensibles, comme des cookies de première partie (qui aident à suivre les sessions des utilisateurs), des adresses email, et même des données qui peuvent créer une empreinte du navigateur de l'utilisateur.
Quand les utilisateurs cliquent sur des liens avec ces décorations, leurs infos peuvent être envoyées aux annonceurs ou à d'autres parties sans leur connaissance, ce qui mène à de graves violations de la vie privée.
Solutions existantes et leurs limites
Différents navigateurs et extensions de navigateur ont développé des contre-mesures contre l'abus des décorations de lien. Cela inclut le blocage de paramètres de suivi connus, le retrait de paramètres de requête spécifiques, et l'utilisation de listes de filtres pour éviter le suivi. Bien que ces solutions aient aidé à réduire le suivi dans une certaine mesure, elles ont encore des limites notables :
Curation manuelle : Beaucoup d'outils existants s'appuient sur des listes de paramètres de suivi compilées manuellement, ce qui peut devenir obsolète au fur et à mesure que de nouvelles méthodes de suivi sont développées.
Faux positifs : Bloquer des paramètres spécifiques peut perturber involontairement le fonctionnement normal d'un site, car certaines URLs ont à la fois des fins de suivi et non-suivi.
Lacunes de couverture : À mesure que les techniques de suivi évoluent, les contre-mesures existantes peuvent ne pas toujours attraper de nouvelles décorations ou des décorations modifiées.
Vu ces défis, une nouvelle approche est nécessaire pour garantir que les données des utilisateurs restent privées tout en permettant le bon fonctionnement des sites légitimes.
Une nouvelle approche pour détecter et assainir les décorations de lien
Pour s'attaquer au problème des décorations de lien de manière efficace, une approche basée sur le machine learning a été proposée. Cette méthode utilise une représentation graphique qui capte comment différentes parties d'une page web interagissent entre elles. En analysant cette représentation, le système peut identifier si les décorations de lien sont utilisées pour le suivi ou à des fins fonctionnelles.
Comment fonctionne le système de machine learning
Collecte de données : Le système commence par collecter des données sur différentes pages web, en examinant leur fonctionnement. Cela inclut les interactions entre les éléments HTML, les scripts, et les requêtes réseau.
Représentation graphique : Les données collectées sont structurées sous forme graphique. Les nœuds de ce graphe représentent différents éléments, comme des pages HTML, des scripts, et des décorations de lien. Les connexions (ou arêtes) entre ces nœuds décrivent le flux d'infos.
Extraction de caractéristiques : Le système analyse le graphe pour extraire les caractéristiques qui distinguent les décorations de lien de suivi et non-suivi.
Classification supervisée : En utilisant les caractéristiques extraites, un classificateur supervisé peut alors déterminer quelles décorations de lien sont probablement utilisées pour le suivi. Le classificateur est formé sur des données étiquetées pour améliorer sa précision.
Avantages de cette approche
Précision élevée : En utilisant une méthode basée sur le machine learning, le système peut atteindre des taux de précision élevés dans la détection des décorations de lien de suivi.
Robustesse : Le système est conçu pour être robuste contre les techniques d'évasion couramment utilisées par les suiveurs, comme le changement de noms de paramètres ou la combinaison de plusieurs paramètres en un seul.
Réduction des dysfonctionnements : Cette méthode minimise le risque de casser la fonctionnalité des sites, car elle peut distinguer entre l'utilisation de décorations de lien pour le suivi et celles pour des fins fonctionnelles.
Mesurer la prévalence des décorations de lien
Pour comprendre l'étendue de l'abus des décorations de lien, une étude a été réalisée sur un échantillon des sites les plus populaires. L'analyse a révélé qu'un pourcentage significatif de ces sites contenait des décorations de lien associées à des pratiques de suivi. Cela montre le problème répandu de l'abus des décorations de lien sur internet.
Identifier les abus de décorations de lien
L'analyse a également identifié des organisations et des services spécifiques qui utilisent fréquemment des décorations de lien pour le suivi. Des noms bien connus dans la publicité et l'analyse étaient souvent trouvés être les principaux fautifs, montrant un schéma dans la façon dont ces décorations sont utilisées pour rassembler des infos sur les utilisateurs.
Infos partagées via les décorations de lien
L'étude a également exploré quels types d'infos étaient généralement exfiltrés via les décorations de lien. Cela incluait :
Infos sur le stockage du navigateur : Beaucoup de sites utilisaient des décorations de lien pour envoyer des données sensibles stockées dans des cookies ou un stockage local.
Identifiants déterministes : Les décorations de lien contenaient souvent des infos identifiables comme des adresses email ou des noms d'utilisateur.
Infos probabilistes : Certaines décorations étaient utilisées pour rassembler des données qui pouvaient créer des empreintes uniques du navigateur d'un utilisateur en fonction de paramètres comme la résolution d'écran ou les polices installées.
Techniques d'évasion des suiveurs
À mesure que les méthodes de suivi évoluent, les tactiques des suiveurs pour contourner les contre-mesures évoluent aussi. Cela inclut l'utilisation de techniques d'obfuscation pour cacher le vrai but des décorations de lien, le fractionnement des décorations en parties plus petites, ou les combiner en une seule chaîne.
La nouvelle approche basée sur le machine learning a montré une robustesse contre ces tactiques d'évasion, prouvant son efficacité à maintenir la vie privée des utilisateurs même lorsque les méthodes de suivi changent.
Conclusion
Le problème de l'abus des décorations de lien pour le suivi pose des défis significatifs à la vie privée en ligne. Les solutions actuelles ont leurs limites, mais une nouvelle approche basée sur le machine learning montre des promesses pour détecter et assainir ces décorations de manière précise et efficace. Cette méthode peut aider à protéger les données des utilisateurs tout en permettant aux fonctionnalités légitimes des sites de continuer, ouvrant la voie à des expériences de navigation plus sûres.
Alors que le paysage numérique continue d'évoluer, il est crucial de rester vigilant et proactif dans le développement d'outils qui protègent la vie privée. Cette nouvelle approche représente un pas en avant dans l'effort continu pour combattre le suivi en ligne et protéger les utilisateurs de la collecte de données non désirée.
Titre: PURL: Safe and Effective Sanitization of Link Decoration
Résumé: While privacy-focused browsers have taken steps to block third-party cookies and mitigate browser fingerprinting, novel tracking techniques that can bypass existing countermeasures continue to emerge. Since trackers need to share information from the client-side to the server-side through link decoration regardless of the tracking technique they employ, a promising orthogonal approach is to detect and sanitize tracking information in decorated links. To this end, we present PURL (pronounced purel-l), a machine-learning approach that leverages a cross-layer graph representation of webpage execution to safely and effectively sanitize link decoration. Our evaluation shows that PURL significantly outperforms existing countermeasures in terms of accuracy and reducing website breakage while being robust to common evasion techniques. PURL's deployment on a sample of top-million websites shows that link decoration is abused for tracking on nearly three-quarters of the websites, often to share cookies, email addresses, and fingerprinting information.
Auteurs: Shaoor Munir, Patrick Lee, Umar Iqbal, Zubair Shafiq, Sandra Siby
Dernière mise à jour: 2024-03-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.03417
Source PDF: https://arxiv.org/pdf/2308.03417
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.