Simple Science

Ciência de ponta explicada de forma simples

# Informática# Criptografia e segurança# Aprendizagem de máquinas

Decorações de Link: Riscos de Rastreamento e Privacidade

Analisando o uso de decorações de links no rastreamento online.

― 8 min ler


Rastreamento Através deRastreamento Através deDecorações de Linkcausados por decorações de links.Analisando os riscos de privacidade
Índice

A Privacidade online tá ficando cada vez mais importante, já que mais gente tá percebendo como suas informações são rastreadas enquanto navegam na web. Muitos sites usam técnicas pra coletar dados dos usuários sem o consentimento deles, o que levanta preocupações sobre privacidade e segurança. Um método comum de Rastreamento é pelo que chamam de decorações de link. Essas são informações extras que são adicionadas aos URLs que podem ser usadas pra identificar os usuários e rastrear a atividade deles em diferentes sites.

Esse artigo vai falar sobre como as decorações de link são usadas pra rastrear, os desafios que elas trazem e uma nova abordagem pra detectar e higienizar elas pra proteger a privacidade dos usuários.

O Que São Decorações de Link?

Decorações de link são as informações extras que podem ser anexadas a um URL. Um URL é feito de várias partes: o esquema (como http ou https), o nome do domínio (como www.exemplo.com), o caminho do recurso (que aponta pra uma página ou arquivo específico), parâmetros de consulta (que são pares de chave-valor usados pra informações adicionais) e fragmentos (que podem se referir a uma seção específica de uma página).

Enquanto os parâmetros de consulta são reconhecidos como decorações de link, outras partes como caminhos de recurso e fragmentos também podem influenciar o rastreamento. Essas decorações permitem que os sites passem informações sobre os usuários enquanto eles navegam de uma página pra outra. Infelizmente, muitos anunciantes e rastreadores mal utilizam essas decorações pra coletar dados pessoais.

Como as Decorações de Link São Mal Utilizadas

O mau uso das decorações de link não é um problema novo. Anunciantes vêm usando isso desde os primórdios da internet pra rastrear o comportamento dos usuários e medir o sucesso das suas campanhas. Isso inclui usar parâmetros específicos que podem identificar usuários em vários sites.

Por exemplo, alguns sites podem incluir parâmetros nos URLs que rastreiam se um usuário clicou em um anúncio específico. Esses parâmetros podem capturar informações sensíveis, como cookies de primeira parte (que ajudam a rastrear sessões de usuários), endereços de e-mail e até dados que podem criar uma impressão digital do navegador do usuário.

Quando os usuários clicam em links com essas decorações, as informações deles podem ser enviadas de volta pra anunciantes ou outras partes sem que eles saibam, levando a sérias violações de privacidade.

Soluções Existentes e Suas Limitações

Diversos navegadores e extensões de navegador desenvolveram contramedidas contra o mau uso das decorações de link. Isso inclui bloquear parâmetros de rastreamento conhecidos, remover parâmetros de consulta específicos e empregar listas de filtros pra evitar rastreamento. Embora essas soluções tenham ajudado a reduzir o rastreamento até certo ponto, elas ainda têm limitações notáveis:

  1. Curadoria Manual: Muitas ferramentas existentes dependem de listas compiladas manualmente de parâmetros de rastreamento, que podem ficar ultrapassadas conforme novos métodos de rastreamento são desenvolvidos.

  2. Falsos Positivos: Bloquear parâmetros específicos pode acabar interferindo na funcionalidade normal do site, já que alguns URLs têm tanto propósitos de rastreamento quanto não.

  3. Lacunas de Cobertura: À medida que as técnicas de rastreamento evoluem, as contramedidas existentes podem não pegar sempre novas ou modificadas decorações.

Diante desses desafios, uma nova abordagem é necessária pra garantir que os dados dos usuários permaneçam privados enquanto permitem que as operações legítimas dos sites continuem.

Uma Nova Abordagem pra Detectar e Higienizar Decorações de Link

Pra lidar com a questão das decorações de link de maneira eficaz, uma abordagem de Aprendizado de Máquina foi proposta. Esse método aproveita uma representação gráfica que captura como diferentes partes de uma página web interagem entre si. Ao analisar essa representação, o sistema pode identificar se as decorações de link são usadas pra rastreamento ou propósitos funcionais.

Como Funciona o Sistema de Aprendizado de Máquina

  1. Coleta de Dados: O sistema primeiro coleta dados de várias páginas web, examinando como elas funcionam. Isso inclui interações entre elementos HTML, scripts e solicitações de rede.

  2. Representação Gráfica: Os dados coletados são estruturados em um formato gráfico. Os nós nesse gráfico representam diferentes elementos, como páginas HTML, scripts e decorações de link. As conexões (ou arestas) entre esses nós descrevem o fluxo de informações.

  3. Extração de Características: O sistema analisa o gráfico pra extrair características que distinguem entre decorações de link de rastreamento e não-rastreamento.

  4. Classificação Supervisionada: Usando as características extraídas, um classificador supervisionado pode então determinar quais decorações de link são provavelmente usadas pra rastreamento. O classificador é treinado em dados rotulados pra melhorar sua precisão.

Benefícios Dessa Abordagem

  • Maior Precisão: Usando um método baseado em aprendizado de máquina, o sistema pode alcançar altas taxas de precisão na detecção de decorações de link de rastreamento.

  • Robustez: O sistema é projetado pra ser robusto contra técnicas comuns de evasão usadas por rastreadores, como mudar nomes de parâmetros ou combinar vários parâmetros em um só.

  • Menos Quebras: Esse método minimiza a chance de quebrar a funcionalidade do site, já que pode distinguir entre o uso de decorações de link pra rastreamento e uso funcional.

Medindo a Prevalência das Decorações de Link

Pra entender a extensão do mau uso das decorações de link, foi feito um estudo em uma amostra dos sites mais populares. A análise revelou que uma porcentagem significativa desses sites continha decorações de link associadas a práticas de rastreamento. Isso mostra o problema generalizado do abuso de decorações de link na internet.

Identificando os Malfeitores das Decorações de Link

A análise também identificou organizações e serviços específicos que frequentemente usam decorações de link pra rastreamento. Nomes conhecidos em publicidade e análise costumavam ser os principais infratores, demonstrando um padrão em como essas decorações são usadas pra coletar informações dos usuários.

Informações Compartilhadas Através das Decorações de Link

O estudo também explorou que tipos de informações eram tipicamente extraídas através das decorações de link. Isso incluía:

  • Informações de Armazenamento do Navegador: Muitos sites usavam decorações de link pra enviar dados sensíveis armazenados em cookies ou armazenamento local.

  • Identificadores Determinísticos: Decorações de link frequentemente continham informações identificáveis, como endereços de e-mail ou nomes de usuário.

  • Informações Probabilísticas: Algumas decorações eram usadas pra coletar dados que poderiam criar impressões digitais únicas do navegador do usuário baseadas em parâmetros como resolução de tela ou fontes instaladas.

Técnicas de Evasão dos Rastreadores

À medida que os métodos de rastreamento evoluem, as táticas usadas pelos rastreadores pra driblar as contramedidas também mudam. Isso inclui usar técnicas de ofuscação pra esconder o verdadeiro propósito das decorações de link, dividir decorações em partes menores ou combiná-las em uma única string.

A nova abordagem de aprendizado de máquina demonstrou robustez contra essas táticas de evasão, mostrando sua eficácia em manter a privacidade dos usuários mesmo com a mudança dos métodos de rastreamento.

Conclusão

A questão do mau uso das decorações de link pra rastreamento traz desafios significativos pra privacidade online. As soluções atuais têm limitações, mas uma nova abordagem baseada em aprendizado de máquina mostra promessas em detectar e higienizar essas decorações de forma precisa e eficaz. Esse método pode ajudar a proteger os dados dos usuários enquanto ainda permite a funcionalidade legítima dos sites, abrindo caminho pra experiências de navegação mais seguras.

À medida que o cenário digital continua a evoluir, é crucial permanecer vigilante e proativo no desenvolvimento de ferramentas que salvaguardem a privacidade. Essa nova abordagem representa um passo à frente no esforço contínuo pra combater o rastreamento online e proteger os usuários de coleta indesejada de dados.

Fonte original

Título: PURL: Safe and Effective Sanitization of Link Decoration

Resumo: While privacy-focused browsers have taken steps to block third-party cookies and mitigate browser fingerprinting, novel tracking techniques that can bypass existing countermeasures continue to emerge. Since trackers need to share information from the client-side to the server-side through link decoration regardless of the tracking technique they employ, a promising orthogonal approach is to detect and sanitize tracking information in decorated links. To this end, we present PURL (pronounced purel-l), a machine-learning approach that leverages a cross-layer graph representation of webpage execution to safely and effectively sanitize link decoration. Our evaluation shows that PURL significantly outperforms existing countermeasures in terms of accuracy and reducing website breakage while being robust to common evasion techniques. PURL's deployment on a sample of top-million websites shows that link decoration is abused for tracking on nearly three-quarters of the websites, often to share cookies, email addresses, and fingerprinting information.

Autores: Shaoor Munir, Patrick Lee, Umar Iqbal, Zubair Shafiq, Sandra Siby

Última atualização: 2024-03-06 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.03417

Fonte PDF: https://arxiv.org/pdf/2308.03417

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes