Simple Science

Ciência de ponta explicada de forma simples

# Informática# Criptografia e segurança

Novo Método para Detecção de Rastreadores e Funcionalidade de Sites

Uma nova solução detecta rastreadores online enquanto mantém os sites funcionais.

― 8 min ler


Método Avançado deMétodo Avançado deDetecção de Rastreadoresbloqueador sem quebrar o site.Nova técnica melhora a precisão do
Índice

A internet tá cheia de sistemas de rastreamento que coletam dados sobre o comportamento dos usuários online. Esses Rastreadores geralmente fazem parte de anúncios, redes sociais e outros serviços online. Enquanto alguns usuários querem bloquear esses rastreadores pra proteger sua privacidade, fazer isso pode, às vezes, quebrar sites. Esse artigo vai falar sobre um novo método pra detectar rastreadores automaticamente, minimizando o impacto na funcionalidade dos sites.

O Que São Rastreadores?

Rastreadores são pedaços de software, como código JavaScript ou cookies, que ajudam a identificar usuários enquanto eles navegam em diferentes sites. Quando os usuários visitam um site, os rastreadores podem coletar vários tipos de dados sobre as atividades deles. Essas informações geralmente são enviadas de volta pra um servidor, permitindo que as empresas construam perfis detalhados do comportamento do usuário.

Tipos de Rastreadores

Tem dois tipos principais de rastreadores:

  1. Rastreadores Não Mistos: Esses rastreadores existem apenas pra monitorar a atividade do usuário sem oferecer nenhuma outra funcionalidade. Eles só servem pra coletar dados.

  2. Rastreadores Mistos: Rastreadores mistos desempenham duas funções: coletam dados do usuário e também ajudam com operações normais do site. Por exemplo, um script que rastreia o comportamento do usuário e também carrega um botão numa página é um rastreador misto.

O Problema com os Métodos Existentes

Atualmente, muitos bloqueadores de conteúdo, como AdBlock Plus e uBlock Origin, usam listas de regras pra determinar quais rastreadores bloquear. No entanto, essas listas frequentemente têm imprecisões. Às vezes, eles bloqueiam um rastreador que é necessário pra um site funcionar bem. Isso pode resultar em um site quebrado, o que irrita os usuários.

Além disso, os métodos existentes dependem muito de listas criadas por humanos, levando a erros e informações desatualizadas. Isso significa que eles podem perder alguns rastreadores ou bloquear recursos que são necessários pra página.

A Necessidade de Soluções Automatizadas

Dadas as falhas das listas criadas por humanos, há uma necessidade de uma solução automática que possa detectar rastreadores enquanto garante que os sites continuem funcionando corretamente. É aí que entra o novo método, focando em detectar rastreadores e identificar quando uma página está quebrada devido ao bloqueio de um recurso necessário.

Como o Novo Método Funciona

O novo método usa aprendizado de máquina pra analisar páginas da web. Ele combina dois detectores: um que identifica atividades de rastreamento e outro que verifica se uma página da web está quebrada. Ao observar como uma página se comporta quando um recurso é bloqueado, o sistema pode determinar se aquele recurso é um rastreador e se bloqueá-lo causa problemas.

Processo Passo a Passo

  1. Rasteando a Web: O sistema visita várias páginas da web e coleta dados sobre os recursos usados por cada página.

  2. Analisando Recursos: Ele verifica cada recurso pra ver se é usado pra rastreamento ou se bloqueá-lo vai quebrar a página.

  3. Extração de Características: O sistema compara como uma página carrega com e sem recursos específicos pra entender melhor o papel deles.

  4. Fazendo Previsões: Usando aprendizado de máquina, o sistema prevê se um recurso é um rastreador ou necessário pra funcionalidade da página.

  5. Criando Regras: Finalmente, o sistema gera regras pra bloquear rastreadores enquanto garante que recursos necessários permaneçam desbloqueados.

Benefícios do Novo Método

Alta Precisão

Em testes com cerca de 15.000 páginas da web, o novo método identificou rastreadores com um alto nível de precisão. Ele alcançou uma precisão de cerca de 97,44% na detecção de rastreadores não mistos.

Detectando Rastreadores Mistos

Para rastreadores mistos, o método reportou uma precisão de cerca de 79,09%. O sistema pode determinar quais campos de solicitação em um rastreador misto podem ser bloqueados com segurança sem quebrar a página.

Descobrindo Novos Rastreadores

O novo método também identificou rastreadores que não tinham sido relatados anteriormente. Isso ajuda a melhorar a compreensão de quantos rastreadores estão em uso hoje, fornecendo informações valiosas pros desenvolvedores de privacidade.

Entendendo a Quebra de Páginas da Web

A quebra de uma página da web ocorre quando um recurso essencial pro funcionamento de um site é bloqueado por engano. Isso pode levar a vários problemas, como conteúdo ausente ou botões que não funcionam.

Exemplos de Quebra

Por exemplo, um script que carrega imagens ou exibe elementos interativos pode ser bloqueado porque tá numa lista geral de rastreadores. Como resultado, a página da web pode não mostrar imagens ou botões, afetando a experiência do usuário.

A Importância das Regras de Exceção

Muitos bloqueadores de conteúdo usam regras de exceção pra corrigir problemas causados pelo bloqueio de recursos necessários. Essas regras permitem que recursos específicos sejam carregados mesmo que eles apareçam numa lista de bloqueio. O novo método também usa regras de exceção pra melhor precisão na detecção de quando um recurso é necessário.

Desafios na Detecção de Rastreadores

Detectar rastreadores e garantir que as páginas da web continuem funcionais apresenta vários desafios. Alguns incluem:

  1. Identificando Rastreadores Mistos: Rastreadores mistos combinam rastreamento e funcionalidade, tornando difícil determinar seu papel exato.

  2. Comportamento Não Determinístico: Páginas da web podem se comportar de forma diferente sob várias condições, como velocidade da rede ou configurações do usuário, complicando a análise.

  3. Limitações do Conjunto de Dados: Há uma falta de conjuntos de dados que contenham tanto amostras de rastreadores quanto exemplos de quebra, tornando mais desafiador treinar o sistema de detecção.

Avanços na Tecnologia de Detecção

O novo método aproveita técnicas modernas de aprendizado de máquina pra melhorar a precisão da detecção de rastreadores.

Principais Características Usadas na Detecção

  1. Características Diferenciais: Essas características são derivadas comparando como uma página da web se comporta com e sem um recurso. Essa abordagem captura detalhes essenciais sobre como o recurso impacta a funcionalidade da página.

  2. Modelos de Aprendizado de Máquina: O método emprega modelos específicos que são treinados com várias características extraídas de páginas da web. Esse treinamento ajuda o sistema a aprender os padrões que distinguem rastreadores de recursos funcionais.

Avaliando o Método

Pra validar sua eficácia, o método passa por testes rigorosos:

  1. Rasteando Vários Sites: Coletar dados de uma ampla gama de páginas da web ajuda a garantir que seja eficaz em diferentes contextos.

  2. Análise Manual dos Resultados: Especialistas examinam os resultados pra confirmar as previsões do sistema, permitindo ajustes e refinamentos mais precisos.

  3. Avaliação da Precisão em Relação às Listas Criadas por Humanos: O novo método é comparado com listas existentes criadas por humanos pra ver se pode identificar mais rastreadores com precisão.

O Papel dos Desenvolvedores de Privacidade

Os desenvolvedores de privacidade desempenham um papel crucial em manter a precisão dos rastreadores e garantir a segurança dos dados dos usuários.

Relatando Descobertas

O novo método confirmou e relatou mais de 22 rastreadores únicos que não tinham sido identificados anteriormente. Essas descobertas são compartilhadas com a comunidade pra ajudar a melhorar as listas de rastreadores usadas por vários bloqueadores de conteúdo.

Aumentando a Confiança do Usuário

Ao minimizar a quebra causada pelo bloqueio de recursos necessários, o novo método aumenta a confiança do usuário nos bloqueadores de conteúdo. Usuários são mais propensos a usar bloqueadores que não afetam negativamente sua experiência de navegação na web.

Conclusão

A nova abordagem pra detectar rastreadores marca uma melhoria significativa na maneira como os usuários podem bloquear atividades de rastreamento indesejadas online. Ao identificar automaticamente tanto rastreadores mistos quanto não mistos enquanto também avalia o impacto nas páginas da web, o método melhora a privacidade do usuário sem comprometer a funcionalidade do site.

À medida que mais usuários se tornam conscientes das preocupações com a privacidade, ferramentas que equilibram efetivamente o bloqueio de rastreadores e a integridade das páginas da web se tornarão cada vez mais importantes. O desenvolvimento contínuo de tais métodos ajudará a criar um ambiente online mais seguro pra todos.

Fonte original

Título: Dumviri: Detecting Trackers and Mixed Trackers with a Breakage Detector

Resumo: Web tracking harms user privacy. As a result, the use of tracker detection and blocking tools is a common practice among Internet users. However, no such tool can be perfect, and thus there is a trade-off between avoiding breakage (caused by unintentionally blocking some required functionality) and neglecting to block some trackers. State-of-the-art tools usually rely on user reports and developer effort to detect breakages, which can be broadly categorized into two causes: 1) misidentifying non-trackers as trackers, and 2) blocking mixed trackers which blend tracking with functional components. We propose incorporating a machine learning-based breakage detector into the tracker detection pipeline to automatically avoid misidentification of functional resources. For both tracker detection and breakage detection, we propose using differential features that can more clearly elucidate the differences caused by blocking a request. We designed and implemented a prototype of our proposed approach, Duumviri, for non-mixed trackers. We then adopt it to automatically identify mixed trackers, drawing differential features at partial-request granularity. In the case of non-mixed trackers, evaluating Duumviri on 15K pages shows its ability to replicate the labels of human-generated filter lists, EasyPrivacy, with an accuracy of 97.44%. Through a manual analysis, we find that Duumviri can identify previously unreported trackers and its breakage detector can identify overly strict EasyPrivacy rules that cause breakage. In the case of mixed trackers, Duumviri is the first automated mixed tracker detector, and achieves a lower bound accuracy of 74.19%. Duumviri has enabled us to detect and confirm 22 previously unreported unique trackers and 26 unique mixed trackers.

Autores: He Shuang, Lianying Zhao, David Lie

Última atualização: 2024-09-12 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.08031

Fonte PDF: https://arxiv.org/pdf/2402.08031

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes