Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computadores e sociedade# Criptografia e segurança

A API de Tópicos: Uma Nova Abordagem para a Privacidade em Anúncios Online

A API de Tópicos do Google tem como objetivo melhorar a privacidade dos usuários na publicidade.

― 8 min ler


API de Tópicos:API de Tópicos:Privacidade nos Anúnciosonline.identidades dos usuários na publicidadeNovos métodos visam proteger as
Índice

O Rastreamento na web por meio de cookies de terceiros é uma grande preocupação pra privacidade das pessoas. Muita gente já pediu o fim desse método, pois ele rastreia os usuários em diferentes sites sem o consentimento claro deles. Recentemente, o Google lançou a API de Tópicos como uma nova forma de lidar com anúncios que respeita mais a privacidade do usuário. Esse sistema cria um perfil do usuário baseado no que ele anda vendo online. Os Anunciantes usam esses perfis pra mostrar anúncios que combinam com os interesses dos usuários. Mas é importante entender como esse sistema funciona e quais suas fraquezas.

Entendendo a API de Tópicos

A API de Tópicos foi criada pra substituir o método antigo de rastrear usuários por meio de cookies. Em vez de coletar informações pessoais detalhadas, ela gera um perfil que resume os interesses de um usuário com base na sua atividade online recente. Toda semana, o navegador escolhe tópicos que os visitantes de sites mostraram interesse, tornando tudo menos invasivo que os métodos tradicionais.

Quando um usuário visita um site, a API de Tópicos gera um perfil de possíveis interesses com base nos tipos de sites que ele visita com frequência. Os sites podem então solicitar uma versão desse perfil que não exponha informações pessoais de forma a identificar facilmente o usuário.

Pra manter um nível de privacidade, a API de Tópicos substitui aleatoriamente alguns dos tópicos por outros não relacionados. Isso significa que, embora os anunciantes possam ter uma ideia geral do que um usuário pode gostar, eles não conseguem identificar o usuário com certeza.

Rastreamento na Web Hoje

No cenário atual de publicidade, as empresas coletam e analisam dados pra monetizar seu conteúdo. Os dados dos usuários são coletados pra construir perfis detalhados que informam sobre onde os anúncios devem ser colocados. O processo geralmente depende de cookies de terceiros que rastreiam os usuários em vários sites. Quando um usuário visita um site, um rastreador adiciona um cookie ao navegador dele. Esse cookie contém um identificador único, permitindo que rastreadores conectem várias visitas ao mesmo usuário.

No entanto, esse método atrai muitas críticas pela falta de consentimento do usuário e pelo potencial de abuso. Alguns navegadores começaram a restringir o uso de cookies de terceiros. Como resultado, muitas empresas e pesquisadores estão buscando alternativas que respeitem a privacidade do usuário.

Novas Medidas de Privacidade

Pra se afastar dos métodos de rastreamento invasivos, novas propostas estão sendo exploradas pra dar aos usuários mais controle sobre seus dados. Essas novas abordagens costumam tentar substituir os cookies de terceiros por sistemas que protegem as informações dos usuários enquanto ainda oferecem anúncios personalizados.

A primeira tentativa do Google nesse sentido foi chamada de Aprendizado Federado de Grupos (FLoC). Nesse sistema, os usuários eram agrupados em coortes com base em interesses compartilhados, sem tornar as identidades individuais públicas. No entanto, o método enfrentou críticas, pois ainda permitia um potencial rastreamento através de coortes ao longo do tempo, o que poderia eventualmente levar à identificação individual.

Com a API de Tópicos, o navegador é responsável por gerar Perfis de Usuários com base na atividade de navegação, enquanto mantém medidas de privacidade mais rígidas. Essa abordagem não só protege melhor as identidades individuais, mas também limita os dados compartilhados com os anunciantes.

O Risco de Re-identificação

Apesar desses avanços, a API de Tópicos não é infalível. Pesquisadores avaliaram suas vulnerabilidades, especialmente o potencial de re-identificação. Isso significa que alguém com más intenções poderia usar a API de Tópicos pra juntar informações suficientes e identificar um usuário em diferentes sites.

Usando dados reais de tráfego na internet, os pesquisadores testaram como um atacante poderia acumular tópicos. Ao reunir tópicos suficientes que o usuário se interessa ao longo do tempo, pode ser possível combinar esse perfil com usuários que visitam diferentes sites. Esse risco destaca que, embora a API de Tópicos avance na proteção da privacidade do usuário, não elimina a possibilidade de os usuários serem rastreados ou identificados.

Como Funciona a Re-identificação?

Pra entender como a re-identificação poderia acontecer com a API de Tópicos, é essencial olhar pra como os perfis de usuários são construídos. O navegador coleta dados sobre os sites que um usuário visita ao longo do tempo e combina essas informações em um perfil de tópicos. Quando um atacante tenta identificar um usuário, ele precisaria reunir tópicos expostos e depois combiná-los com perfis de outro site.

Se um usuário visita um determinado site com frequência e um atacante consegue observar seus tópicos, ele pode tentar criar um perfil de usuário único. Assim, o atacante pode descobrir que o perfil tem características únicas, facilitando a identificação do usuário em outro contexto.

Pra avaliar quão vulnerável um perfil de usuário é a esse tipo de ataque, é necessário considerar o número de usuários que podem ter perfis semelhantes. Se muitos usuários têm os mesmos ou semelhantes perfis, o risco de re-identificação diminui, pois seria mais difícil identificar um indivíduo específico.

O Papel do Tamanho da População na Anonimidade

O tamanho da audiência de um site pode impactar muito a probabilidade de uma re-identificação bem-sucedida. Uma população maior aumenta a probabilidade de que um perfil de usuário seja compartilhado entre várias pessoas. Portanto, à medida que a audiência cresce, as chances de identificar um usuário específico diminuem. No entanto, isso não elimina completamente o risco, especialmente para indivíduos com interesses muito únicos.

Além disso, se um atacante usar informações extras – como o IP de um usuário, tipo de dispositivo ou outros fatores identificadores – ele pode reduzir o grupo de correspondências potenciais. Essa ação aumentaria as chances de um ataque de re-identificação bem-sucedido.

Mitigando os Riscos

Uma das características principais da API de Tópicos é sua substituição aleatória de tópicos. Ao substituir periodicamente tópicos reais por aleatórios, a API cria uma barreira contra re-identificações fáceis. A ideia é que, se muitos tópicos em um perfil de usuário forem inseridos aleatoriamente, o perfil se torna mais difícil de combinar com um indivíduo.

No entanto, essa aleatoriedade também pode trabalhar contra os usuários. Os tópicos aleatórios podem, às vezes, filtrar interesses genuínos, dificultando a identificação de perfis únicos. Pode haver áreas onde os usuários visitam tópicos específicos apenas ocasionalmente, e esses interesses raros poderiam ser excluídos.

No geral, adicionar tópicos aleatórios melhora a anonimidade até certo ponto, mas é essencial encontrar um equilíbrio entre muita aleatoriedade e a necessidade de manter perfis publicitários úteis.

Testando a API de Tópicos

Pra avaliar quão eficaz é a API de Tópicos em prevenir a re-identificação, vários modelos foram criados pra simular o comportamento do usuário. Ao examinar como os usuários interagem online e como seus perfis são formados, os pesquisadores podem entender melhor as limitações das proteções da API.

Através de simulações, os pesquisadores descobriram que, embora a API de Tópicos ofereça algum nível de proteção, as chances de re-identificação correta ainda podem variar entre 15% a 17%. Isso significa que existe um risco significativo de que os usuários possam ser identificados com base nos tópicos com os quais estão associados.

Considerações Finais

O desenvolvimento da API de Tópicos representa um esforço pra se afastar de métodos de rastreamento invasivos na web, enquanto ainda permite experiências publicitárias personalizadas. No entanto, a análise mostra que o potencial de re-identificação continua sendo uma preocupação, e pesquisas contínuas são necessárias pra encontrar formas melhores de proteger os usuários.

Embora a API de Tópicos possa obscurecer as identidades dos usuários, não garante anonimidade absoluta. A frequência das visitas a sites e a diversidade dos interesses dos usuários desempenharão um papel crucial em determinar quão vulneráveis os indivíduos estão a serem rastreados.

À medida que anunciantes e empresas de tecnologia se adaptam a esse novo cenário, é fundamental monitorar a eficácia da API de Tópicos e propor melhorias quando necessário. Novos métodos devem sempre ser explorados pra lidar com preocupações de privacidade, equilibrando os interesses dos anunciantes e dos usuários.

Em resumo, embora a API de Tópicos seja um avanço na busca pela privacidade do usuário, ela não é infalível. Esforços contínuos são necessários pra garantir que os usuários possam navegar na internet sem o medo de serem rastreados ou identificados.

Fonte original

Título: On the Robustness of Topics API to a Re-Identification Attack

Resumo: Web tracking through third-party cookies is considered a threat to users' privacy and is supposed to be abandoned in the near future. Recently, Google proposed the Topics API framework as a privacy-friendly alternative for behavioural advertising. Using this approach, the browser builds a user profile based on navigation history, which advertisers can access. The Topics API has the possibility of becoming the new standard for behavioural advertising, thus it is necessary to fully understand its operation and find possible limitations. This paper evaluates the robustness of the Topics API to a re-identification attack where an attacker reconstructs the user profile by accumulating user's exposed topics over time to later re-identify the same user on a different website. Using real traffic traces and realistic population models, we find that the Topics API mitigates but cannot prevent re-identification to take place, as there is a sizeable chance that a user's profile is unique within a website's audience. Consequently, the probability of correct re-identification can reach 15-17%, considering a pool of 1,000 users. We offer the code and data we use in this work to stimulate further studies and the tuning of the Topic API parameters.

Autores: Nikhil Jha, Martino Trevisan, Emilio Leonardi, Marco Mellia

Última atualização: 2023-06-08 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.05094

Fonte PDF: https://arxiv.org/pdf/2306.05094

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes