Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Criptografía y seguridad

Evaluando la nueva API de Google: Privacidad vs. Utilidad

Un análisis de la efectividad de la API para equilibrar la privacidad del usuario y las necesidades publicitarias.

― 9 minilectura


Preocupaciones dePreocupaciones deprivacidad sobre la APIde Googlepublicidad de Google.Descubriendo riesgos en la API de
Tabla de contenidos

La API para la web es un nuevo sistema desarrollado por Google para reemplazar las cookies de terceros. Este sistema está pensado para ayudar a los Anunciantes a mostrar anuncios relevantes mientras se protege la Privacidad del usuario. Ha habido mucho debate entre investigadores y Google sobre si este sistema realmente ofrece tanto privacidad como utilidad.

Uno de los principales problemas en este debate es sobre los Datos usados en los estudios que prueban esta API. Algunos investigadores han utilizado cantidades pequeñas de datos recopilados de unos pocos Usuarios o han creado datos falsos para estudiar la API. Por otro lado, Google ha usado sus propios datos privados pero no ha compartido suficientes detalles, lo que dificulta que otros entiendan o verifiquen sus hallazgos.

Este artículo tiene como objetivo proporcionar una evaluación clara de la última versión de la API utilizando un gran conjunto de datos de navegación reales a los que cualquiera puede acceder. Vamos a ver cómo cambian los intereses de los usuarios con el tiempo, si los anunciantes pueden rastrear a los usuarios basándose en estos datos, y alentamos a las empresas a compartir datos de usuarios anonimizados para futuras evaluaciones.

Intereses de los Usuarios a lo Largo del Tiempo

Para empezar nuestra evaluación, primero verificamos cuán únicos y estables son los intereses de los usuarios reales. Esto nos da una idea de cómo se puede usar la API para rastrear a los usuarios con el tiempo.

Nuestro análisis muestra que el 93% de los usuarios tienen cinco intereses principales únicos cada semana. Además, el 47% de los usuarios tienen tres o más intereses que se mantienen igual de una semana a otra, mientras que menos del 6% de los usuarios no tienen ninguno. Esta estabilidad en los intereses significa que los anunciantes podrían potencialmente rastrear a los usuarios de manera efectiva si sus intereses son lo suficientemente únicos.

Rastreo de Usuarios

A continuación, exploramos si la API se puede usar para rastrear a los usuarios según sus intereses vistos en diferentes sitios web. Cuando usamos los datos de nuestros 1207 usuarios, encontramos que el 46% de los usuarios podía ser identificado en dos sitios web después de solo una observación de sus intereses. Este número aumenta con más observaciones, con un 55% identificado después de dos observaciones y un 60% después de tres.

Estos hallazgos muestran que la API no garantiza el mismo nivel de privacidad para todos los usuarios. Más específicamente, los usuarios con intereses estables están en mayor riesgo de ser rastreados. Los anunciantes pueden re-identificarlos rápidamente, lo que plantea serias preocupaciones sobre la privacidad del usuario.

Importancia de los Datos Públicos

Nuestra evaluación destaca la necesidad de evaluaciones claras y reproducibles de las capacidades de la API. Google y otras organizaciones necesitan compartir datos de usuarios anonimizados para ayudar a los investigadores a confirmar sus afirmaciones. Sin acceso a datos reales de usuarios, es difícil determinar si las salvaguardias de privacidad son efectivas.

Los datos públicos son esenciales para entender los riesgos de privacidad. Estudios recientes muestran que la API podría no ser capaz de proteger a los usuarios como Google afirma. Es crucial tener un conjunto de datos compartido que permita evaluaciones exhaustivas de nuevas tecnologías destinadas a proteger la privacidad del usuario.

Análisis Anteriores

Antes de profundizar en la API, es útil mirar estudios anteriores. En trabajos anteriores, Google publicó informes sobre la API pero usó datos privados a los que otros no pudieron acceder. Esto plantea problemas, ya que los investigadores no pueden verificar las afirmaciones de Google sin los mismos datos.

Algunos estudios independientes recopilaron datos de muestras pequeñas de usuarios, pero aún carecían de la escala necesaria para evaluaciones completas. Estos análisis anteriores destacaron preocupaciones potenciales, como cómo los usuarios con intereses consistentes enfrentan un mayor riesgo de ser rastreados.

Última Versión de la API

La versión más nueva de la API vino con varios cambios y mejoras pensadas para aumentar su utilidad. Por ejemplo, Google ha actualizado la taxonomía utilizada para categorizar temas y ha mejorado el clasificador de aprendizaje automático que determina qué temas son relevantes para cada usuario.

Los cambios estaban destinados a alinear mejor los intereses de los anunciantes con lo que los usuarios realmente quieren ver. Sin embargo, estos cambios para mejorar la efectividad del sistema podrían inadvertidamente poner en riesgo la privacidad del usuario al permitir que los anunciantes identifiquen a los usuarios más fácilmente.

Analizando Historiales de Navegación Reales

Para evaluar la API, usamos un conjunto de datos de historiales de navegación reales recopilados de usuarios en Alemania. Anonimizamos los datos para proteger las identidades de los usuarios. Los datos que usamos contenían más de nueve millones de URLs visitadas por usuarios en miles de dominios únicos durante un período de cinco semanas.

Al analizar estos datos, pudimos simular cómo la API clasificaría los intereses de los usuarios basándose en su comportamiento de navegación. Nos centramos específicamente en cuán estables y únicos son los intereses de los usuarios a lo largo del tiempo.

Evaluando Riesgos de Privacidad

Al examinar los riesgos de privacidad de la API, vimos cómo la API podría permitir que los anunciantes identifiquen a los usuarios. A pesar de que Google afirma que la API ofrece mejor protección que los métodos anteriores, nuestro análisis revela que esto no es el caso para todos los usuarios.

La API funciona permitiendo que los anunciantes observen los intereses que los usuarios han compartido en el pasado. Este método puede dar lugar a que los usuarios sean rastreados basándose en muy pocas observaciones. Como se ve en nuestros resultados, los usuarios estables enfrentan una mayor posibilidad de ser reconocidos, lo que lleva a posibles violaciones de la privacidad.

Temas Ruido y Negación de Privacidad

Google también intentó añadir "ruido" a los datos presentados a los anunciantes. Al incluir temas aleatorios, la API le da a los usuarios una negación plausible acerca de su comportamiento de navegación. Sin embargo, nuestra investigación sugiere que este método puede no ser efectivo para enmascarar los verdaderos intereses de los usuarios.

Encontramos que los anunciantes podían marcar temas de ruido y diferenciarlos de los intereses genuinos. Por ejemplo, si un tema aparece raramente en sitios web populares, es probable que sea un tema de ruido. Esta capacidad para identificar temas de ruido facilita a los anunciantes entender las verdaderas preferencias de los usuarios.

Re-identificación a través de Sitios Web

Nuestro análisis final se centró en la capacidad de los anunciantes para re-identificar a los usuarios en diferentes sitios. Simulamos un escenario donde dos anunciantes observaban los intereses de un usuario en diferentes sitios web. Podían usar la información recopilada para identificar si el mismo usuario visitó ambos sitios.

En nuestras pruebas, vimos que el 46% de los usuarios podía ser identificado de manera única después de solo una observación. Este número solo aumentó con observaciones adicionales, mostrando un claro riesgo de que los usuarios sean rastreados.

Limitaciones del Estudio

Es importante reconocer las limitaciones que enfrentó nuestro estudio. El conjunto de datos que usamos se recopiló en Alemania en 2018, lo que puede no representar con precisión los hábitos de navegación de todos los usuarios hoy en día. El tamaño de muestra relativamente pequeño también plantea desafíos para sacar conclusiones amplias.

A pesar de estas limitaciones, usar estos datos proporciona valiosas perspectivas sobre los riesgos potenciales de la API. Ilumina los riesgos de privacidad que existían durante el tiempo de recolección de datos y si la API habría protegido adecuadamente a los usuarios.

Recomendaciones para Futuras Evaluaciones

Para mejorar las evaluaciones de las garantías de privacidad y utilidad de la API, recomendamos definir claramente los objetivos. Los objetivos de Washington deben ser medibles para permitir evaluaciones precisas. Además, las evaluaciones deberían evitar basarse en conjuntos de datos privados, ya que esto limita el acceso a la información necesaria.

En su lugar, abogamos por la liberación de conjuntos de datos anonimizados por parte de empresas como Google. Hacerlo permitiría que los investigadores realizaran evaluaciones independientes y verificaran afirmaciones con confianza.

El trabajo futuro también debería explorar métodos adicionales para identificar temas de ruido y analizar el comportamiento del usuario. A medida que se introduzcan más propuestas, las evaluaciones continuas serán vitales para garantizar que la privacidad del usuario esté protegida de manera efectiva.

Conclusión

A través de nuestro análisis, hemos confirmado que la API no proporciona garantías de privacidad consistentes para todos los usuarios. Destacamos un riesgo significativo de huella digital del usuario, particularmente para aquellos con intereses estables, lo que indica que las preocupaciones de privacidad son reales y deben ser abordadas.

Nuestros hallazgos enfatizan la importancia de los datos públicos y las evaluaciones reproducibles. A medida que surjan nuevas tecnologías, la infraestructura para evaluar su efectividad también debe evolucionar. Los esfuerzos para mejorar la privacidad de los usuarios deben basarse en investigación verificable y metodologías claras para evitar errores previos en el despliegue de tecnología.

La necesidad de transparencia y colaboración en la industria tecnológica es crítica. Alentar a las empresas a compartir conjuntos de datos anonimizados y representativos puede garantizar que las nuevas tecnologías realmente protejan la privacidad del usuario sin sacrificar la utilidad que buscan los anunciantes.

Fuente original

Título: A Public and Reproducible Assessment of the Topics API on Real Data

Resumen: The Topics API for the web is Google's privacy-enhancing alternative to replace third-party cookies. Results of prior work have led to an ongoing discussion between Google and research communities about the capability of Topics to trade off both utility and privacy. The central point of contention is largely around the realism of the datasets used in these analyses and their reproducibility; researchers using data collected on a small sample of users or generating synthetic datasets, while Google's results are inferred from a private dataset. In this paper, we complement prior research by performing a reproducible assessment of the latest version of the Topics API on the largest and publicly available dataset of real browsing histories. First, we measure how unique and stable real users' interests are over time. Then, we evaluate if Topics can be used to fingerprint the users from these real browsing traces by adapting methodologies from prior privacy studies. Finally, we call on web actors to perform and enable reproducible evaluations by releasing anonymized distributions. We find that for the 1207 real users in this dataset, the probability of being re-identified across websites is of 2%, 3%, and 4% after 1, 2, and 3 observations of their topics by advertisers, respectively. This paper shows on real data that Topics does not provide the same privacy guarantees to all users and that the information leakage worsens over time, further highlighting the need for public and reproducible evaluations of the claims made by new web proposals.

Autores: Yohan Beugin, Patrick McDaniel

Última actualización: 2024-08-15 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2403.19577

Fuente PDF: https://arxiv.org/pdf/2403.19577

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares