Nuevo método para la detección de trackers y la funcionalidad del sitio web
Una nueva solución detecta rastreadores en línea sin afectar el funcionamiento de los sitios web.
― 8 minilectura
Tabla de contenidos
- ¿Qué Son los Rastreadores?
- Tipos de Rastreadores
- El Problema con los Métodos Existentes
- La Necesidad de Soluciones Automatizadas
- Cómo Funciona el Nuevo Método
- Proceso Paso a Paso
- Beneficios del Nuevo Método
- Alta Precisión
- Detección de Rastreadores Mezclados
- Descubriendo Nuevos Rastreadores
- Entendiendo la Rotura de Páginas Web
- Ejemplos de Rotura
- La Importancia de las Reglas de Excepción
- Desafíos en la Detección de Rastreadores
- Avances en la Tecnología de Detección
- Características Clave Utilizadas en la Detección
- Evaluando el Método
- El Papel de los Desarrolladores de Privacidad
- Reportando Hallazgos
- Mejorando la Confianza del Usuario
- Conclusión
- Fuente original
- Enlaces de referencia
Internet está lleno de sistemas de seguimiento que recogen datos sobre el comportamiento de los usuarios en línea. Estos rastreadores suelen formar parte de anuncios, redes sociales y otros servicios en línea. Mientras que algunos usuarios quieren bloquear estos rastreadores para proteger su privacidad, hacerlo a veces puede romper sitios web. Este artículo va a hablar sobre un nuevo método para detectar automáticamente rastreadores mientras se minimiza el impacto en la funcionalidad del sitio web.
¿Qué Son los Rastreadores?
Los rastreadores son pedazos de software, como código JavaScript o cookies, que ayudan a identificar a los usuarios mientras navegan por diferentes sitios web. Cuando los usuarios visitan un sitio, los rastreadores pueden recopilar varios tipos de datos sobre su actividad. Esta información a menudo se envía de vuelta a un servidor, lo que permite a las empresas construir perfiles detallados del comportamiento del usuario.
Tipos de Rastreadores
Hay dos tipos principales de rastreadores:
Rastreadores No Mezclados: Estos rastreadores existen solo para monitorear la actividad del usuario sin proporcionar ninguna otra funcionalidad. Solo sirven para recopilar datos.
Rastreadores Mezclados: Los rastreadores mezclados realizan dos funciones: recopilan datos del usuario y también ayudan con las operaciones normales del sitio web. Por ejemplo, un script que rastrea el comportamiento del usuario y también carga un botón en una página web es un rastreador mezclado.
El Problema con los Métodos Existentes
Actualmente, muchos bloqueadores de contenido, como AdBlock Plus y uBlock Origin, usan listas de reglas para determinar qué rastreadores bloquear. Sin embargo, estas listas a menudo tienen inexactitudes. A veces, bloquean un rastreador que es necesario para que una página web funcione correctamente. Esto puede resultar en un sitio roto, lo que frustra a los usuarios.
Además, los métodos existentes dependen en gran medida de listas creadas por humanos, lo que conduce a errores e información desactualizada. Esto significa que pueden perder algunos rastreadores o bloquear erróneamente recursos que son necesarios para la página.
La Necesidad de Soluciones Automatizadas
Dadas las deficiencias de las listas creadas por humanos, hay una necesidad de una solución automática que pueda detectar rastreadores mientras asegura que los sitios web continúen funcionando correctamente. Aquí es donde entra el nuevo método, que se centra tanto en detectar rastreadores como en identificar cuándo una página web está rota debido al bloqueo de un recurso necesario.
Cómo Funciona el Nuevo Método
El nuevo método utiliza aprendizaje automático para analizar páginas web. Combina dos detectores: uno que identifica la actividad de seguimiento y otro que verifica la rotura de la página web. Al observar cómo se comporta una página cuando se bloquea un recurso, el sistema puede determinar si ese recurso es un rastreador y si bloquearlo causa problemas.
Proceso Paso a Paso
Rastreando la Web: El sistema visita varias páginas web y recolecta datos sobre los recursos usados por cada página.
Analizando Recursos: Revisa cada recurso para ver si se usa para rastrear o si bloquearlo romperá la página.
Extracción de Características: El sistema compara cómo se carga una página con y sin recursos específicos para entender mejor su papel.
Haciendo Predicciones: Usando aprendizaje automático, el sistema predice si un recurso es un rastreador o necesario para la funcionalidad de la página.
Creando Reglas: Finalmente, el sistema genera reglas para bloquear rastreadores mientras asegura que los recursos necesarios permanezcan desbloqueados.
Beneficios del Nuevo Método
Alta Precisión
En pruebas con alrededor de 15,000 páginas web, el nuevo método identificó rastreadores con un alto nivel de precisión. Logró una precisión de aproximadamente 97.44% en la detección de rastreadores no mezclados.
Detección de Rastreadores Mezclados
Para los rastreadores mezclados, el método reportó una precisión de alrededor de 79.09%. El sistema puede determinar qué campos de solicitud en un rastreador mezclado se pueden bloquear de manera segura sin romper la página.
Descubriendo Nuevos Rastreadores
El nuevo método también identificó rastreadores que no se habían reportado anteriormente. Esto ayuda a mejorar la comprensión de cuántos rastreadores se están utilizando hoy, proporcionando información valiosa para los desarrolladores de privacidad.
Entendiendo la Rotura de Páginas Web
La rotura de páginas web ocurre cuando un recurso esencial para la operación de un sitio es bloqueado por error. Esto puede llevar a varios problemas, como contenido faltante o botones que no funcionan.
Ejemplos de Rotura
Por ejemplo, un script que carga imágenes o muestra elementos interactivos podría ser bloqueado porque está en una lista general de rastreadores. Como resultado, la página web puede no mostrar imágenes o botones, afectando la experiencia del usuario.
La Importancia de las Reglas de Excepción
Muchos bloqueadores de contenido utilizan reglas de excepción para solucionar problemas causados por el bloqueo de recursos necesarios. Estas reglas permiten que recursos específicos se carguen incluso si aparecen en una lista de bloqueo. El nuevo método también utiliza reglas de excepción para mejorar la precisión al detectar cuándo un recurso es necesario.
Desafíos en la Detección de Rastreadores
Detectar rastreadores y asegurar que las páginas web sigan funcionando presenta varios desafíos. Algunos incluyen:
Identificar Rastreadores Mezclados: Los rastreadores mezclados combinan seguimiento y funcionalidad, lo que dificulta determinar su rol exacto.
Comportamiento No Determinista: Las páginas web pueden comportarse de manera diferente bajo varias condiciones, como la velocidad de la red o la configuración del usuario, complicando el análisis.
Limitaciones del Conjunto de Datos: Hay una falta de conjuntos de datos que contengan tanto muestras de rastreadores como ejemplos de rotura, haciendo que entrenar el sistema de detección sea más complicado.
Avances en la Tecnología de Detección
El nuevo método aprovecha técnicas modernas de aprendizaje automático para mejorar la precisión de la detección de rastreadores.
Características Clave Utilizadas en la Detección
Características Diferenciales: Estas características se derivan comparando cómo se comporta una página web con y sin un recurso. Este enfoque captura detalles esenciales sobre cómo el recurso impacta la funcionalidad de la página.
Modelos de Aprendizaje Automático: El método emplea modelos específicos que están entrenados en varias características extraídas de páginas web. Este entrenamiento ayuda al sistema a aprender los patrones que distinguen entre rastreadores y recursos funcionales.
Evaluando el Método
Para validar su efectividad, el método pasa por pruebas rigurosas:
Rastreando Varios Sitios Web: Recolectar datos de una amplia gama de páginas web ayuda a asegurar que sea efectivo en diferentes contextos.
Análisis Manual de Resultados: Expertos examinan los resultados para confirmar las predicciones del sistema, lo que permite un ajuste y perfeccionamiento más precisos.
Evaluando la Precisión Frente a Listas Creada por Humanos: El nuevo método se compara con listas existentes creadas por humanos para ver si puede identificar más rastreadores con precisión.
El Papel de los Desarrolladores de Privacidad
Los desarrolladores de privacidad juegan un papel crucial en mantener la precisión de los rastreadores y asegurar la seguridad de los datos de los usuarios.
Reportando Hallazgos
El nuevo método ha confirmado y reportado más de 22 rastreadores únicos que no habían sido identificados anteriormente. Estos hallazgos se comparten con la comunidad para ayudar a mejorar las listas de rastreadores utilizadas por varios bloqueadores de contenido.
Mejorando la Confianza del Usuario
Al minimizar la rotura causada por el bloqueo de recursos necesarios, el nuevo método mejora la confianza de los usuarios en los bloqueadores de contenido. Los usuarios son más propensos a usar bloqueadores que no afectan negativamente su experiencia de navegación web.
Conclusión
El nuevo enfoque para detectar rastreadores marca una mejora significativa en la forma en que los usuarios pueden bloquear la actividad de seguimiento no deseada en línea. Al identificar automáticamente tanto rastreadores mezclados como no mezclados mientras también evalúa el impacto en las páginas web, el método mejora la privacidad del usuario sin comprometer la funcionalidad del sitio.
A medida que más usuarios se vuelven conscientes de las preocupaciones sobre la privacidad, las herramientas que equilibran efectivamente el bloqueo de rastreadores y la integridad de la página web se volverán cada vez más importantes. El desarrollo continuo de tales métodos ayudará a crear un entorno en línea más seguro para todos.
Título: Dumviri: Detecting Trackers and Mixed Trackers with a Breakage Detector
Resumen: Web tracking harms user privacy. As a result, the use of tracker detection and blocking tools is a common practice among Internet users. However, no such tool can be perfect, and thus there is a trade-off between avoiding breakage (caused by unintentionally blocking some required functionality) and neglecting to block some trackers. State-of-the-art tools usually rely on user reports and developer effort to detect breakages, which can be broadly categorized into two causes: 1) misidentifying non-trackers as trackers, and 2) blocking mixed trackers which blend tracking with functional components. We propose incorporating a machine learning-based breakage detector into the tracker detection pipeline to automatically avoid misidentification of functional resources. For both tracker detection and breakage detection, we propose using differential features that can more clearly elucidate the differences caused by blocking a request. We designed and implemented a prototype of our proposed approach, Duumviri, for non-mixed trackers. We then adopt it to automatically identify mixed trackers, drawing differential features at partial-request granularity. In the case of non-mixed trackers, evaluating Duumviri on 15K pages shows its ability to replicate the labels of human-generated filter lists, EasyPrivacy, with an accuracy of 97.44%. Through a manual analysis, we find that Duumviri can identify previously unreported trackers and its breakage detector can identify overly strict EasyPrivacy rules that cause breakage. In the case of mixed trackers, Duumviri is the first automated mixed tracker detector, and achieves a lower bound accuracy of 74.19%. Duumviri has enabled us to detect and confirm 22 previously unreported unique trackers and 26 unique mixed trackers.
Autores: He Shuang, Lianying Zhao, David Lie
Última actualización: 2024-09-12 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2402.08031
Fuente PDF: https://arxiv.org/pdf/2402.08031
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.