Analizando Near-Duplicates en sitios Onion
Esta investigación descubre nuevos métodos para identificar contenido casi duplicado en sitios onion.
― 11 minilectura
Tabla de contenidos
- El Problema de los Casi Duplicados
- La Naturaleza de los Sitios Onion
- Desafíos para los Crawlers
- Preguntas de Investigación
- Cómo Funciona el Método
- La Importancia de las Páginas de Inicio
- Frecuencia y Naturaleza de los Cambios
- Técnicas Eficientes de Detección
- El Rol de JavaScript
- Estafas y Fraudes con Bitcoin
- Ética de la Investigación
- Pasos para Analizar Páginas de Inicio
- Recolección y Análisis de Datos
- Hallazgos y Resultados
- Perspectivas de los Estudios de Caso
- Conclusión
- Fuente original
- Enlaces de referencia
Analizar grandes cantidades de datos en internet puede ser un rollo, especialmente cuando se trata de identificar contenido casi duplicado. Esto es super importante en el contexto de los sitios onion, que solo se pueden acceder a través de la red Tor. Estos sitios a menudo tienen pequeñas diferencias en el contenido pero aún pueden estar relacionados, como correos electrónicos de phishing o páginas de estafa similares. Reconocer cuándo estas páginas son casi idénticas y entender por qué son similares puede ayudar a usuarios e investigadores a navegar este mundo complejo de manera más efectiva.
El Problema de los Casi Duplicados
Cuando investigadores o crawlers recolectan datos de sitios web, a menudo se encuentran con documentos casi duplicados. Por ejemplo, un correo de phishing puede tener un pequeño cambio, como un saludo diferente o un cambio en el nombre de un banco. Aunque estos cambios menores pueden hacer que un documento parezca diferente, el contenido subyacente puede ser muy similar. Los métodos tradicionales para detectar casi duplicados a menudo funcionan como una "caja negra", lo que significa que pueden indicarte que dos elementos son similares pero no por qué son similares.
Para abordar este problema, se ha desarrollado un nuevo método que puede identificar de manera efectiva casi duplicados de páginas web en la dark web. Este nuevo enfoque no solo detecta casi duplicados, sino que también proporciona explicaciones para las similitudes entre ellos.
La Naturaleza de los Sitios Onion
Los sitios onion son diferentes a los sitios web normales en varios aspectos. Están diseñados para priorizar la privacidad del usuario, a menudo atendiendo a personas como denunciantes o aquellos que participan en actividades ilegales. A diferencia de los sitios web conocidos, los sitios onion tienen nombres generados aleatoriamente basados en claves públicas, lo que los hace difíciles de asociar con marcas u organizaciones específicas.
La cantidad y frecuencia de cambios que ocurren en los sitios onion también son diferentes a las páginas web típicas. Los sitios web normales suelen cambiar frecuentemente debido a factores como la optimización para motores de búsqueda, anuncios y otros contenidos dinámicos. En contraste, los sitios onion pueden no experimentar el mismo nivel de cambios, ya que no están influenciados de la misma manera por el marketing y el tráfico de visitantes.
Desafíos para los Crawlers
Los crawlers web que indexan sitios a menudo se encuentran con problemas de casi duplicados. Estos duplicados pueden surgir de visitar repetidamente el mismo sitio o de encontrar sitios de phishing o espejos. La presencia de estos casi duplicados puede desordenar los datos, haciendo más difícil discernir información relevante.
Las técnicas actuales para detectar casi duplicados a menudo utilizan métodos como MinHash y SimHash. Aunque son efectivas, estos enfoques de caja negra no proporcionan información sobre las razones detrás de las similitudes. La mayoría de las técnicas se basan en comparar el contenido de los documentos a través de la teoría de conjuntos, estimando su similitud mediante métricas como el índice de Jaccard. Sin embargo, este método no aclara qué contenido específico hace que los documentos sean similares.
Preguntas de Investigación
El objetivo principal de esta investigación es encontrar una forma de identificar casi duplicados de páginas web de manera eficiente, mientras se explica por qué se consideran similares. Esto implica varios pasos para obtener información sobre cómo cambian estas páginas y qué factores contribuyen a su similitud.
Cómo Funciona el Método
El método se centra en los cambios que ocurren entre diferentes versiones de páginas web. Por ejemplo, si un crawler visita un sitio onion específico en dos ocasiones diferentes y encuentra el contenido "Lorem 2023-04-05 ipsum" y "Lorem 2023-04-06 ipsum", la única diferencia es la fecha.
El proceso implica definir un "diff" entre dos documentos como el conjunto más pequeño de cambios necesarios para convertir un documento en otro. En el ejemplo anterior, el diff resaltaría el cambio de fecha. Al identificar estas diferencias, los investigadores crean lo que se llaman "plantillas anotadas". Estas plantillas reemplazan las diferencias con palabras reservadas (como "fecha"), permitiendo una fácil identificación de similitudes entre los dos documentos.
Al calcular los Hashes de estas plantillas anotadas, los investigadores pueden determinar rápidamente si dos páginas son casi duplicadas basándose en su contenido sin el ruido de los cambios menores.
La Importancia de las Páginas de Inicio
Las páginas de inicio sirven como el principal punto de entrada para los sitios onion. Proporcionan a los visitantes información sobre el propósito del sitio y, a menudo, actúan como una tarjeta de presentación para la organización detrás de él. Sin embargo, las páginas de inicio en sitios onion también pueden tener barreras de acceso, requiriendo que los usuarios naveguen por cosas como páginas de inicio de sesión o captchas.
Para muchos sitios onion, las variaciones en las páginas de inicio pueden llevar a una gran cantidad de casi duplicados. Las páginas de inicio que cambian frecuentemente o dirigen a los usuarios a otras páginas pueden crear confusión para los crawlers, haciendo que sea un desafío recopilar datos precisos.
Frecuencia y Naturaleza de los Cambios
Varios estudios han explorado con qué frecuencia cambian las páginas web con el tiempo. Mientras que algunas páginas web cambian frecuentemente, otras se mantienen relativamente estables. La dinámica de los cambios en los sitios onion aún se están investigando, pero se cree que se asemejan a la web clara del pasado, cuando las páginas web eran menos dinámicas de lo que son hoy.
Como los sitios onion no dependen de la optimización para motores de búsqueda, los factores que provocan cambios pueden ser limitados. Muchos cambios en sitios onion tienden a ser menores y fácilmente pasados por alto, como actualizaciones de fechas o conteos de visitantes. Entender estos cambios es esencial para un análisis de datos efectivo.
Técnicas Eficientes de Detección
Para detectar casi duplicados, los investigadores emplean una técnica conocida como hashing sensible a la localidad (LSH). Esta técnica mapea documentos de varios tamaños a una "huella digital" más pequeña. Si dos documentos tienen una superposición significativa en contenido, sus huellas digitales serán similares.
Mientras que métodos conocidos de LSH como MinHash y SimHash son comúnmente usados, no explican las razones de las similitudes. En su lugar, solo indican que dos documentos podrían ser similares sin más detalle. Los investigadores argumentan a favor de la importancia de entender no solo que los documentos son similares, sino por qué son similares.
JavaScript
El Rol deJavaScript añade otra capa de complejidad a las páginas web. Se usa comúnmente en la web clara para mejorar la experiencia del usuario, pero su presencia hace más difícil detectar casi duplicados. En contraste, los sitios onion a menudo operan sin JavaScript, lo que los hace más directos para que los crawlers los analicen.
Debido a estas diferencias, la ausencia de JavaScript en los sitios onion puede facilitar la detección de casi duplicados. Sin embargo, la complejidad de JavaScript en las páginas de la web clara puede causar variaciones más significativas que pueden complicar el proceso de comparación.
Bitcoin
Estafas y Fraudes conBitcoin se ha vuelto común en ambos, sitios de la web clara y onion. En sitios onion, sirve como un medio de pago crítico, creando oportunidades para los estafadores. Los investigadores han encontrado miles de direcciones de Bitcoin asociadas con actividades criminales en sitios onion.
Como parte del análisis, los investigadores identificaron algunas direcciones de Bitcoin que estaban ocultas dentro del HTML de los sitios onion, creando una fachada de legitimidad mientras facilitaban estafas. La observación de estas direcciones ocultas añade una capa de complejidad a la detección de casi duplicados y resalta la necesidad de herramientas analíticas más robustas.
Ética de la Investigación
Al llevar a cabo investigaciones sobre sitios onion, entran en juego consideraciones éticas. La mayoría de los sitios onion no contienen datos fácilmente rastreables, pero aún existe una responsabilidad de asegurar que los datos se traten adecuadamente. El análisis busca respetar la privacidad de las personas y el anonimato de las direcciones mientras proporciona aún así información sobre los datos recopilados.
El análisis se adhiere a pautas que priorizan la transparencia sobre los métodos y hallazgos. Al asegurar que la información sensible permanezca confidencial, los investigadores pueden contribuir con información valiosa sin comprometer la integridad de los datos o de las personas involucradas.
Pasos para Analizar Páginas de Inicio
Tokenizar las páginas web: Descomponer el HTML de cada página en tokens reconocibles. Esto no solo simplifica el análisis sino que también asegura que variaciones comunes como fechas y números no complican las cosas.
Calcular cambios: Usar herramientas como el diff-match-patch de Google para calcular las diferencias entre versiones de la página de inicio.
Alinear cambios: Alinear los cambios en documentos para identificar texto común y crear una imagen más clara de las diferencias.
Anotar cambios: Aplicar expresiones regulares para etiquetar cambios con precisión.
Determinar el tamaño del fragmento: Analizar cómo la alineación de cambios afecta la detección de casi duplicados.
Almacenar los hashes: Mantener un registro de los hashes de las plantillas anotadas para facilitar la búsqueda rápida de plantillas previamente identificadas.
Recolección y Análisis de Datos
Se han recopilado datos durante muchos años para construir una comprensión completa de los sitios onion. El proceso de recolección implica visitas regulares a sitios onion para registrar actualizaciones y cambios, que luego se analizan en busca de patrones.
El análisis también tiene en cuenta varias exclusiones para asegurar que el conjunto de datos sea relevante y refleje con precisión el estado actual de los sitios onion. Por ejemplo, solo se consideran las páginas de inicio con contenido significativo, filtrando errores y redirecciones para mantener la integridad del conjunto de datos.
Hallazgos y Resultados
El análisis revela un alto porcentaje de casi duplicados entre los sitios onion estudiados. Alrededor del 70% de las versiones de páginas de inicio identificadas eran casi duplicados basados en las plantillas anotadas derivadas. Además, el uso de palabras reservadas permitió a los investigadores explicar las razones detrás de estas similitudes de manera eficiente.
Los resultados también indican que muchos cambios pueden ser capturados usando un conjunto limitado de expresiones regulares, demostrando la efectividad del método para reconocer y explicar variaciones.
Perspectivas de los Estudios de Caso
Los investigadores realizaron varios estudios de caso para examinar fenómenos específicos relacionados con los sitios onion. Los hallazgos sugieren que:
JavaScript contribuye a cambios más complejos: Las páginas que utilizan JavaScript muestran más diferencias que son difíciles de capturar usando expresiones regulares estándar.
Direcciones ocultas de Bitcoin representan fraude potencial: Existe evidencia de que algunos estafadores emplean tácticas para ocultar sus identidades escondiendo direcciones de Bitcoin dentro de direcciones onion que parecen válidas.
Riesgos aumentados durante el mantenimiento del servidor: Cambios en los títulos de los sitios onion pueden indicar períodos de interrupción del servicio, alertando tanto a usuarios como a posibles atacantes sobre vulnerabilidades.
Conclusión
La investigación destaca los desafíos y complejidades involucrados en el análisis de sitios onion, particularmente en reconocer casi duplicados. Al emplear un nuevo método que detecta y explica estas similitudes, los investigadores pueden proporcionar información valiosa sobre la naturaleza de estos sitios y su contenido.
Los hallazgos contribuyen a una mayor comprensión de las dinámicas y desafíos de los sitios onion mientras abren nuevas avenidas para futuras investigaciones y exploraciones. A través de un análisis cuidadoso y consideraciones éticas, el trabajo contribuye a una conversación más amplia sobre privacidad, seguridad y la necesidad de métodos efectivos de análisis de datos en el siempre cambiante paisaje en línea.
Título: DarkDiff: Explainable web page similarity of TOR onion sites
Resumen: In large-scale data analysis, near-duplicates are often a problem. For example, with two near-duplicate phishing emails, a difference in the salutation (Mr versus Ms) is not essential, but whether it is bank A or B is important. The state-of-the-art in near-duplicate detection is a black box approach (MinHash), so one only knows that emails are near-duplicates, but not why. We present DarkDiff, which can efficiently detect near-duplicates while providing the reason why there is a near-duplicate. We have developed DarkDiff to detect near-duplicates of homepages on the Darkweb. DarkDiff works well on those pages because they resemble the clear web of the past.
Autores: Pieter Hartel, Eljo Haspels, Mark van Staalduinen, Octavio Texeira
Última actualización: 2023-08-23 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2308.12134
Fuente PDF: https://arxiv.org/pdf/2308.12134
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://172.16.22.172/Domain_name/Result_10/Diff_word_all_loop_10_boilerplate/r_annotated_context_stat.html
- https://www.blockchain.com/btc/address/
- https://dl.acm.org/ccs.cfm
- https://www.torproject.org
- https://ahmia.fi
- https://target.onion/
- https://github.com/google/diff-match-patch
- https://doi.org/10.5281/zenodo.8050938
- https://www.cflw.com
- https://172.16.22.172/Domain_name/Result_99/Diff_word_all_loop_
- https://172.16.22.172/Django/Result/Content/r_content_stat.html