Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação distribuída, paralela e em cluster# Recuperação de informação

Nova Arquitetura para Monitoramento da Dark Web

Um sistema pra automatizar o monitoramento de atividades ilícitas na deep web.

― 7 min ler


Monitorando a Dark WebMonitorando a Dark Webatividades ilícitas online.Sistema automatizado rastreia
Índice

A dark web é uma parte escondida da internet que não dá pra acessar por motores de busca comuns como o Google. A galera geralmente associa isso a atividades ilegais, tipo tráfico de drogas, tráfico humano e cibercrime. Ela ganhou destaque como uma plataforma pra várias atividades ilícitas, especialmente durante eventos globais, mostrando a necessidade de sistemas de monitoramento e análise eficazes pra acompanhar essas atividades online.

Entendendo o Tor

A rede de dark web mais usada é o Tor, que significa The Onion Routing. O Tor permite que os usuários naveguem na internet de forma anônima, roteando suas conexões por uma série de servidores, o que dificulta o rastreamento das atividades deles. Devido à natureza secreta do Tor, a demanda por sistemas automatizados pra monitorar essa rede tá crescendo. Esses sistemas ajudam a polícia e investigadores a identificar novas ameaças, entender o cenário dos serviços ilícitos e tomar decisões informadas rapidamente.

Desafios no Monitoramento da Dark Web

Monitorar a dark web apresenta vários desafios, como:

  1. Volatilidade: Muitos sites do Tor são de vida curta e frequentemente ficam offline. Estudos mostram que um número significativo desses sites se tornam inacessíveis dentro de 24 horas após sua criação. Essa imprevisibilidade dificulta a coleta de dados confiáveis.

  2. Sites Duplicados: Vários sites frequentemente se espelham ou são criados como trampolins de phishing. Essa duplicação pode distorcer os dados, dificultando a avaliação precisa do verdadeiro número de serviços únicos.

  3. Identificação de Tópicos: Classificar o vasto e frequentemente confuso conteúdo que se encontra nos sites do Tor é trabalhoso e consome tempo. Métodos anteriores geralmente envolvem categorização manual ou análise básica de palavras-chave, que pode não sempre resultar em coisas precisas.

Pra resolver esses problemas e melhorar o monitoramento dos sites da dark web, uma nova arquitetura foi proposta. Essa arquitetura se concentra em coletar e analisar automaticamente o conteúdo em larga escala encontrado na rede Tor em quase tempo real.

Nova Arquitetura de Big Data

A arquitetura proposta usa ferramentas modernas de Processamento de Dados pra identificar novos sites do Tor e analisar seu conteúdo diariamente. Essa solução inclui uma pilha de Big Data, que engloba componentes como Kubernetes, Kafka e MinIO. O objetivo é descobrir continuamente novos endereços onion de várias fontes de dados, baixar seu conteúdo, desduplicar conteúdos semelhantes e categorizá-los usando técnicas avançadas de modelagem.

Principais Recursos da Arquitetura

  1. Coleta de Dados Eficiente: Essa arquitetura puxa informações de várias fontes como feeds de Inteligência de Ameaças, repositórios de software e sites de links do Tor. Coletando dados de diferentes canais, consegue identificar rapidamente novos sites onion criados.

  2. Escalabilidade: O sistema é baseado em uma arquitetura de microserviços. Isso significa que diferentes partes do sistema podem crescer de forma independente conforme a demanda, levando a uma performance e resiliência melhores.

  3. Análise em Quase Tempo Real: Depois de coletar dados, a arquitetura os processa pra desduplicar conteúdos semelhantes e classificar as informações em categorias relevantes. Isso permite um monitoramento e relatórios rápidos de novas tendências na dark web.

  4. Modelagem de Tópicos Avançada: Com o uso de algoritmos avançados como o BERTopic, o sistema pode classificar documentos com base em seu conteúdo, fornecendo uma imagem mais precisa dos tipos de serviços disponíveis na dark web.

Fontes de Dados

A arquitetura utiliza quatro tipos principais de fontes de dados:

  1. Inteligência de Ameaças: Essa fonte fornece informações sobre ameaças conhecidas, ajudando o sistema a identificar domínios onion associados a atividades ilícitas.

  2. Repositórios de Código: Plataformas como o GitHub frequentemente contêm endereços onion codificados em vários projetos. Raspar esses repositórios permite que o sistema encontre novos endereços onion que podem não estar listados publicamente.

  3. Gateways Web-Tor: Esses serviços atuam como proxies, permitindo que os usuários acessem sites do Tor através de navegadores comuns. Buscando nesses proxies, a arquitetura consegue descobrir domínios onion indexados.

  4. Repositórios Tor: Existem muitas compilações de links do Tor online. Esses repositórios oferecem uma maneira simples de reunir endereços onion existentes.

Pipeline de Processamento de Dados

A arquitetura automatiza o processo de coleta e análise de dados através de um pipeline estruturado que opera diariamente. Isso inclui etapas pra coletar novos endereços onion, baixar seu conteúdo HTML, desduplicar entradas semelhantes e classificar os tópicos presentes nos documentos.

Crawlers e Spiders

A arquitetura emprega uma variedade de crawlers web, ou spiders, pra visitar sistematicamente as diferentes fontes de dados. Cada spider é projetada pra uma tarefa específica, como raspar feeds de inteligência de ameaças ou buscar repositórios de código por endereços onion.

Download de Dados

Assim que novos endereços onion são identificados, um conjunto de downloaders recupera seu conteúdo HTML usando proxies do Tor. Esse conteúdo é armazenado de forma segura em uma solução de armazenamento em nuvem pra garantir fácil acesso e gerenciamento.

Processamento em Lote de Dados

Todo dia, o sistema executa um trabalho de processamento em lote que realiza várias tarefas cruciais. Isso inclui:

  1. Desduplicação: Antes de qualquer análise, o sistema identifica e remove conteúdo duplicado. Ele usa algoritmos que calculam a similaridade entre documentos, reduzindo bastante a quantidade de dados repetitivos.

  2. Detecção de Linguagem: A arquitetura analisa o conteúdo pra determinar a linguagem principal de cada site onion, facilitando uma categorização de tópicos mais precisa.

  3. Extração de Tópicos: Usando o BERTopic, o sistema agrupa documentos com base em seus temas, categorizando automaticamente os serviços onion em tópicos relevantes.

Resultados Experimentais

A arquitetura foi implantada e testada ao longo de várias semanas. Durante esse tempo, ela demonstrou capacidades impressionantes em identificar e analisar um grande número de serviços onion.

Identificando Serviços Onion

Mais de 72.045 serviços onion ativos do Tor foram identificados pela arquitetura durante o período de testes. Esse sucesso destaca a eficiência do sistema em rastrear a dark web e coletar dados úteis.

Conteúdo Duplicado e Único

O estudo encontrou que uma parte significativa dos serviços identificados eram duplicados. Especificamente, 78,7% dos sites eram duplicatas exatas, e mais 14,8% eram quase duplicatas. Essa questão de redundância é comum na dark web, contribuindo pra necessidade de processos de desduplicação eficazes nos sistemas de monitoramento.

Distribuição Linguística e Categorias de Tópicos

A língua principal entre os sites identificados era o inglês, com uma porcentagem considerável de conteúdo disponível em outras línguas também. Através de um processamento avançado, a arquitetura categorizou os serviços onion em vários tópicos, revelando padrões nos tipos de conteúdo predominantes na dark web. Os tópicos mais comuns incluíram conteúdo sexual e violento, repositórios e motores de busca, e serviços de carding, entre outros.

Conclusão

Essa arquitetura serve como uma solução robusta para monitorar e analisar o cenário em constante mudança da dark web. Ao automatizar o processo de identificação, download e categorização de sites onion, a arquitetura não só melhora a eficiência da coleta de dados, mas também fornece insights valiosos sobre os tipos de atividades ilícitas que estão rolando.

Diante dos desafios associados à volatilidade, duplicação e identificação precisa de tópicos, o sistema proposto se destaca como uma abordagem moderna pra navegar nas complexidades da dark web. À medida que a tecnologia continua avançando, será crucial desenvolver métodos ainda mais sofisticados pra entender esses cantos escondidos da internet e garantir segurança e conscientização em um mundo cada vez mais conectado.

Fonte original

Título: A Big Data Architecture for Early Identification and Categorization of Dark Web Sites

Resumo: The dark web has become notorious for its association with illicit activities and there is a growing need for systems to automate the monitoring of this space. This paper proposes an end-to-end scalable architecture for the early identification of new Tor sites and the daily analysis of their content. The solution is built using an Open Source Big Data stack for data serving with Kubernetes, Kafka, Kubeflow, and MinIO, continuously discovering onion addresses in different sources (threat intelligence, code repositories, web-Tor gateways, and Tor repositories), downloading the HTML from Tor and deduplicating the content using MinHash LSH, and categorizing with the BERTopic modeling (SBERT embedding, UMAP dimensionality reduction, HDBSCAN document clustering and c-TF-IDF topic keywords). In 93 days, the system identified 80,049 onion services and characterized 90% of them, addressing the challenge of Tor volatility. A disproportionate amount of repeated content is found, with only 6.1% unique sites. From the HTML files of the dark sites, 31 different low-topics are extracted, manually labeled, and grouped into 11 high-level topics. The five most popular included sexual and violent content, repositories, search engines, carding, cryptocurrencies, and marketplaces. During the experiments, we identified 14 sites with 13,946 clones that shared a suspiciously similar mirroring rate per day, suggesting an extensive common phishing network. Among the related works, this study is the most representative characterization of onion services based on topics to date.

Autores: Javier Pastor-Galindo, Hông-Ân Sandlin, Félix Gómez Mármol, Gérôme Bovet, Gregorio Martínez Pérez

Última atualização: 2024-01-24 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2401.13320

Fonte PDF: https://arxiv.org/pdf/2401.13320

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes