Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Informatica distribuita, parallela e in cluster# Recupero delle informazioni

Nuova architettura per il monitoraggio del dark web

Un sistema per automatizzare il monitoraggio delle attività illecite sul dark web.

― 6 leggere min


Monitoraggio del Dark WebMonitoraggio del Dark Webattività illecite online.Un sistema automatico tiene d'occhio le
Indice

Il dark web è una parte nascosta di internet che non è accessibile tramite normali motori di ricerca come Google. La gente spesso lo associa a attività illegali, come spaccio di droga, traffico di esseri umani e crimine informatico. Ha attirato attenzione come piattaforma per varie attività illecite, soprattutto durante eventi globali, evidenziando il bisogno di sistemi di monitoraggio e analisi efficaci per tenere traccia di queste attività online.

Capire Tor

La rete di dark web più utilizzata è Tor, che sta per The Onion Routing. Tor permette agli utenti di navigare in internet in modo anonimo instradando le loro connessioni attraverso una serie di server, rendendo difficile risalire alle loro attività. A causa della natura segreta di Tor, c'è una domanda crescente per sistemi automatizzati per monitorare questa rete. Questi sistemi aiutano le forze dell'ordine e gli investigatori a identificare nuove minacce, capire il panorama dei servizi illeciti e prendere decisioni informate rapidamente.

Sfide nel Monitoraggio del Dark Web

Monitorare il dark web presenta varie sfide, come:

  1. Volatilità: Molti siti Tor sono di breve durata e vanno frequentemente offline. Gli studi mostrano che un numero significativo di questi siti diventa irraggiungibile entro 24 ore dalla loro creazione. Questa imprevedibilità rende difficile raccogliere dati affidabili.

  2. Siti Duplicati: Numerosi siti spesso si specchiano l'uno con l'altro o sono creati come trappole di phishing. Questa duplicazione può distorcere i dati, rendendo difficile valutare con precisione il vero numero di servizi unici.

  3. Identificazione degli Argomenti: Classificare il vasto e spesso contorto contenuto trovato sui siti Tor è laborioso e richiede tempo. I metodi precedenti generalmente comportano una categorizzazione manuale o un'analisi basata su parole chiave, che potrebbero non sempre dare risultati accurati.

Per affrontare queste problematiche e migliorare il monitoraggio dei siti del dark web, è stata proposta una nuova architettura. Questa architettura si concentra sulla raccolta e analisi automatizzata del contenuto su larga scala trovato nella rete Tor in tempo quasi reale.

Nuova Architettura Big Data

L'architettura proposta utilizza strumenti moderni di Elaborazione dei dati per identificare nuovi siti Tor e analizzare il loro contenuto ogni giorno. Questa soluzione comprende uno stack Big Data, che include componenti come Kubernetes, Kafka e MinIO. Mira a scoprire continuamente nuovi indirizzi onion da varie fonti di dati, scaricare il loro contenuto, deduplicare contenuti simili e classificarli utilizzando tecniche di modellazione avanzate.

Caratteristiche Chiave dell'Architettura

  1. Raccolta Dati Efficiente: Questa architettura estrae informazioni da più fonti come feed di Intelligence sulle minacce, repository di software e siti web di link Tor. Raccogliendo dati da diversi canali, può identificare rapidamente nuovi siti onion creati.

  2. Scalabilità: Il sistema è costruito su un'architettura a microservizi. Questo significa che diverse parti del sistema possono crescere indipendentemente in base alla domanda, portando a migliori prestazioni e resilienza.

  3. Analisi Quasi in Tempo Reale: Dopo aver raccolto i dati, l'architettura li elabora per deduplicare contenuti simili e classificare le informazioni in categorie rilevanti. Questo consente un monitoraggio e una segnalazione rapidi delle nuove tendenze nel dark web.

  4. Modellazione Avanzata degli Argomenti: Utilizzando algoritmi avanzati come BERTopic, il sistema può classificare documenti in base al loro contenuto, fornendo un quadro più accurato dei tipi di servizi disponibili nel dark web.

Fonti di Dati

L'architettura utilizza quattro principali tipi di fonti di dati:

  1. Intelligence sulle Minacce: Questa fonte fornisce informazioni su minacce note, aiutando il sistema a identificare domini onion associati ad attività illecite.

  2. Repository di Codice: Piattaforme come GitHub spesso contengono indirizzi onion hard-coded all'interno di vari progetti. Scraping di questi repository consente al sistema di trovare nuovi indirizzi onion che potrebbero non essere elencati pubblicamente.

  3. Gateway Web-Tor: Questi servizi agiscono come proxy, consentendo agli utenti di accedere ai siti Tor tramite normali browser. Cercando questi proxy, l'architettura può scoprire domini onion indicizzati.

  4. Repository Tor: Molte compilazioni di link Tor esistono online. Questi repository forniscono un modo semplice per raccogliere indirizzi onion esistenti.

Pipeline di Elaborazione Dati

L'architettura automatizza il processo di raccolta e analisi dei dati attraverso una pipeline strutturata che opera quotidianamente. Questo include passaggi per raccogliere nuovi indirizzi onion, scaricare il loro contenuto HTML, deduplicare voci simili e classificare gli argomenti presenti nei documenti.

Crawlers e Spider

L'architettura impiega una varietà di web crawlers, o spider, per visitare sistematicamente le diverse fonti di dati. Ogni spider è progettato per un compito specifico, come scraping di feed di intelligence sulle minacce o ricerca di indirizzi onion nei repository di codice.

Download dei Dati

Una volta identificati i nuovi indirizzi onion, un set di downloader estrae il loro contenuto HTML utilizzando proxy Tor. Questo contenuto è archiviato in modo sicuro in una soluzione di archiviazione basata su cloud per garantire facile accesso e gestione.

Elaborazione Batch dei Dati

Ogni giorno, il sistema esegue un lavoro di elaborazione batch che svolge diversi compiti cruciali. Questo include:

  1. Deduplicazione: Prima di qualsiasi analisi, il sistema identifica e rimuove contenuti duplicati. Utilizza algoritmi che calcolano la somiglianza tra documenti, riducendo notevolmente la quantità di dati ripetitivi.

  2. Riconoscimento della Lingua: L'architettura analizza il contenuto per determinare la lingua principale di ciascun sito onion, facilitando una categorizzazione più accurata degli argomenti.

  3. Estrazione degli Argomenti: Utilizzando BERTopic, il sistema raggruppa documenti in base ai loro temi, categorizzando automaticamente i servizi onion in argomenti rilevanti.

Risultati Sperimentali

L'architettura è stata implementata e testata per un periodo di diverse settimane. Durante questo tempo, ha dimostrato capacità impressionanti nell'identificare e analizzare un gran numero di servizi onion.

Identificazione dei Servizi Onion

Sono stati identificati oltre 72.045 servizi onion Tor attivi dall'architettura durante il periodo di test. Questo successo evidenzia l'efficienza del sistema nel crawl del dark web e nella raccolta di dati utili.

Contenuto Duplicato e Unico

Lo studio ha trovato che una parte significativa dei servizi identificati erano duplicati. In particolare, il 78,7% dei siti erano duplicati esatti, e un ulteriore 14,8% erano quasi duplicati. Questo problema di ridondanza è comune nel dark web, contribuendo al bisogno di processi di deduplicazione efficaci nei sistemi di monitoraggio.

Distribuzione delle Lingue e Categorie di Argomenti

La lingua principale tra i siti identificati era l'inglese, con una percentuale considerevole di contenuti disponibili in altre lingue. Attraverso l'elaborazione avanzata, l'architettura ha categorizzato i servizi onion in vari argomenti, rivelando modelli dei tipi di contenuto prevalenti nel dark web. I temi più comuni includevano contenuti sessuali e violenti, repository e motori di ricerca, e servizi di carding, tra gli altri.

Conclusione

Questa architettura funge da soluzione robusta per monitorare e analizzare il panorama in continua evoluzione del dark web. Automatizzando il processo di identificazione, download e categorizzazione dei siti onion, l'architettura non solo migliora l'efficienza della raccolta dati ma fornisce anche preziose informazioni sui tipi di attività illecite in corso.

Alla luce delle sfide associate a volatilità, duplicazione e identificazione accurata degli argomenti, il sistema proposto si distingue come un approccio moderno per navigare nelle complessità del dark web. Con l'avanzare della tecnologia, sarà cruciale sviluppare metodi ancora più sofisticati per capire questi angoli nascosti di internet e garantire sicurezza e consapevolezza in un mondo sempre più connesso.

Fonte originale

Titolo: A Big Data Architecture for Early Identification and Categorization of Dark Web Sites

Estratto: The dark web has become notorious for its association with illicit activities and there is a growing need for systems to automate the monitoring of this space. This paper proposes an end-to-end scalable architecture for the early identification of new Tor sites and the daily analysis of their content. The solution is built using an Open Source Big Data stack for data serving with Kubernetes, Kafka, Kubeflow, and MinIO, continuously discovering onion addresses in different sources (threat intelligence, code repositories, web-Tor gateways, and Tor repositories), downloading the HTML from Tor and deduplicating the content using MinHash LSH, and categorizing with the BERTopic modeling (SBERT embedding, UMAP dimensionality reduction, HDBSCAN document clustering and c-TF-IDF topic keywords). In 93 days, the system identified 80,049 onion services and characterized 90% of them, addressing the challenge of Tor volatility. A disproportionate amount of repeated content is found, with only 6.1% unique sites. From the HTML files of the dark sites, 31 different low-topics are extracted, manually labeled, and grouped into 11 high-level topics. The five most popular included sexual and violent content, repositories, search engines, carding, cryptocurrencies, and marketplaces. During the experiments, we identified 14 sites with 13,946 clones that shared a suspiciously similar mirroring rate per day, suggesting an extensive common phishing network. Among the related works, this study is the most representative characterization of onion services based on topics to date.

Autori: Javier Pastor-Galindo, Hông-Ân Sandlin, Félix Gómez Mármol, Gérôme Bovet, Gregorio Martínez Pérez

Ultimo aggiornamento: 2024-01-24 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2401.13320

Fonte PDF: https://arxiv.org/pdf/2401.13320

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili