Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Computer e società# Calcolo e linguaggio# Crittografia e sicurezza# Apprendimento automatico

VendorLink: Un Nuovo Approccio per Seguire i Venditori del Darknet

VendorLink usa il NLP per aiutare le forze dell'ordine a rintracciare attività illegali nel Darknet.

― 8 leggere min


Tracciare i venditori delTracciare i venditori delDarknet con VendorLinkattività illegali online.Nuovo strumento aiuta a identificare
Indice

Il Darknet è una parte di internet che non è indicizzata dai normali motori di ricerca. Solo una piccola frazione di internet è accessibile all'utente medio, con una porzione molto più grande nascosta nel Deep Web e nel Darknet. Anche se ci sono usi legittimi dell'anonimato nel Darknet, come la protezione della privacy, è anche il rifugio di attività illegali. Queste includono il commercio di droghe proibite, armi e vari tipi di truffe. Poiché i venditori possono nascondersi dietro identità anonime, è difficile per le agenzie di law enforcement (LEA) rintracciarli e capire le connessioni tra i diversi mercati illegali.

Per affrontare queste sfide, presentiamo un nuovo metodo chiamato VendorLink. Questo metodo utilizza l'elaborazione del linguaggio naturale (NLP) per analizzare gli stili di scrittura negli annunci pubblicitari dei venditori sui mercati del Darknet. Con il nostro approccio, miriamo a identificare le relazioni tra i venditori e i loro account per assistere le LEA nelle loro indagini. Con VendorLink, possiamo verificare, identificare e collegare questi account di venditori su più piattaforme.

La sfida dell'anonimato

L'anonimato nel Darknet consente ai venditori di operare senza essere scoperti. Usano spesso nomi diversi e cambiano frequentemente i loro mercati per evitare di essere catturati dalle LEA. Questo comportamento complica gli sforzi per tenere traccia delle attività dei mercati illegali. I metodi tradizionali per cercare e identificare questi account richiedono tempo e risorse considerevoli. L'indagine manuale non è solo laboriosa ma anche spesso inefficiente.

Recenti avanzamenti nei sistemi automatizzati, come scraper e strumenti di monitoraggio, hanno migliorato la nostra capacità di analizzare i contenuti nel Darknet. Questi sistemi permettono a ricercatori e LEA di scoprire dati e connessioni importanti in modo più efficiente. Tuttavia, il volume enorme di contenuti nel Darknet rende difficile mantenere accuratezza e affidabilità senza strumenti analitici intelligenti.

Introduzione di VendorLink

VendorLink è progettato per affrontare questi problemi concentrandosi sui modelli di scrittura negli annunci pubblicitari pubblicati sui mercati del Darknet. Utilizza varie tecniche di NLP per svolgere compiti come la verifica dei venditori in ambienti chiusi, l'identificazione dei venditori in ambienti aperti e l'adattamento ai mercati a bassa disponibilità di risorse.

Nei nostri studi, abbiamo analizzato annunci provenienti da tre principali set di dati: Alphabay-Dreams-Silk, Valhalla-Berlusconi e Traderoute-Agora. Attraverso la nostra analisi, abbiamo identificato diversi venditori in migrati e suggerito potenziali alias. Ad esempio, abbiamo trovato 15 migranti e 71 possibili alias in un set di dati, 17 migranti e 3 alias in un altro, e 75 migranti e 10 alias in un terzo set di dati.

Come funziona VendorLink

VendorLink si concentra su tre compiti principali:

  1. Verifica dei venditori in ambiente chiuso: In questo compito, ci concentriamo sulla verifica di account unici di venditori nei mercati del Darknet affermati utilizzando un modello di classificazione addestrato. Questo ci consente di classificare i venditori in base ai loro stili di scrittura negli annunci.

  2. Identificazione dei venditori in ambiente aperto: Qui, l'obiettivo è identificare venditori sconosciuti e i loro potenziali alias. Confrontando gli stili di scrittura di diversi annunci, possiamo trovare collegamenti tra account che potrebbero essere gestiti dallo stesso venditore.

  3. Adattamento ai mercati a bassa disponibilità di risorse: Questo compito è volto ad aiutare le LEA ad adattarsi a nuovi venditori e mercati emergenti che potrebbero avere dati limitati a disposizione. Utilizziamo tecniche di trasferimento della conoscenza per colmare efficacemente il divario tra venditori affermati e nuovi.

Dati e analisi

Il Darknet consiste in una serie di annunci che i venditori pubblicano. Questi annunci di solito contengono un titolo del prodotto e una descrizione, il nome del venditore, il prezzo e a volte immagini o metadati. Una delle sfide nell'analizzare questi annunci è la variabilità nel linguaggio e negli stili di scrittura utilizzati dai diversi venditori.

Eseguiamo passaggi di pre-processing per pulire i dati prima dell'analisi. Questo include la rimozione di annunci duplicati e la trasformazione dei nomi dei venditori per facilitare i confronti. Standardizzando i nomi dei venditori, riduciamo la complessità dell'analisi e aiutiamo i nostri classificatori a funzionare in modo più accurato.

Risultati di VendorLink

Attraverso i nostri esperimenti, abbiamo scoperto intuizioni significative sul comportamento di migrazione e aliasing dei venditori. I venditori spesso si spostano tra i mercati e alterano la loro presentazione per mantenere l'anonimato. Esaminando i loro modelli di scrittura, possiamo creare un quadro più chiaro delle loro azioni e delle relazioni tra diversi account.

Una scoperta chiave è che la struttura linguistica utilizzata dai venditori del Darknet differisce significativamente dal linguaggio utilizzato negli annunci del web di superficie. Questa variazione evidenzia la necessità di modelli specializzati che possano catturare con precisione le sfumature del linguaggio del Darknet.

Confronto tra metodi tradizionali e VendorLink

Negli studi tradizionali, i ricercatori si sono affidati a varie tecniche per rilevare le connessioni tra venditori, inclusi metodi di attribuzione di paternità. Anche se questi hanno fornito alcuni successi, dipendono principalmente dall'estrazione manuale di caratteristiche dagli annunci, il che è intensivo in termini di risorse.

VendorLink si distingue perché utilizza un approccio end-to-end che automatizza il processo di estrazione e analisi. Sfruttando l'NLP, il nostro approccio non richiede etichettatura manuale estesa e può operare su set di dati di grandi dimensioni in modo più efficiente.

Abbiamo anche valutato VendorLink rispetto a modelli standard di machine learning, come modelli statistici e basati su reti neurali. I nostri risultati hanno dimostrato che VendorLink ha superato i metodi tradizionali nel classificare efficacemente i venditori in base ai loro stili di scrittura.

Implementazione di VendorLink

VendorLink si basa su architetture e metodologie NLP avanzate. In particolare, abbiamo utilizzato un classificatore basato sul modello Bidirectional Encoder Representations from Transformers (BERT) per stabilire una performance di base per i nostri compiti. BERT è noto per la sua capacità di comprendere il contesto e la semantica elaborando parole in relazione a tutte le altre parole in una frase.

Ottimizzando BERT per le nostre esigenze, abbiamo ottenuto ottimi risultati sia nei compiti a set chiuso che aperto. Ad esempio, la verifica degli account dei venditori ha mostrato tassi di precisione elevati rispetto ad altri approcci. Questo indica che il nostro modello sta apprendendo efficacemente dagli stili di scrittura presenti negli annunci.

Adattamento ai nuovi mercati

Con l'emergere di nuovi venditori e mercati nel Darknet, diventa cruciale per il nostro sistema adattarsi. VendorLink impiega un metodo noto come trasferimento della conoscenza, che ci consente di utilizzare intuizioni ottenute dai mercati affermati per assistere nella verifica di nuovi venditori in ambienti a bassa disponibilità di risorse.

Questa adattabilità migliora l'efficacia delle LEA nelle loro indagini. Utilizzando tecniche che possono apprendere dai dati precedenti, garantiamo che anche con dati nuovi limitati, il nostro modello possa comunque fornire informazioni utili.

Analisi degli errori e miglioramenti

Per comprendere appieno le prestazioni di VendorLink, abbiamo svolto un'analisi degli errori. Esaminando i casi in cui il modello ha fatto previsioni errate, abbiamo ottenuto intuizioni che guideranno futuri miglioramenti. Ad esempio, abbiamo scoperto che alcuni stili di scrittura possono cambiare significativamente tra gli annunci. Alcuni venditori possono adottare approcci diversi a seconda del loro pubblico di riferimento o del mercato.

Comprendere queste differenze ci consente di affinare ulteriormente i nostri modelli, rendendoli più resistenti alle variazioni nello stile di scrittura. Inoltre, stiamo lavorando per incorporare dati di addestramento più diversificati per preparare meglio i nostri modelli alle complessità del Darknet.

Direzioni future

Data la natura in rapida evoluzione del Darknet, il nostro lavoro con VendorLink è in corso. Abbiamo in programma di esplorare metodi aggiuntivi per migliorare la verifica e l'identificazione dei venditori, come migliorare le somiglianze testuali ed esplorare tecniche avanzate di NLP.

Un'area di potenziale crescita è l'implementazione di tecniche di intelligenza artificiale spiegabile (XAI). Fornendo intuizioni su come il nostro modello prende decisioni, possiamo migliorare fiducia e comprensione tra gli utenti, specialmente all'interno delle forze dell'ordine.

Inoltre, man mano che diventano disponibili nuovi flussi di dati, aggiornare continuamente i nostri metodi di addestramento ci permetterà di fornire risultati più accurati e affidabili.

Conclusione

VendorLink rappresenta un avanzamento significativo nella capacità di analizzare e comprendere le attività dei venditori nel Darknet. Utilizzando tecniche di elaborazione del linguaggio naturale e concentrandosi sui modelli di scrittura, abbiamo sviluppato un sistema che può aiutare le agenzie di law enforcement a prendere decisioni più informate.

Le intuizioni scoperte attraverso la nostra ricerca hanno il potenziale di aiutare le LEA a identificare connessioni e relazioni tra i venditori, migliorando la loro capacità di combattere le attività illegali nel Darknet. I nostri sforzi continui per migliorare VendorLink garantiranno che rimanga uno strumento prezioso nella lotta contro il crimine informatico.

Attraverso una ricerca e un'adattamento continui, speriamo di portare maggiore chiarezza nel complesso mondo del Darknet e supportare le LEA nel loro importante lavoro.

Fonte originale

Titolo: VendorLink: An NLP approach for Identifying & Linking Vendor Migrants & Potential Aliases on Darknet Markets

Estratto: The anonymity on the Darknet allows vendors to stay undetected by using multiple vendor aliases or frequently migrating between markets. Consequently, illegal markets and their connections are challenging to uncover on the Darknet. To identify relationships between illegal markets and their vendors, we propose VendorLink, an NLP-based approach that examines writing patterns to verify, identify, and link unique vendor accounts across text advertisements (ads) on seven public Darknet markets. In contrast to existing literature, VendorLink utilizes the strength of supervised pre-training to perform closed-set vendor verification, open-set vendor identification, and low-resource market adaption tasks. Through VendorLink, we uncover (i) 15 migrants and 71 potential aliases in the Alphabay-Dreams-Silk dataset, (ii) 17 migrants and 3 potential aliases in the Valhalla-Berlusconi dataset, and (iii) 75 migrants and 10 potential aliases in the Traderoute-Agora dataset. Altogether, our approach can help Law Enforcement Agencies (LEA) make more informed decisions by verifying and identifying migrating vendors and their potential aliases on existing and Low-Resource (LR) emerging Darknet markets.

Autori: Vageesh Saxena, Nils Rethmeier, Gijs Van Dijck, Gerasimos Spanakis

Ultimo aggiornamento: 2023-05-04 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2305.02763

Fonte PDF: https://arxiv.org/pdf/2305.02763

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili