Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 分散・並列・クラスターコンピューティング# 情報検索

ダークウェブ監視のための新しいアーキテクチャ

ダークウェブ上の違法活動を自動的に監視するシステム。

― 1 分で読む


ダークウェブの監視ダークウェブの監視自動システムがオンラインの違法行為を追跡
目次

ダークウェブは、Googleみたいな普通の検索エンジンじゃアクセスできない隠れたインターネットの一部なんだ。人々はしばしば、麻薬取引や人身売買、サイバー犯罪みたいな違法活動と結びつけて考える。この場所は、特に世界的なイベントの間に様々な不正活動のプラットフォームとして注目を集めていて、これらのオンライン活動を追跡するための効果的なモニタリングと分析システムが必要だってことを浮き彫りにしている。

Torを理解する

最も一般的に使われているダークウェブネットワークはTorで、これはThe Onion Routingの略だ。Torは、ユーザーが一連のサーバーを通じて接続をルーティングすることで、インターネットを匿名で閲覧できるようにする。Torの秘密主義的な性質のため、このネットワークを監視する自動化システムの需要が高まっているんだ。これらのシステムは、法執行機関や調査員が新たな脅威を特定したり、違法サービスの状況を理解したり、迅速に情報に基づいた意思決定をするのに役立つ。

ダークウェブ監視の課題

ダークウェブを監視するには、いくつかの課題があるんだ:

  1. 変動性:多くのTorサイトは短命で、頻繁にオフラインになる。研究によると、これらのサイトのかなりの数は作成から24時間以内にアクセス不能になることがある。この予測不可能性が信頼できるデータを集めるのを難しくしている。

  2. 重複サイト:いくつものサイトが互いにミラーリングしたり、フィッシングトラップとして作成されたりする。これがデータを歪めることになって、真のユニークサービスの数を正確に評価するのが難しくなる。

  3. トピック特定:Torサイトに見られる広範囲で複雑なコンテンツを分類するのは手間がかかり、時間がかかるんだ。これまでの方法は一般的に手動での分類か基本的なキーワード分析に依存していて、必ずしも正確な結果を得られるわけじゃない。

これらの問題に対処し、ダークウェブサイトの監視を強化するために、新しいアーキテクチャが提案された。このアーキテクチャは、Torネットワーク上の大規模なコンテンツをほぼリアルタイムで自動的に収集・分析することに焦点を当てている。

新しいビッグデータアーキテクチャ

提案されたアーキテクチャは、現代のデータ処理ツールを使って新しいTorサイトを特定し、そのコンテンツを毎日分析する。これはKubernetes、Kafka、MinIOのようなコンポーネントを含むビッグデータスタックで構成されていて、様々なデータソースから新しいオニオンアドレスを継続的に発見し、そのコンテンツをダウンロードし、類似のコンテンツを重複排除し、先進的なモデル技術を使って分類することを目指している。

アーキテクチャの主な特徴

  1. 効率的なデータ収集:このアーキテクチャは、脅威インテリジェンスフィード、ソフトウェアリポジトリ、Torリンクサイトなど、複数のソースから情報を引っ張ってくる。様々なチャネルからデータを集めることで、新たに作成されたオニオンサイトを素早く特定できる。

  2. スケーラビリティ:システムはマイクロサービスアーキテクチャに基づいて構築されている。これは、システムの異なる部分が需要に応じて独立して成長できるということで、パフォーマンスとレジリエンスが向上する。

  3. ほぼリアルタイム分析:データを収集した後、アーキテクチャは類似コンテンツの重複を排除し、情報を関連するカテゴリに分類する。これにより、ダークウェブの新しいトレンドを素早く監視・報告できる。

  4. 高度なトピックモデリング:BERTopicのような先進的なアルゴリズムを使うことで、システムはコンテンツに基づいて文書を分類でき、ダークウェブ上のサービスの種類についてより正確な情報を提供する。

データソース

アーキテクチャは、主に4つのデータソースを利用している:

  1. 脅威インテリジェンス:このソースは既知の脅威に関する情報を提供していて、システムが違法活動に関連するオニオンドメインを特定するのに役立つ。

  2. コードリポジトリ:GitHubのようなプラットフォームには、さまざまなプロジェクトにハードコーディングされたオニオンアドレスが含まれていることが多い。これらのリポジトリをスクレイピングすることで、公開リストに載っていない新しいオニオンアドレスを見つけることができる。

  3. ウェブ-トールゲートウェイ:これらのサービスはプロキシとして機能し、ユーザーが通常のブラウザを通じてTorサイトにアクセスするのを可能にする。これらのプロキシを検索することで、アーキテクチャはインデックスされたオニオンドメインを発見できる。

  4. Torリポジトリ:多くのTorリンクのコンピレーションがオンラインで存在する。これらのリポジトリは、既存のオニオンアドレスを集めるための簡単な方法を提供する。

データ処理パイプライン

このアーキテクチャは、毎日動作する構造化されたパイプラインを通じてデータの収集と分析のプロセスを自動化している。これには、新しいオニオンアドレスを集め、そのHTMLコンテンツをダウンロードし、類似エントリを重複排除し、文書内のトピックを分類するステップが含まれる。

クローラーとスパイダー

このアーキテクチャは、様々なデータソースを系統的に訪れるために、さまざまなウェブクローラー、またはスパイダーを使用している。それぞれのスパイダーは、脅威インテリジェンスフィードをスクレイピングしたり、オニオンアドレスを探すためのコードリポジトリを検索したりする特定のタスクのために設計されている。

データダウンロード

新しいオニオンアドレスが特定されたら、一連のダウンローダーがTorプロキシを使用してHTMLコンテンツを取得する。このコンテンツは、簡単なアクセスと管理を確保するためにクラウドベースのストレージソリューションに安全に保存される。

データのバッチ処理

毎日、システムはいくつかの重要なタスクを実行するバッチ処理ジョブを実行する。これには以下が含まれる:

  1. 重複排除:分析の前に、システムは重複コンテンツを特定し、削除する。文書間の類似性を計算するアルゴリズムを使用して、繰り返しデータの量を大幅に減らす。

  2. 言語検出:アーキテクチャはコンテンツを分析して各オニオンサイトの主要な言語を特定し、より正確なトピック分類を促進する。

  3. トピック抽出:BERTopicを使って、システムはテーマに基づいて文書をグループ化し、オニオンサービスを関連するトピックに自動的に分類する。

実験結果

このアーキテクチャは数週間にわたり展開され、テストされた。この期間中に、大量のオニオンサービスを特定し分析する素晴らしい能力を示した。

オニオンサービスの特定

テスト期間中に、72,045以上のアクティブなTorオニオンサービスがこのアーキテクチャによって特定された。この成功は、ダークウェブをクローリングし、有用なデータを集めるシステムの効率を強調している。

重複したコンテンツとユニークなコンテンツ

調査の結果、特定されたサービスのかなりの部分が重複していることがわかった。具体的には、78.7%のサイトが完全に重複していて、さらに14.8%が近似重複だった。この冗長性の問題はダークウェブでは一般的で、監視システムにおける効果的な重複排除プロセスの必要性に寄与している。

言語分布とトピックカテゴリ

特定されたサイトの主な言語は英語だったが、他の言語でのコンテンツもかなりの割合で存在していた。高度な処理を通じて、アーキテクチャはオニオンサービスをさまざまなトピックに分類し、ダークウェブ上に普及するコンテンツの種類のパターンを明らかにした。最も一般的なトピックには、性的および暴力的コンテンツ、リポジトリと検索エンジン、カード詐欺サービスなどが含まれていた。

結論

このアーキテクチャは、ダークウェブの変化し続ける環境を監視・分析するための強力なソリューションになっている。オニオンサイトを特定し、ダウンロードし、分類するプロセスを自動化することで、データ収集の効率を向上させるだけでなく、違法活動に関する貴重な洞察を提供する。

変動性、重複、正確なトピック特定に伴う課題を考えると、提案されたシステムはダークウェブの複雑さをナビゲートするための現代的なアプローチとして際立っている。技術が進歩し続ける中で、これらの隠れたインターネットの隅々を理解し、ますますつながった世界において安全と認識を確保するためには、より洗練された方法を開発していくことが重要になるだろう。

オリジナルソース

タイトル: A Big Data Architecture for Early Identification and Categorization of Dark Web Sites

概要: The dark web has become notorious for its association with illicit activities and there is a growing need for systems to automate the monitoring of this space. This paper proposes an end-to-end scalable architecture for the early identification of new Tor sites and the daily analysis of their content. The solution is built using an Open Source Big Data stack for data serving with Kubernetes, Kafka, Kubeflow, and MinIO, continuously discovering onion addresses in different sources (threat intelligence, code repositories, web-Tor gateways, and Tor repositories), downloading the HTML from Tor and deduplicating the content using MinHash LSH, and categorizing with the BERTopic modeling (SBERT embedding, UMAP dimensionality reduction, HDBSCAN document clustering and c-TF-IDF topic keywords). In 93 days, the system identified 80,049 onion services and characterized 90% of them, addressing the challenge of Tor volatility. A disproportionate amount of repeated content is found, with only 6.1% unique sites. From the HTML files of the dark sites, 31 different low-topics are extracted, manually labeled, and grouped into 11 high-level topics. The five most popular included sexual and violent content, repositories, search engines, carding, cryptocurrencies, and marketplaces. During the experiments, we identified 14 sites with 13,946 clones that shared a suspiciously similar mirroring rate per day, suggesting an extensive common phishing network. Among the related works, this study is the most representative characterization of onion services based on topics to date.

著者: Javier Pastor-Galindo, Hông-Ân Sandlin, Félix Gómez Mármol, Gérôme Bovet, Gregorio Martínez Pérez

最終更新: 2024-01-24 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2401.13320

ソースPDF: https://arxiv.org/pdf/2401.13320

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

分散・並列・クラスターコンピューティング攻撃に対抗するための分散型フェデレーテッドラーニングモデルの強化

研究は分散型フェデレーテッドラーニングにおけるモデルの頑健性と防御策を強調している。

― 1 分で読む

類似の記事