インターネットを賢くスキャンする方法
効率的にサービスを予測するインターネットスキャンのシステムを紹介するよ。
― 1 分で読む
インターネットを理解するのは、研究者やネットワークオペレーターにとって重要なんだ。これをする方法の一つは、インターネットをスキャンして、どのポートでどんなサービスが動いているかを見ること。これによってネットワークの構造を把握したり、潜在的なセキュリティの問題を特定したりできるんだ。でも、全てのインターネットをスキャンするのは、デバイスやサービスの数が多すぎて大変なんだよ。
インターネットスキャンの課題
IPv4は、インターネットプロトコルの第4版で、数十億のユニークなアドレスを持ってる。全てのポートで全てのサービスをスキャンするには、膨大な時間とリソースが必要になる。例えば、37億のIPv4アドレスの全65,000ポートをスキャンするには、普通の方法だと約5.6年かかるんだ。これじゃほとんどの研究者には無理だよね。
今のスキャンの努力は、ポート80(ウェブトラフィック用)やポート23(Telnet用)みたいな人気のポートだけに集中しているんだけど、問題なのは、多くのサービスがこれらの人気ポートでは動いてないから、たくさんのサービスが見落とされちゃうんだ。標準外のポートで動いてるインターネットサービスも多くて、これを逃すと重要なデータや脆弱性を見逃すことになる。
改善の必要性
既存の方法の限界から、インターネット上のサービスをスキャンして発見するより効率的な方法が強く求められてるんだ。最近集めたデータによると、人気のポートだけをスキャンすると、サービスの大部分を見逃しちゃうことがあって、時には97%に達することもあるんだ。
インテリジェントなスキャンシステムがこの問題の解決策になるかもしれない。これを使うことで、全てのポートを徹底的にスキャンすることなく、インターネットのサービスをより包括的に分析できるんだ。予測フレームワークを利用することで、研究者は限られた初期データに基づいて、どのポートにサービスが動いてる可能性が高いかを見つけることができる。
インテリジェントスキャンシステムの紹介
この新しいシステムは、インターネットスキャンの効率を高めることを目指してる。最初に反応するIPアドレスの少数のデータを集めて、その情報を使って全ポートに渡るサービスの存在を予測するんだ。つまり、全65,000ポートを、以前の方法よりもずっと早く、データ転送も少ない状態でスキャンできるってわけ。
インテリジェントスキャンシステムは、ランダムに選んだIPアドレスの小さなサンプルからデータを集めることから始める。その後、集めたデータの特徴に基づいてモデルを構築する。パターンを見つけたり、これに基づいて予測したりすることで、システムはかなりのポートにわたってサービスを特定することができるんだ。
仕組み
データ収集
スキャンプロセスの最初のステップは「シード」セットのデータを集めること。これは、システムが初めにスキャンする少数のIPアドレスのグループなんだ。このデータセットのサイズは、予測の効果に大きな役割を果たす。反応するアドレスから情報を集めることで、システムはどんなサービスがあるかのより明確なイメージを持つことができる。
モデルの構築
初期データが集まったら、システムは確率モデルを作成する。このモデルは、集めたデータからの様々な特徴を使って構築される。これらの特徴がサービスの存在とどう関連するかを分析することで、モデルは他のポートで動いているかもしれないサービスについて推測することができる。
サービスの予測
モデルができたら、インテリジェントスキャンシステムは反応するホストのそれぞれに少なくとも1つのサービスを特定する。この初期発見は重要で、これがそのホストにおける他のサービスを予測する基盤になるんだ。モデルは最初に見つけたサービスの情報を使って、残りのサービスを予測する。
システムは、簡単に並列処理できる計算を利用しているから、複雑なトレーニングや長いデータ収集プロセスが必要な古いモデルよりもずっと早いんだ。
効率と効果
インテリジェントスキャンシステムは、従来の徹底的スキャン方法よりもはるかに少ない帯域幅を使いながら、全ポートでかなりの数のサービスを見つけることができる。古いアプローチと比べて、92.5%のサービスを見つけながら、データの使用を大幅に減らせるから、スキャン元のリソースとスキャンされるネットワークの両方に対する影響を最小限に抑えられるんだ。
インターネットアドレスのごく一部のデータを使うだけで、正確かつ迅速にサービスを予測できる。例えば、クラウドリソースを使えば、わずか13分で予測を計算できるから、以前の方法よりも桁違いに早いんだ。
従来の方法との比較
従来の方法は、分類器や統計モデルに依存していて、正確な予測を生み出すためには膨大なデータと時間が必要だった。これらの古いモデルは、知られているポートに限られていて、多くの標準外のポートで利用できるサービスの多様性を適切にキャッチできていなかった。例えば、ある方法では各ポートごとにモデルを個別にトレーニングする必要があり、ポートの数が膨大なことを考えると現実的じゃなかった。
一方、インテリジェントスキャンシステムは、そうした徹底的なトレーニングに依存していない。代わりに、特徴間の関係を捕らえて、その関係を使って予測を行う。この根本的な変化は、インターネットスキャンの効率において大きな進歩を示しているんだ。
倫理的考慮
インテリジェントスキャンシステムは研究者やネットワークオペレーターにとって強力なツールだけど、倫理的な配慮も必要だよ。インターネットをスキャンすると脆弱性が明らかになることがあって、悪意のある人がその情報を悪用するかもしれない。だから、開発者はシステムを設計する際に、ネットワークオペレーターが不要なスキャンをブロックできるような保護機能を組み込むことが重要なんだ。
このスキャンツールの開発は、倫理的なインターネット利用のコミュニティスタンダードに従って行われていて、ネットワークを守りたい研究者が利益を得られるようにしつつ、インターネット全体への影響を減らすことを目指してる。
結論
インテリジェントスキャンシステムは、従来のインターネットスキャン方法の短所を克服するように設計されてる。予測フレームワークを使うことで、全てのポートで多くのサービスを効率的に見つけながら、必要な帯域幅を減少させることができる。この進歩は、インターネットサービスの理解を大きく改善し、研究者やネットワークオペレーターが自分たちのネットワークを効果的に監視し、保護できるようにするんだ。
この新しいアプローチは、これまで見落とされていたサービスを発見する可能性を開くだけでなく、より安全で理解されるインターネットに貢献することを約束してる。このシステムがオープンソースツールとしてリリースされることで、より多くの研究者やオペレーターがこの進展から利益を得て、最終的には全てのユーザーにとってインターネットをより安全にすることができるんだ。
タイトル: Predicting IPv4 Services Across All Ports
概要: Internet-wide scanning is commonly used to understand the topology and security of the Internet. However, IPv4 Internet scans have been limited to scanning only a subset of services -- exhaustively scanning all IPv4 services is too costly and no existing bandwidth-saving frameworks are designed to scan IPv4 addresses across all ports. In this work we introduce GPS, a system that efficiently discovers Internet services across all ports. GPS runs a predictive framework that learns from extremely small sample sizes and is highly parallelizable, allowing it to quickly find patterns between services across all 65K ports and a myriad of features. GPS computes service predictions in 13 minutes (four orders of magnitude faster than prior work) and finds 92.5% of services across all ports with 131x less bandwidth, and 204x more precision, compared to exhaustive scanning. GPS is the first work to show that, given at least two responsive IP addresses on a port to train from, predicting the majority of services across all ports is possible and practical.
著者: Liz Izhikevich, Renata Teixeira, Zakir Durumeric
最終更新: 2023-03-01 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.00895
ソースPDF: https://arxiv.org/pdf/2303.00895
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。