注意グラフを使ったサイバー脅威インテリジェンスの進化
マルウェアの行動検索に新しいアプローチが加わって、サイバーセキュリティの分析が強化された。
― 1 分で読む
目次
サイバー攻撃は今の世界で大きな懸念事項になっていて、毎年1兆ドル以上の損失を引き起こしてるんだ。こういう攻撃に対処する上で重要なのは、犯人を捕まえたり、彼らのマルウェアがどう機能するかを理解することなんだ。このプロセスのことを攻撃フォレンジクスって呼ぶんだよ。サイバーセキュリティの専門家は、マルウェアの挙動を分析して、その出所を特定する必要があるんだけど、残念ながら、現在のマルウェア分析手法の多くは部分的な情報しか提供できないんだ。これは、マルウェアが巧妙に自らを偽装したり、悪意のある行動を隠すからなんだよ。
この問題に対処するために、サイバーセキュリティのアナリストはよくテキスト検索技術を使ってるんだ。彼らは、観察している症状や挙動に似たマルウェアに関する既存のレポートを探すんだ。その理由は、同じソースからのマルウェアは共通の特徴を持つことが多いから。この記事では、注意グラフ同型性という方法に基づいたマルウェアの挙動を探す新しい方法を提案するよ。この方法は、トランスフォーマーモデルに組み込まれていて、高度な人工知能の一種なんだ。
マルウェア分析の課題
マルウェアがどう振る舞うか、どこから来るかを理解するのはサイバーセキュリティにとって欠かせない。攻撃フォレンジクスは、野生に見つかったマルウェアのサンプルから始まることが多い。アナリストは、IDAみたいなツールを使ってコードをレビューしたり、サンドボックス技術を使って制御された環境でマルウェアの動きを観察するんだ。このプロセスが被害を特定したり、将来の攻撃を防ぐのに役立つ。
でも、マルウェアの作成者は自分のプログラムを守るための機能を盛り込むことが多くて、分析が難しいんだ。一部のマルウェアは、コードを変更して本来の目的を隠す「難読化」を使ったり、特定の条件が満たされるまで有害な行動を隠す「クローク技術」を使ったりするんだ。だから、アナリストはマルウェアができることの一部分しか見ることができない。
そういう課題のために、専門家は関連するマルウェアの挙動に関するレポートを見つけるために、テキスト検索に大きく依存している。これは、データの盗難やシステムの破壊といった具体的な行動に基づいて行われるんだ。多くのサイバー攻撃は、特に同じ攻撃者グループからのものは、似たような方法で計画され、実行されるからなんだ。そのため、既存のレポートを研究することで、アナリストは共通の特徴に基づいて新しいマルウェアについて推測することができる。
マルウェアレポートとその限界
多くのサイバーセキュリティ企業がマルウェア分析に関する多数のレポートを発表しているけど、これらのレポートは未来の調査に役立つ貴重な情報を提供できる可能性がある一方で、その潜在能力を最大限に活用するのが難しいことが多いんだ。これの主な理由は、これらのレポートは標準化されていなくて、構造が欠如していて、誰でも提出できるからなんだ。
根本的な問題は、サイバー脅威インテリジェンス(CTI)検索と呼ばれる専門的なテキスト検索の課題にある。CTI検索は、(1)ラベル付きデータセットが不足しているため、監視学習モデルを作るのが難しい、(2)既存の一般的な言語モデルがサイバーセキュリティ分野に関連する特有の用語や意味を捉えるのが苦手である、という2つの主要な障害に直面している。言葉のうっすらした変化でも意味に大きな違いを生むことがあるので、分析が複雑になっちゃう。
例えば、用語「ファイル」はコンテキストによって二つの全く異なる意味を持つことがある。データが盗まれることを指すか、プログラムが悪用されることを指すか、って感じだ。マルウェアレポートを検索する最も一般的な方法は、ファイルハッシュみたいな妥協の指標(IoCs)を通じてなんだけど、この方法は正確だけど、マルウェアの変異の問題に対してはうまく機能しないんだ。マルウェアはしばしば検出を避けるために外見を変更するから。
別の方法はテキストの類似性に依存していて、キーワードベースと文の埋め込みの方法に分かれてる。キーワードベースの方法は特定の用語に焦点を当てるけど、それらの用語間の関係を捉えるのには失敗する。一方で、文の埋め込みは関係の薄い言葉に気を取られちゃって、さらに分析がややこしくなることが多いんだ。
マルウェア挙動検索の新しいアプローチ
私たちは、グラフ同型性に基づくCTI検索の新しい手法を提案するよ。これは、グラフの中のパターンを特定するコンセプトなんだ。様々なセキュリティ会社からの過去のCTIレポートの大規模なデータベースを作成することで、私たちのテクニックはサイバーセキュリティ領域で使われる用語の特有の意味をよりよく捉えることができるんだ。
このデータベースには、様々なマルウェアの挙動を文書化した数年分の詳細なレポートが含まれてる。マスクされた言語モデル、これはトランスフォーマーモデルの一種なんだけど、をトレーニングした後、このモデルが重要な単語とその相互関係にうまく焦点を当てられることを発見したんだ。
自然言語の広がりのためにノイズが多すぎる一般的な事前学習された埋め込みに依存する代わりに、私たちは注意グラフを作成する。ここでは、各単語がノードとして表されて、注意スコアが特定の閾値を超えた場合にそのノード同士を接続する。次に、このグラフを使って異なるCTIレポート間の類似性を判定するんだ。
私たちの研究の貢献
私たちの研究はいくつかの重要な貢献を示しているよ:
データ収集:信頼できるソースからのCTIレポートを大量に集めて、未来の研究のための貴重なリソースを作成したんだ。
新しい検索方法:CTIレポートで使われる特定の用語と意味に合わせた独自の注意グラフに基づく検索方法を開発したよ。
パフォーマンス評価:私たちの方法をdoc2vec(文の埋め込み技術)やキーワードベースの類似性手法と比較したところ、私たちのアプローチが常にこれらの代替手段を上回っていることが分かったんだ。
実際の十件のマルウェア事件の研究で、私たちの方法はそのうちの八件の出所を正確に一致させることができた。一方、Googleを使った検索では正確に同定できた起源は三件だけだったよ。
実際の例
効果的な検索技術の重要性を浮き彫りにする実際の事件の一つに、インドの原子力発電所に対するサイバー攻撃があるんだ。この攻撃は2019年に発生して、複数のステージに分かれてた。攻撃者は最初に脆弱性を利用して数台のコンピュータにアクセスした後、さらにシステムを侵害しながら低いプロファイルを維持したんだ。この種の高度な持続的脅威(APT)は、最終的なペイロードが初期侵入の数日後に届けられるまで、何日も何週間もかかることがある。
この攻撃の後、アナリストはシステムに異常な挙動を観察したけど、それを特定の攻撃者グループに結びつけるのが難しかった。彼らは攻撃の初期段階で使われた実行可能なマルウェアファイルを発見し、それに関連するいくつかの挙動を特定したんだ。しかし、この情報だけでは攻撃の起源や動機を明らかにするには不十分だった。
通常、アナリストはVirusTotalのようなプラットフォームでファイルハッシュを検索するところから始めるけど、この場合は攻撃前にそのマルウェアが提出されていなかったから、マッチは見つからなかった。アナリストは観察した挙動を使って関連するレポートを見つけようとしたけど、満足のいく結果には至らなかった。取得した多くのレポートは、その事件とは無関係に見えたんだ。
もし彼らが私たちの検索技術を使ってたらどうなってたろう?観察された挙動を検索することで、彼らは同じ脅威グループに関連付けられた過去の攻撃からいくつかの関連レポートを取得できたはずだ。この情報が攻撃手法や目的の類似性に基づいて、ラザルスグループを有力な容疑者として指し示してくれたかもしれない。
グラフベースの検索の重要性
グラフベースの検索には大きな利点があるんだ。これによってマルウェアレポート内の単語や概念間の関係をより深く理解できるようになる。こういう情報を捉えることで、アナリストは従来の方法では見逃すかもしれない接続を確立できるんだ。これは、レポートで使われる言語が変わるか、言い回しの微妙な違いが挙動の意味を変えてしまうときに特に有用なんだ。
私たちのアプローチは、トランスフォーマーモデルからの自己注意を利用していて、直接的な単語間の接続だけじゃなくて、もっと複雑な関係を特定するのを助けるんだ。これによって、特定のレポートで議論されている挙動のより正確な表現を生成できるようになって、最終的には検索結果が改善されるんだ。
効果の評価
私たちの検索手法の効果を測るために、一連の実験を行ったよ。私たちのテクニックが既存の方法と比較してどれくらいよく機能するかを評価したんだ。精度や再現率みたいな指標を考慮に入れて、どれだけ関連のあるレポートが取得できたか、またどれだけ無関係なものが含まれていたかを判断したんだ。
評価は、実際のマルウェアケースの行動辞書や説明を含む二つのデータセットを使って行ったんだ。各挙動について、真の陽性ケースと他の挙動からのランダムな選択を考慮して、私たちの手法の正確性をテストしたんだ。
結果は、私たちの方法が既存の代替手段を大幅に上回ることを示したよ。F1スコアが最も高くて、テストの精度をバランスさせる指標であることが分かったんだ。
マルウェア攻撃のケーススタディ
一連のケーススタディでは、私たちの検索手法が最近の攻撃の起源を特定するのにどう役立ったかを調べたよ。十件の注目すべき攻撃をランダムに選んで、私たちのCTIレポートコレクション内でその挙動を探したんだ。
結果はすごくて、私たちの方法はそのうちの八件の攻撃の正しい起源を特定できた。一方で、従来の方法であるGoogle検索は三件しか正確には特定できなかった。これは、より洗練されて焦点を当てた検索方法が、特定のアクターや脅威グループに攻撃を明確に帰属させるのに役立つことを示してる。
方法の効率性
効果だけじゃなくて、私たちの検索手法の効率性も評価したんだ。パフォーマンスを向上させ、検索時間を減少させるためのさまざまな最適化を実装したよ。これには、グラフのキャッシングや無関係なアイテムをフィルタリングするための文のクラスタリング技術が含まれてる。
これらの最適化がなかったら、初期の私たちのシステムは大規模なデータセットを処理するのに数時間かかることもあったけど、改善によって検索時間を大幅に短縮できて、単純な単語マッチング手法と同等にしたんだ。
結論
私たちの研究は、注意グラフ同型性を通じたサイバー脅威インテリジェンス検索への革新的なアプローチを紹介するよ。サイバーセキュリティ特有の言語のユニークなセマンティクスを効果的に捉えることで、私たちの方法が関連するレポートの取得を大幅に改善できることを示したんだ。
私たちのケーススタディは、実際の応用を示していて、私たちの検索手法がマルウェアの起源を特定したり、攻撃の挙動を理解するサイバーセキュリティのアナリストの作業を改善できることを強調しているね。サイバー脅威の複雑さが増す中、私たちのような高度な手法を採用することが、攻撃者に先んじるために重要になるかもしれない。
将来的には、私たちのアプローチをさらに洗練させ、データセットを拡張し、サイバーセキュリティ分野におけるグラフベースの手法の潜在能力をさらに探求する予定だ。この研究は単なる学術的な演習ではなくて、実用的な意味を持ち、サイバー犯罪との戦いにおいて重要になるかもしれない。
タイトル: Threat Behavior Textual Search by Attention Graph Isomorphism
概要: Cyber attacks cause over \$1 trillion loss every year. An important task for cyber security analysts is attack forensics. It entails understanding malware behaviors and attack origins. However, existing automated or manual malware analysis can only disclose a subset of behaviors due to inherent difficulties (e.g., malware cloaking and obfuscation). As such, analysts often resort to text search techniques to identify existing malware reports based on the symptoms they observe, exploiting the fact that malware samples share a lot of similarity, especially those from the same origin. In this paper, we propose a novel malware behavior search technique that is based on graph isomorphism at the attention layers of Transformer models. We also compose a large dataset collected from various agencies to facilitate such research. Our technique outperforms state-of-the-art methods, such as those based on sentence embeddings and keywords by 6-14%. In the case study of 10 real-world malwares, our technique can correctly attribute 8 of them to their ground truth origins while using Google only works for 3 cases.
著者: Chanwoo Bae, Guanhong Tao, Zhuo Zhang, Xiangyu Zhang
最終更新: 2024-04-18 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2404.10944
ソースPDF: https://arxiv.org/pdf/2404.10944
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。