チャンクベースの分析でマルウェア検出器を守る
チャンクベースの分析を通じてマルウェア検出を強化する新しいアプローチ。
― 1 分で読む
目次
マルウェア検出ツールは、有害なソフトウェアを見つけるために重要な道具だよ。最近、これらの検出器はディープラーニングを使い始めたんだ。これは大量のデータからパターンを学ぶ人工知能の一種なんだけど、問題がある。悪いソフトウェアを作る奴らが、そのマルウェアにちょっとした変更を加えることで検出器を欺く方法を見つけちゃったんだ。これで彼らの有害なプログラムが見逃されることがあるんだよ。
この論文では、マルウェア検出器をこれらのトリックから守る新しい方法について話すよ。私たちの方法は、マルウェアを小さな部分に分解して、それぞれを分析するというもの。これにより、マルウェアが検出を逃れるために変更されても、検出率が向上するんだ。
敵対的攻撃の問題
敵対的攻撃は、誰かがマルウェアを修正して、マルウェア検出器の検出を逃れるようにすることだよ。プログラムコードのほんの少しのバイトを変更するだけで済むこともある。ディープラーニングベースのマルウェア検出器が増える中で、こうした攻撃に対抗するための防御が必要になってきているんだ。
悪意のある奴らは賢くて、常に検出を逃れるための方法を適応させている。彼らは機械学習モデルがどう動くかを理解しているから、捕まえるのが難しいんだ。いくつかの方法には、悪意のあるソフトウェアに無害なコードを注入して、害がないように見せるものがある。これが検出器を混乱させて、マルウェアを安全だと誤分類させるんだ。
現在のマルウェア検出戦略
マルウェアを検出する方法はいくつかある。特定のファイルの特徴を探す方法もあれば、時間がかかるし、ファイル形式やコードをよく理解する必要がある。別の方法では、ディープラーニングモデルを使って生データから特徴を学ぶものもある。
MalConvのようなディープラーニングモデルは、無害なファイルと悪意のあるファイルの両方から学習できる。データのパターンを探して、ファイルをより正確に分類できるようにするけど、巧妙に作られた敵対的な例にはまだ騙されることがあるんだ。
私たちの提案する防御方法
ディープラーニングモデルの脆弱性に対処するために、私たちは他の機械学習分野で使われているテクニックにインスパイアされた防御方法を開発したんだ。私たちのアプローチは、全体のファイルを一度に分析するのではなく、データの塊に焦点を当てるシステムを作ることなんだ。
主に2つの戦略を使っていて、ランダムにバイトの塊を選んだり、隣接する塊を選んだりしている。これらの小さな部分を処理することで、マルウェア検出器の頑健性を向上させることができるんだ。これによって、ファイルの小さな部分が変更されても、全体の分類に影響を与える可能性が減るんだ。
私たちのアプローチのテスト方法
私たちの方法を検証するために、BODMASというデータセットを使ってマルウェア検出器を訓練したよ。このデータセットには無害なソフトウェアと悪意のあるソフトウェアのファイルが混在しているんだ。様々な最先端の回避攻撃に対して私たちの方法のパフォーマンスを測定したんだ。
テストの結果、塊ベースの方法は従来のモデルに比べて、敵対的なマルウェアに対してより耐性があることがわかったよ。巧妙なトリックに直面しても、私たちの検出器は高い精度を維持できたんだ。
塊ベースの分類を使う利点
私たちの塊ベースの方法にはいくつかの利点があるよ。
変化に対する頑健性: ファイルを小さな部分に分解することで、私たちの検出器は小さな変化に対処しやすくなる。マルウェアの一部が変更されても、全体の分類に影響を与える可能性が低くなるんだ。
効率: 小さな塊を処理することで、分析を迅速に行えるから、検出器がより早く動くことが可能になるんだ。
理解の向上: 個々の塊を分析することで、どの部分が悪意があるかを理解しやすくなる。これがマルウェアの挙動についての洞察を深めるかもしれない。
適応性: 私たちの方法は、さまざまな種類のマルウェアや異なる検出技術に適応できるんだ。
実験のセットアップ
私たちは強力なCPUとGPUを搭載したマシンを使って実験を行ったよ。BODMASデータセットは評価に欠かせなくて、私たちの検出システムのテストに豊富な例を提供してくれたんだ。このデータセットには多くのマルウェアサンプルと無害なファイルが含まれているよ。
モデルを評価するために、データセットを訓練、検証、テストセットに分けた。訓練セットはモデルが学ぶのを手助けし、検証セットとテストセットはパフォーマンスを評価するために使ったんだ。
パフォーマンス評価
私たちのアプローチを徹底的に評価するために、塊ベースのモデルのパフォーマンスを従来のモデルと比較したよ。悪意と無害なサンプルを検出する精度を測ったんだ。結果、私たちの塊ベースの方法は、敵対的な例に直面しても、非スムーズなモデルより大幅に優れたパフォーマンスを示したんだ。
回避攻撃に対する結果
私たちは検出器をさまざまな回避攻撃に対してテストして、圧力の下でどれだけうまく機能するか見たよ。ここにいくつかの発見がある:
スラック+パディング攻撃: この攻撃は使われていない部分(スラックスペース)を修正して、余分な内容を追加するもの。私たちの塊ベースのモデルは耐性を示して、高い精度を維持したんだ。
シフト攻撃: ここではファイルの内容がシフトされて、悪意のあるペイロードを注入するためのスペースが作られる。私たちのモデルは従来のモデルに比べて高い検出精度を達成したよ。
GAMMA攻撃: この攻撃は悪意のあるファイルに無害な内容を注入して、検出器を誤導しようとするもの。私たちの塊ベースの方法でも、多くの敵対的な例を検出することができたよ。
コードケイブ攻撃: 攻撃者はよくコードの使われていない部分にペイロードを埋め込むんだ。また、私たちのモデルは非スムーズなモデルに比べて、これらの変更されたファイルを検出するのが得意だったよ。
制限と今後の研究
私たちのアプローチは有望だけど、挑戦もあるよ。一つの潜在的な制限は、ファイル内のすべての塊が完全に悪意のあるか無害であるという前提だ。実際には、いくつかのファイルには両方のタイプのコードが含まれていることがあるんだ。
今後は、塊のより細かいラベリングが私たちの検出精度をさらに向上させるかもしれない。さらに、注入された敵対的なコンテンツを識別して削除する方法を探究することで、私たちのモデルの効果を高めることができるかも。
結論
結論として、私たちの研究はマルウェア検出器に対する敵対的攻撃から守る新しい方法を示しているよ。ファイルを塊に分解して個別に分析することで、検出率を向上させて、マルウェア制作者が使う巧妙なトリックに対しても頑健性を保てるんだ。私たちの実験の結果は、従来の方法よりも様々なシナリオで効果的であることを示しているよ。
マルウェアとの戦いは続いていて、検出技術を継続的に開発して改善することが重要だよ。私たちの仕事は、マルウェア検出と敵対的防御に関する将来の研究の基盤を築くものであり、ソフトウェアユーザーを有害なプログラムから守る手助けをしているんだ。
タイトル: A Robust Defense against Adversarial Attacks on Deep Learning-based Malware Detectors via (De)Randomized Smoothing
概要: Deep learning-based malware detectors have been shown to be susceptible to adversarial malware examples, i.e. malware examples that have been deliberately manipulated in order to avoid detection. In light of the vulnerability of deep learning detectors to subtle input file modifications, we propose a practical defense against adversarial malware examples inspired by (de)randomized smoothing. In this work, we reduce the chances of sampling adversarial content injected by malware authors by selecting correlated subsets of bytes, rather than using Gaussian noise to randomize inputs like in the Computer Vision (CV) domain. During training, our ablation-based smoothing scheme trains a base classifier to make classifications on a subset of contiguous bytes or chunk of bytes. At test time, a large number of chunks are then classified by a base classifier and the consensus among these classifications is then reported as the final prediction. We propose two strategies to determine the location of the chunks used for classification: (1) randomly selecting the locations of the chunks and (2) selecting contiguous adjacent chunks. To showcase the effectiveness of our approach, we have trained two classifiers with our chunk-based ablation schemes on the BODMAS dataset. Our findings reveal that the chunk-based smoothing classifiers exhibit greater resilience against adversarial malware examples generated with state-of-the-are evasion attacks, outperforming a non-smoothed classifier and a randomized smoothing-based classifier by a great margin.
著者: Daniel Gibert, Giulio Zizzo, Quan Le, Jordi Planes
最終更新: 2024-02-26 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2402.15267
ソースPDF: https://arxiv.org/pdf/2402.15267
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。