MLaaSにおけるモデル抽出のリスク
APIを通じてアクセスされる機械学習モデルの脆弱性を調査中。
― 1 分で読む
機械学習サービス(MLaaS)は、今日、さまざまな業界で広く使われてるんだ。この仕組みでは、機械学習モデルがプライベートデータでリモートで訓練され、その後、予測APIを通じて一般にアクセスできるようになるんだ。これらのAPIは、利用者や潜在的な攻撃者がクエリを送信し、モデルからの予測を受け取るのを可能にする。でも、研究によると、こうしたAPIを通じて提供されるモデルは、モデル抽出攻撃と呼ばれる特定の攻撃を使って再現されたり「盗まれたり」することがあるんだ。
モデル抽出攻撃では、敵がクエリデータセットを作成してターゲットモデルにクエリを送り、それに対応する予測を集めてターゲットを模倣するモデルを構築する。主な目的は、さまざまな入力に対してターゲットモデルと似た動作をするモデルを作ることなんだ。これは、多くの機械学習モデルがプロプライエタリで、開発にコストがかかり、敏感な個人データで訓練されることが多いから問題なんだ。
MLaaSを通じてアクセスしたときに、これらのモデルがどれだけ脆弱かを理解することが重要になる。これにより、プライベートな訓練データにアクセスせずにモデル情報を抽出する攻撃の調査が行われる。
クエリ効率の良いモデル抽出
ブラックボックスモデル抽出攻撃は、ターゲットモデルに送信されるクエリの数と抽出されたモデルの質とのバランスが必要だ。敵はクエリを多く集めるほど正確な情報を得られるけど、モデルに対してあまりにも多くクエリを送りすぎると、費用や検出の面で高くつく可能性がある。だから、クエリ効率の良い攻撃に焦点を当てることが重要なんだ。コストを最小限にしながら効果的にクエリを選択できるアルゴリズムを開発することが、こうした攻撃をより実用的で目立たないものにできる。
貢献
研究では、モデル抽出攻撃の分野に対する3つの主な貢献を強調している:
定義:この論文では、2つの主なアイデア、すなわち分布的同等性と最大情報抽出を紹介する。分布的同等性は、ターゲットモデルと抽出されたモデルの確率分布の関係を指す。最大情報抽出は、ターゲットモデルから可能な限りの情報を集めることを目的とする。
アルゴリズム:研究では、情報利得を最大化しながらクエリの選択を適応させるアルゴリズムを提案している。ターゲットモデルに関する最も情報量の多いクエリを特定するために、サンプリング戦略を用いて過去の研究を基にしている。
実験分析:研究者たちは提案された方法の効果を検証するために広範な実験を行っている。さまざまなタスクやデータタイプに対してモデル抽出アプローチをテストし、その能力を示している。
背景
分類器
機械学習では、分類器は入力特徴を異なるクラスに割り当てる関数だ。このプロセスでは、データセットを使用してモデルを訓練し、入力と出力の関係を学ぶのを助ける。目標は、予測された結果と実際のラベルとの違いを最小限にすることなんだ。
モデル抽出攻撃
モデル抽出攻撃は、ターゲットモデルの内部状態に直接アクセスすることなく、ターゲットモデルのコピーを作成することを含む。敵はAPIを通じてターゲットモデルと通信し、クエリを送り予測を受け取る。モデル抽出攻撃には主に2つのタイプがある:機能的同等性(モデルの動作を再現する)と忠実性(幅広いデータにわたって予測を密接に一致させる)。
メンバーシップ推論攻撃
メンバーシップ推論攻撃は、特定のデータポイントがターゲットモデルの訓練データセットの一部であったかどうかを判断することに焦点を当てる。これらの攻撃は、モデルを訓練するために使用されたプライベートデータに関する洞察を提供することができ、大きなプライバシーリスクをもたらす。
方法論
分布的同等性
研究者たちは、抽出されたモデルとターゲットモデルの間の分布的同等性を強調するモデル抽出戦略を提案している。重要なアイデアは、両方のモデルが同じ入力データに対して似たような確率分布を生成する場合、それらは同等と見なされることだ。したがって、単に予測を一致させるのではなく、全体的な予測の振る舞いが一致していることを確保することに焦点が移る。
最大情報抽出
最大情報抽出アプローチは、クエリを行う際にターゲットモデルから得られる情報量を最大化することに基づいている。敵は、役立つ予測を提供するだけでなく、モデルの振る舞いから得られる知識を最大化するクエリを選択することを目指す。
適応的クエリ選択
この研究で開発された適応的クエリ選択アルゴリズムは、敵がクエリのセットを動的に洗練することを可能にする。静的なアプローチではなく、この方法は選択されたクエリの効果を継続的に評価し、ターゲットモデルから受け取った応答に基づいて調整を許可する。
実験設定
この研究には、さまざまなデータセットで訓練されたさまざまな機械学習モデルを含む一連の実験が含まれている。実験の目的は、抽出されたモデルの精度、ターゲットモデルの予測とどれだけ一致しているか、そしてメンバーシップ推論攻撃の実行におけるその効果を評価することだ。
実験では、ターゲットモデルの訓練に使用されたプライベートデータセットとは異なる公開データセットを使用する。これは、ミスマッチしたデータを導入し、抽出されたレプリカの高い精度を目指すことで、モデル抽出プロセスに挑戦的な状況を提供する。
結果
モデルの精度
結果として、提案された方法を使用して抽出されたモデルは、ターゲットモデルと同等の精度レベルに達することが示されている。この発見は、提案された抽出方法の効果を強調し、少ないクエリで同様のパフォーマンスを示すモデルを構築できることを示している。
分布的同等性
実験から、抽出されたモデルは、分布的同等性に関してターゲットモデルと密接な関係を維持していることが強調される。この評価に使用される重要な指標はKLダイバージェンスで、抽出モデルとターゲットモデルの予測分布がどれだけ似ているかを測定する。KLダイバージェンスの値が低いほど、2つのモデルの整合性が良いことを示している。
メンバーシップ推論
メンバーシップ推論の文脈では、抽出されたモデルは、特定のデータポイントがターゲットモデルの訓練セットの一部であったかどうかを特定する際により高い精度を示す。これは、抽出されたモデルがターゲットモデルの予測能力を再現するだけでなく、プライベート情報を漏らす可能性があることを示している。
討論
これらの発見は、モデル抽出攻撃に関連するリスクを理解し、緩和する必要性が高まっていることを示している。機械学習モデルへの依存度が増す中で、これらの攻撃のセキュリティの意味合いはますます重要になる。
プライバシーへの影響
個人のプライバシーへの影響は大きい、特に敏感なデータで訓練されたモデルが比較的容易に抽出できる場合。研究は、MLaaSエコシステムの脆弱性と、抽出されたモデルの悪用の可能性についての意識を高めるものだ。
将来の方向性
今後の研究は、こうした攻撃に対する防御の強化に焦点を当てるかもしれない。効果的なモデル抽出を可能にするメカニズムを理解することで、敏感なデータを保護するための対策を開発する助けになる。
モデル抽出の試みを検出し防御するアルゴリズムを開発することは、機械学習システムの整合性を維持するために重要だ。考えられる方向性には、異なるアーキテクチャを探求すること、クエリ応答システムを強化すること、アクセス制御を厳格にすることが含まれる。
結論
モデル抽出攻撃は、機械学習モデルとそれを訓練するために使用されるデータの機密性に対する深刻な脅威をもたらす。ターゲットモデルと抽出されたモデルの関係を調査することで、研究は最小限のクエリで有用な情報を抽出するための効果的な戦略を強調している。
分布的同等性と最大情報抽出の導入は、モデル抽出のメカニクスに関する貴重な洞察を提供する。機械学習の分野が進化し続ける中で、こうした攻撃に対する強力な防御の必要性が高まるだろう。
MLaaSシステムにおける潜在的なリスクや脆弱性を理解することで、プライバシーを保護する技術の将来の発展を手助けし、開発者やユーザーのためにより安全な環境を作ることができる。
タイトル: Marich: A Query-efficient Distributionally Equivalent Model Extraction Attack using Public Data
概要: We study design of black-box model extraction attacks that can send minimal number of queries from a publicly available dataset to a target ML model through a predictive API with an aim to create an informative and distributionally equivalent replica of the target. First, we define distributionally equivalent and Max-Information model extraction attacks, and reduce them into a variational optimisation problem. The attacker sequentially solves this optimisation problem to select the most informative queries that simultaneously maximise the entropy and reduce the mismatch between the target and the stolen models. This leads to an active sampling-based query selection algorithm, Marich, which is model-oblivious. Then, we evaluate Marich on different text and image data sets, and different models, including CNNs and BERT. Marich extracts models that achieve $\sim 60-95\%$ of true model's accuracy and uses $\sim 1,000 - 8,500$ queries from the publicly available datasets, which are different from the private training datasets. Models extracted by Marich yield prediction distributions, which are $\sim 2-4\times$ closer to the target's distribution in comparison to the existing active sampling-based attacks. The extracted models also lead to $84-96\%$ accuracy under membership inference attacks. Experimental results validate that Marich is query-efficient, and capable of performing task-accurate, high-fidelity, and informative model extraction.
著者: Pratik Karmakar, Debabrota Basu
最終更新: 2023-10-18 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2302.08466
ソースPDF: https://arxiv.org/pdf/2302.08466
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/debabrota-basu/marich
- https://tex.stackexchange.com/a/419290
- https://aws.amazon.com/machine-learning/ai-services/
- https://cloud.google.com/prediction
- https://azure.microsoft.com/en-us/products/app-service/api/
- https://www.kaggle.com/competitions/learn-ai-bbc/data
- https://github.com/Trusted-AI/adversarial-robustness-toolbox
- https://pytorch.org/vision/main/models/generated/torchvision.models.resnet18.html
- https://huggingface.co/bert-base-cased
- https://drive.google.com/drive/folders/1mpM-zE3w_pIS0c3DDb_uiR9Jw_MYvVer?usp=sharing
- https://huggingface.co/docs/transformers/v4.24.0/en/model_doc/bert