言語モデルのセキュリティ: 競争的アプローチ
競争は言語モデルのセキュリティにおける脆弱性と防御を明らかにする。
― 1 分で読む
大規模言語モデルシステムは、システムの元々の指示を上書きしたり、プライベートデータを漏らそうとする巧妙なメッセージから大きなセキュリティリスクに直面してる。これを研究するために、IEEE SaTML 2024でキャプチャ・ザ・フラッグコンペが開催されて、秘密の文字列を守るのが目標だった。競技は二つのフェーズに分かれていて、防御フェーズではチームが防御策を作り、攻撃フェーズではチームが秘密を引き出そうとした。
競技のセットアップ
競技はウェブインターフェースを使って、チームが防御策を作成・編集し、モデルとやりとりできるようになってた。各チームにはモデルにクエリを送るのに使うクレジットが配布された。防御フェーズではGPT-3.5やLlama-2みたいなモデルに対して防御策を作った。攻撃フェーズではチームが自分たちの防御を試すことができた。
防御フェーズ
チームは、システムプロンプト、Pythonフィルター、LLMフィルターを含む防御策を設計した。防御策の目的は、モデルが秘密を漏らさないようにしつつ、無関係なプロンプトに対する有用性を保つことだった。
攻撃フェーズ
攻撃フェーズでは、チームが防御を破ろうとした。このフェーズには、攻撃者が防御と自由にやりとりできる偵察ステージと、スコア付きのインタラクションが限られた評価ステージがあった。
競技の結果
競技には163の登録チームが参加し、72の防御策が提出された。攻撃フェーズでは137,063のユニークチャットがあり、35チームが少なくとも1つの防御を破った。137kを超えるインタラクションのデータセットが作成され、今後の研究を支えることになった。
データセット
データセットは防御とチャットに分かれてる。防御分には受け入れられた防御策の詳細が含まれていて、チャット分には攻撃フェーズ中のユーザーインタラクションが含まれてる。
データセットの探索
チャットデータセットには65の異なる攻撃チームからの会話が含まれてる。成功した秘密の抽出はわずか4%のエントリーだった。データセットの分析から攻撃戦略に関する洞察が得られて、成功する攻撃にはマルチターンの会話が大事だってことがわかった。
最も効果的な防御策
- チームHestia: システムプロンプトに模擬秘密を使ってダミーにして、本当の秘密を隠すために厳しいフィルターを適用した。
- チームRSLLM: システムプロンプトを明示的な指示で強化し、秘密を漏らさないようにした有効な出力フィルターを適用した。
- チームWreckTheLine: ダミーの秘密を組み込み、安全性と有用性の両方に焦点を当てたマルチステージアプローチを採用した。
最も効果的な攻撃
- チームWreckTheLine: 防御の隙間を突くように攻撃を適応させ、同義語を使ったり禁止ワードを避けたりした。
- チームShrug Face Shrug: 無害なクエリと特定のリクエストフォーマットを混ぜて秘密を引き出した。
- チームHestia: モデルに秘密を間接的に明かさせるようリクエストを工夫した。
学んだ教訓
競技から得られた重要なポイントは:
- 適応的攻撃: 特定の防御を考慮したカスタマイズ攻撃が必要だってこと。
- マルチターン評価: 成功した攻撃は多くの場合マルチターンのやりとりに依存してて、複雑な評価方法が求められる。
- フィルタリングの課題: 効果的なフィルタリングは難しい、シンプルなセットアップですら適応攻撃者にバイパスされることがある。
- 防御の複雑さ: 防御策はさまざまな攻撃戦略を考慮しなきゃいけない、攻撃者はちょっとした隙間も突いてくる。
結論
この競技は、プロンプトインジェクション攻撃からLLMを守るという継続的な課題を浮き彫りにした。作成されたデータセットは、言語モデルシステムのセキュリティを向上させるための今後の研究に貴重なリソースとなるだろう。
タイトル: Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition
概要: Large language model systems face important security risks from maliciously crafted messages that aim to overwrite the system's original instructions or leak private data. To study this problem, we organized a capture-the-flag competition at IEEE SaTML 2024, where the flag is a secret string in the LLM system prompt. The competition was organized in two phases. In the first phase, teams developed defenses to prevent the model from leaking the secret. During the second phase, teams were challenged to extract the secrets hidden for defenses proposed by the other teams. This report summarizes the main insights from the competition. Notably, we found that all defenses were bypassed at least once, highlighting the difficulty of designing a successful defense and the necessity for additional research to protect LLM systems. To foster future research in this direction, we compiled a dataset with over 137k multi-turn attack chats and open-sourced the platform.
著者: Edoardo Debenedetti, Javier Rando, Daniel Paleka, Silaghi Fineas Florin, Dragos Albastroiu, Niv Cohen, Yuval Lemberg, Reshmi Ghosh, Rui Wen, Ahmed Salem, Giovanni Cherubin, Santiago Zanella-Beguelin, Robin Schmid, Victor Klemm, Takahiro Miki, Chenhao Li, Stefan Kraft, Mario Fritz, Florian Tramèr, Sahar Abdelnabi, Lea Schönherr
最終更新: 2024-06-12 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.07954
ソースPDF: https://arxiv.org/pdf/2406.07954
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。