Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能# 暗号とセキュリティ# 機械学習

言語モデルの逆学習を改善する

新しい方法が言語モデルが不要な知識を忘れるのを強化してる。

Hongbang Yuan, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

― 1 分で読む


AIメモリーコントロールのAIメモリーコントロールの強化立ち向かってる。新しい技術がAIモデルの知識保持の問題に
目次

大きな言語モデル(LLM)はいろいろな分野で進展してるけど、トレーニングデータに問題のあるコンテンツがあるせいで課題も抱えてるんだ。無意識に忘れることの目標は、こういう不要な知識の影響を減らして、好ましくない行動を減らすこと。だけど、今ある無意識に忘れさせる方法は特定の攻撃に対してあまり強くないんだ。これらの攻撃は、モデルが忘れるべきことを思い出させることさえある。

それを解決するために、Dynamic Unlearning Attack(DUA)という改良された方法が開発された。このDUAは、無意識に忘れたモデルが攻撃に対してどれだけ耐えられるかを評価するシステムなんだ。モデルの記憶に挑戦するターゲットクエリを生成することで、モデルがさまざまな状況でどう反応するかを微調整することで、弱点を明らかにして無意識に忘れさせるプロセスを改善する助けになる。

大きな言語モデルの課題

LLMは非常に強力だけど、本来持ってない情報を学んでしまうこともある。特にその情報が著作権があるものであったり、有害だったりするとね。例えば、個人情報を生成したり、著作権のあるテキストを繰り返したりすることがある。これが深刻なプライバシーの懸念を引き起こして、日常のアプリケーションでのLLMの使用を制限することにつながる。

無意識に忘れさせることの概念

この文脈での無意識に忘れさせることは、モデルの振る舞いを変えて、特定のデータに触れたことがなかったかのように振る舞わせることを意味する。ポイントは、特定の知識を消去しつつ他の能力を維持することなんだ。従来の無意識に忘れさせる方法は、特定のデータポイントを忘れることに重点を置いた再トレーニングを含むことが通常だ。

でも、これらの無意識に忘れさせる方法はもろいことがある。例えば、特定の著者のことを忘れるように訓練されたモデルでも、特定の問い方をされたら関連する質問に答えてしまうかもしれない。だから、無意識に忘れさせることは、忘れた知識が再び現れないように堅牢でなければならない。

Dynamic Unlearning Attackフレームワーク

DUAは、無意識に忘れたモデルの強さを評価するように設計されている。それは、忘れるべきだった知識を含む反応を生成するようにモデルを促すクエリを最適化する。さまざまな条件下でモデルをテストすることで、無意識に忘れさせるプロセスがどれだけうまくいくかを明らかにできる。

DUAの主な目標は、普遍的な敵対的サフィックスを作成すること。このサフィックスを質問と組み合わせることで、モデルが望ましくない情報を思い出す可能性を高めるんだ。このプロセスは、実用的で効果的な方法を確認するために、いくつかの攻撃シナリオを使って行われる。

DUAの実験

DUAの効果は、複数のモデルでテストされて、どれだけ忘れた知識を取り戻せるかが確認された。さまざまな攻撃の形態が使われた。例えば、人間が作成した静的クエリや、最適化によって生成された動的クエリなどだ。結果として、モデルは攻撃者とパラメータを共有していないときでも依然として脆弱であることが示された。

無意識に忘れさせるプロセスの強化

無意識に忘れさせる方法を改善するために、Latent Adversarial Unlearning(LAU)という新しいアプローチが導入された。このフレームワークは、無意識に忘れさせるプロセスをより強靭にする。これは2つのステージに依存している:

  1. 攻撃段階 - この段階では、モデルに加えられる特定のベクトルを訓練して、忘れた知識を取り戻すことに焦点を当てる。
  2. 防御段階 - この段階では、そのベクトルを使ってモデルの抵抗力を強化し、忘れるべきことを思い出す可能性を減らす。

LAUは、不要な知識の再発を防ぎ、モデルの全体的な耐性を改善することを目指している。

実験の結果

LAUフレームワークは、AdvGAとAdvNPOという2つの新しい方法を作成するために使用された。これらの方法は、特定のターゲット知識を無意識に忘れさせる効果を理解するために、さまざまなベンチマークに対してテストされた。結果は、両方の方法が無意識に忘れさせるプロセスを大幅に改善しつつ、モデルの一般的性能への悪影響を最小限に抑えることが示された。

無意識に忘れさせる効果の評価

無意識に忘れさせる方法のパフォーマンスを分析するために、さまざまなベンチマークが利用された。主な焦点は2つ:

  1. 無意識に忘れさせる効果 - これは、モデルが特定の知識を消去できるかどうかを確認すること。
  2. 有用性の保持 - これは、無意識に忘れさせた後もモデルが他のタスクをうまくこなせるかどうかを評価する。

無意識に忘れさせる効果が低いスコアは、ターゲット知識を忘れるパフォーマンスが良いことを示唆する。逆に、有用性の保持スコアが高いと、モデルが他のタスクをうまく実行できることを示している。

無意識に忘れさせるための技術

効果的な無意識に忘れさせるために、いくつかの損失関数が提案されている。それぞれの関数は、無意識に忘れさせた後にモデルがどのように応答を調整すべきかをガイドするための特定の目的を持っている。

勾配上昇法

この技術は、モデルが忘れセットから何を思い出すかを最大化することを目指す。これは、従来のトレーニングプロセスを逆にすることで達成される。

ネガティブプレファレンス最適化

勾配上昇法のもろさを避けるために、ネガティブプレファレンス最適化はより安定したアプローチを提供する。これは、モデルが無意識に忘れさせる際に元の状態からどの程度逸脱するかを制限する。

勾配降下法とKLダイバージェンス

これらの技術も、無意識に忘れさせた後でもアクセス可能であるべき知識を保持する文脈で使用される。忘れることと保持することのバランスを取ることで、モデルは応答パターンを適切に変更できる。

データセットとメトリクス

実験で使用された2つの主要なデータセットはRWKUとMUSEだ。それぞれのデータセットには、無意識に忘れさせる効果と有用性の保持を評価するために設計されたユニークなタスクがある。

RWKU

RWKUは、モデルがパラメータから知識を消去できるかどうかをテストするベンチマークだ。これは、無意識に忘れさせることと有用性の保持の両方を評価するために設計されたさまざまなタイプのプローブ質問を含む。

MUSE

MUSEは、無意識に忘れさせるテスト用の包括的なデータセットだ。これは、モデルが特定のアーティクルや知識の系列を忘れながら、一般的な有用性を維持できることを確保することに焦点を当てている。

Dynamic Unlearning Attackの実験

DUAは、静的および動的攻撃シナリオの両方を構築することでテストされた。静的攻撃は、個人が作成した固定クエリを利用し、動的攻撃はクエリ最適化に依存する。

静的攻撃の構築

静的攻撃では、モデルの記憶に挑戦する質問を設計した。例えば、プロンプトはモデルが忘れた知識を明示的に尋ねるのではなく、それを明らかにするように導く形で作成された。

動的攻撃プロセス

動的プロセスは、リアルタイムでクエリを形成するように設計され、攻撃者がモデルの反応に基づいてアプローチを調整できるようにした。この柔軟性によって、攻撃はより強力になり、モデルの脆弱性を浮き彫りにした。

敵対的無意識に忘れさせることの進展

LAUの導入は、無意識に忘れさせるプロセスを攻撃に対して強化できるようにする。モデルの潜在レベルで作業することで、トレーニングプロセスを過度に複雑にすることなく、無意識に忘れさせる効果を向上させている。

摂動層の影響

モデル内で摂動を適用する場所の選択は、パフォーマンスに大きな影響を与えることがある。結果は、入力に近いところで摂動を適用するとより良い結果が得られやすいことを示した。

最適化ステップの影響

最適化中に取られるステップの数も、パフォーマンスに影響を与える。ステップが少なすぎると無意識に忘れさせるのが不十分になり、多すぎるとモデルの効果が減少してしまう。

結論

要するに、大きな言語モデルにおける無意識に忘れさせることの改善に関する作業は、脆弱性を扱うための堅牢なフレームワークの開発に焦点を当てている。Dynamic Unlearning AttackとLatent Adversarial Unlearningは、モデルが不要な知識を効果的に忘れながら、全体的な能力を維持できるようにするための一歩を提供している。敵対的方法の探求が続く中、安全で効果的な機械学習アプリケーションのためのより強力な基盤を確立することが目標なんだ。

オリジナルソース

タイトル: Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models

概要: LLM have achieved success in many fields but still troubled by problematic content in the training corpora. LLM unlearning aims at reducing their influence and avoid undesirable behaviours. However, existing unlearning methods remain vulnerable to adversarial queries and the unlearned knowledge resurfaces after the manually designed attack queries. As part of a red-team effort to proactively assess the vulnerabilities of unlearned models, we design Dynamic Unlearning Attack (DUA), a dynamic and automated framework to attack these models and evaluate their robustness. It optimizes adversarial suffixes to reintroduce the unlearned knowledge in various scenarios. We find that unlearned knowledge can be recovered in $55.2\%$ of the questions, even without revealing the unlearned model's parameters. In response to this vulnerability, we propose Latent Adversarial Unlearning (LAU), a universal framework that effectively enhances the robustness of the unlearned process. It formulates the unlearning process as a min-max optimization problem and resolves it through two stages: an attack stage, where perturbation vectors are trained and added to the latent space of LLMs to recover the unlearned knowledge, and a defense stage, where previously trained perturbation vectors are used to enhance unlearned model's robustness. With our LAU framework, we obtain two robust unlearning methods, AdvGA and AdvNPO. We conduct extensive experiments across multiple unlearning benchmarks and various models, and demonstrate that they improve the unlearning effectiveness by over $53.5\%$, cause only less than a $11.6\%$ reduction in neighboring knowledge, and have almost no impact on the model's general capabilities.

著者: Hongbang Yuan, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

最終更新: 2024-08-20 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2408.10682

ソースPDF: https://arxiv.org/pdf/2408.10682

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

機械学習フェデレーティッドラーニング:データプライバシーへの新しいアプローチ

フェデレーテッドラーニングを探ってみよう。個人データを共有せずにモデルをトレーニングする方法だよ。

Kang Liu, Ziqi Wang, Enrique Zuazua

― 1 分で読む

類似の記事

機械学習フェデレーテッドクラスタリング:データプライバシーへの新しいアプローチ

フェデレーテッドクラスタリングは、データを分析しながらプライベートな情報を守るのに役立つよ。

Mirko Nardi, Lorenzo Valerio, Andrea Passarella

― 1 分で読む