言語モデルの操作と戦う言語モデルの操作と戦うAIの安全性における攻撃と防御を調査中。機械学習大規模言語モデルのリスクに対処するリバースプリファレンス攻撃とそのモデルの安全性への影響を探る。2025-06-09T11:08:36+00:00 ― 1 分で読む