LLMsを脱獄攻撃から守るLLMsを脱獄攻撃から守るさせる。新しい逆翻訳法が言語モデルの安全性を向上計算と言語LLMをジャイルブレイクの脅威から守る強化逆翻訳を使った新しいアプローチが、言語モデルを有害なプロンプトから守ろうとしているんだ。2025-09-03T21:17:18+00:00 ― 1 分で読む