脱獄攻撃が暴露された脱獄攻撃が暴露されたることを明らかにした。研究が言語モデルの安全性に深刻な欠陥があ暗号とセキュリティ言語モデルへの脱獄攻撃:増大する脅威脱獄攻撃の調査は、言語モデルの安全性に弱点があることを示してるね。2025-09-09T19:37:12+00:00 ― 1 分で読む
画像安全ツールの評価画像安全ツールの評価ンツに対する効果を分析する。新しいフレームワークが分類器の有害コンテ暗号とセキュリティUnsafeBenchで画像安全性分類器を評価する新しいフレームワークは、悪影響のあるコンテンツに対する画像安全分類器の効果を評価する。2025-08-13T09:48:48+00:00 ― 1 分で読む