クレシェンド攻撃は、フレンドリーな会話を使ってAIモデルを有害な出力に操る。
― 1 分で読む
最先端の科学をわかりやすく解説
クレシェンド攻撃は、フレンドリーな会話を使ってAIモデルを有害な出力に操る。
― 1 分で読む
競争は言語モデルのセキュリティにおける脆弱性と防御を明らかにする。
― 1 分で読む
言語モデルの所有権を証明するための新しいアプローチ。
― 1 分で読む
自律型言語モデルエージェントがもたらす脅威とその弱点を調べる。
― 1 分で読む