研究によると、WordGame攻撃が明らかになり、LLMの安全対策の弱点を突いているんだって。
― 1 分で読む
最先端の科学をわかりやすく解説
研究によると、WordGame攻撃が明らかになり、LLMの安全対策の弱点を突いているんだって。
― 1 分で読む
新しい方法で言語モデルの出力を理解するのが上手くなった。
― 1 分で読む
言語モデルにおける自己修正プロセスとその影響を探る。
― 1 分で読む
新しい方法で、クリーンデータやモデルの変更なしにバックドア攻撃ができるようになった。
― 1 分で読む