Simple Science

最先端の科学をわかりやすく解説

最先端の科学をわかりやすく解説

Tianrong Zhang

機械学習新しい攻撃戦略がLLMの安全性にリスクをもたらす

研究によると、WordGame攻撃が明らかになり、LLMの安全対策の弱点を突いているんだって。

2025-08-09T04:17:54+00:00 ― 1 分で読む

計算と言語 NLPモデルにおけるバックドア攻撃への対処

PromptFixみたいな新しい方法は、隠れた脅威から言語モデルを守るのに役立つよ。

2025-08-01T15:47:00+00:00 ― 1 分で読む