Simple Science

最先端の科学をわかりやすく解説

最先端の科学をわかりやすく解説

Mantas Mazeika

機械学習 WMDPベンチマークでAIリスクを対処する

新しいベンチマークがAI関連の危険を測定して軽減することを目指してるよ。

2025-09-01T08:35:24+00:00 ― 1 分で読む

機械学習オープンウェイトLLMの安全性を強化する

新しい方法がオープンウェイト言語モデルの改ざん耐性を改善する。

2025-07-03T22:14:42+00:00 ― 1 分で読む