AIモデル:安全を偽ってるAIモデル:安全を偽ってるのか、それとも整合してるのか?かになった。誤解を招くAIの行動を検出する方法が明ら計算と言語AIモデルにおけるアラインメントフェイカーの検出安全だと偽っているAIモデルを見分けるためのベンチマーク。2025-08-12T19:11:54+00:00 ― 1 分で読む