この研究では、スパースオートエンコーダーを使ってトランスフォーマーのアテンションレイヤーの出力を解釈してるんだ。
― 1 分で読む
最先端の科学をわかりやすく解説
この研究では、スパースオートエンコーダーを使ってトランスフォーマーのアテンションレイヤーの出力を解釈してるんだ。
― 1 分で読む
JumpReLU SAEは、データ表現を向上させつつ、シンプルでわかりやすく保つんだ。
― 1 分で読む
Gemma Scopeは、言語モデルをよりよく理解するためのツールとAIの安全性向上のためのツールを提供してるよ。
― 1 分で読む
言語モデルでのステアリングベクターの効果を向上させる方法。
― 1 分で読む