Neel Nanda

アクティベーションパッチングは、言語モデルの出力や挙動に関する洞察を明らかにするよ。

2025-09-21T09:57:48+00:00 ― 1 分で読む

この研究はGPT-2モデルのユニバーサルニューロンとその役割を調査してるよ。

2025-09-15T08:28:18+00:00 ― 1 分で読む

研究者たちは、コンポーネントが取り除かれたときにモデルがどのように適応するかを調査している。

2025-09-04T18:52:54+00:00 ― 0 分で読む

大規模言語モデルの因果帰属手法をじっくり見てみよう。

2025-09-02T11:58:36+00:00 ― 1 分で読む

スパースオートエンコーダーは、AIシステムの解釈可能性や意思決定プロセスを向上させるんだ。

2025-08-11T02:07:06+00:00 ― 1 分で読む

トランスコーダーが複雑な言語モデルを明確にするのにどう役立つか学ぼう。

2025-07-27T21:14:00+00:00 ― 1 分で読む

この記事では、特定のニューロンが言語モデルの予測における不確実性にどのように影響するかを調べているよ。

2025-07-25T08:47:54+00:00 ― 1 分で読む

この研究では、スパースオートエンコーダーを使ってトランスフォーマーのアテンションレイヤーの出力を解釈してるんだ。

2025-07-24T13:50:18+00:00 ― 1 分で読む

JumpReLU SAEは、データ表現を向上させつつ、シンプルでわかりやすく保つんだ。

2025-07-10T09:44:36+00:00 ― 1 分で読む

Gemma Scopeは、言語モデルをよりよく理解するためのツールとAIの安全性向上のためのツールを提供してるよ。

2025-06-30T01:33:06+00:00 ― 1 分で読む

新しい指標がニューラルネットワークのスパースオートエンコーダーの理解を深めるよ。

2025-05-05T05:38:40+00:00 ― 1 分で読む

BatchTopKスパースオートエンコーダーは、賢いデータ選択を通じて言語処理を改善するよ。

2025-03-13T09:22:29+00:00 ― 1 分で読む