Neel Nanda

A ativação de patching mostra insights sobre as saídas e comportamentos dos modelos de linguagem.

2025-09-21T09:57:48+00:00 ― 5 min ler

O estudo investiga neurônios universais nos modelos GPT-2 e seus papéis.

2025-09-15T08:28:18+00:00 ― 5 min ler

Pesquisadores investigam como os modelos se adaptam quando componentes são removidos.

2025-09-04T18:52:54+00:00 ― 7 min ler

Um olhar mais de perto sobre métodos de atribuição causal para modelos de linguagem grandes.

2025-09-02T11:58:36+00:00 ― 7 min ler

Autoencoders esparsos melhoram a interpretabilidade dos sistemas de IA e dos processos de tomada de decisão deles.

2025-08-11T02:07:06+00:00 ― 12 min ler

Aprenda como os transcodificadores ajudam a esclarecer modelos de linguagem complexos.

2025-07-27T21:14:00+00:00 ― 6 min ler

Esse artigo analisa como certos neurônios afetam a incerteza nas previsões de modelos de linguagem.

2025-07-25T08:47:54+00:00 ― 7 min ler

Esse estudo usa autoencoders esparsos pra interpretar as saídas da camada de atenção em transformers.

2025-07-24T13:50:18+00:00 ― 7 min ler

JumpReLU SAEs melhoram a representação dos dados mantendo tudo simples e claro.

2025-07-10T09:44:36+00:00 ― 8 min ler

Gemma Scope oferece ferramentas pra entender melhor os modelos de linguagem e melhorar a segurança da IA.

2025-06-30T01:33:06+00:00 ― 7 min ler

Novas métricas melhoram a compreensão dos Autoencoders Esparsos em redes neurais.

2025-05-05T05:38:40+00:00 ― 9 min ler

Os autoencoders esparsos BatchTopK melhoram o processamento de linguagem através de uma seleção inteligente de dados.

2025-03-13T09:22:29+00:00 ― 5 min ler