Neel Nanda

Examinando cómo la IA interpreta e interactúa con el juego Othello.

2025-10-01T09:20:00+00:00 ― 7 minilectura

El parcheo de activación revela información sobre las salidas y comportamientos de los modelos de lenguaje.

2025-09-21T09:57:48+00:00 ― 5 minilectura

El estudio investiga neuronas universales en los modelos GPT-2 y sus roles.

2025-09-15T08:28:18+00:00 ― 5 minilectura

Los investigadores investigan cómo los modelos se adaptan cuando se quitan componentes.

2025-09-04T18:52:54+00:00 ― 7 minilectura

Una mirada más cercana a los métodos de atribución causal para modelos de lenguaje grandes.

2025-09-02T11:58:36+00:00 ― 7 minilectura

Los autoencoders dispersos mejoran la interpretabilidad de los sistemas de IA y sus procesos de toma de decisiones.

2025-08-11T02:07:06+00:00 ― 13 minilectura

Aprende cómo los transcodificadores ayudan a aclarar modelos de lenguaje complejos.

2025-07-27T21:14:00+00:00 ― 6 minilectura

Este artículo examina cómo ciertas neuronas afectan la incertidumbre en las predicciones de modelos de lenguaje.

2025-07-25T08:47:54+00:00 ― 7 minilectura

Este estudio usa autoencoders dispersos para interpretar las salidas de la capa de atención en los transformers.

2025-07-24T13:50:18+00:00 ― 7 minilectura

JumpReLU SAEs mejoran la representación de datos manteniéndolo simple y claro.

2025-07-10T09:44:36+00:00 ― 8 minilectura

Gemma Scope ofrece herramientas para entender mejor los modelos de lenguaje y mejorar la seguridad de la IA.

2025-06-30T01:33:06+00:00 ― 7 minilectura

N nuevas métricas mejoran la comprensión de los Autoencoders Dispersos en redes neuronales.

2025-05-05T05:38:40+00:00 ― 9 minilectura

Los autoencoders dispersos BatchTopK mejoran el procesamiento del lenguaje a través de una selección inteligente de datos.

2025-03-13T09:22:29+00:00 ― 5 minilectura