Neel Nanda

Untersuchen, wie KI das Spiel Othello interpretiert und damit interagiert.

2025-10-01T09:20:00+00:00 ― 6 min Lesedauer

Aktivierungs-Patching gibt Einblicke in die Ausgaben und Verhaltensweisen von Sprachmodellen.

2025-09-21T09:57:48+00:00 ― 5 min Lesedauer

Die Studie untersucht universelle Neuronen in GPT-2-Modellen und deren Rollen.

2025-09-15T08:28:18+00:00 ― 4 min Lesedauer

Forscher untersuchen, wie Modelle sich anpassen, wenn Komponenten entfernt werden.

2025-09-04T18:52:54+00:00 ― 6 min Lesedauer

Ein genauerer Blick auf Kausalzuweisungsmethoden für grosse Sprachmodelle.

2025-09-02T11:58:36+00:00 ― 6 min Lesedauer

Sparse Autoencoder verbessern die Verständlichkeit von KI-Systemen und deren Entscheidungsprozesse.

2025-08-11T02:07:06+00:00 ― 11 min Lesedauer

Lerne, wie Transcoder helfen, komplexe Sprachmodelle zu klären.

2025-07-27T21:14:00+00:00 ― 5 min Lesedauer

In diesem Artikel wird untersucht, wie bestimmte Neuronen die Unsicherheit bei den Vorhersagen von Sprachmodellen beeinflussen.

2025-07-25T08:47:54+00:00 ― 6 min Lesedauer

Diese Studie nutzt spärliche Autoencoder, um die Ausgaben der Attention-Schichten in Transformern zu interpretieren.

2025-07-24T13:50:18+00:00 ― 6 min Lesedauer

JumpReLU SAEs verbessern die Datenrepräsentation und halten es dabei einfach und klar.

2025-07-10T09:44:36+00:00 ― 7 min Lesedauer

Gemma Scope bietet Tools, um Sprachmodelle besser zu verstehen und die KI-Sicherheit zu verbessern.

2025-06-30T01:33:06+00:00 ― 7 min Lesedauer

Neue Metriken verbessern das Verständnis von Sparse Autoencodern in neuronalen Netzwerken.

2025-05-05T05:38:40+00:00 ― 8 min Lesedauer

BatchTopK spärliche Autoencoder verbessern die Sprachverarbeitung durch clevere Datenauswahl.

2025-03-13T09:22:29+00:00 ― 5 min Lesedauer