Arthur Conmy

Diese Studie nutzt spärliche Autoencoder, um die Ausgaben der Attention-Schichten in Transformern zu interpretieren.

2025-07-24T13:50:18+00:00 ― 6 min Lesedauer

JumpReLU SAEs verbessern die Datenrepräsentation und halten es dabei einfach und klar.

2025-07-10T09:44:36+00:00 ― 7 min Lesedauer

Gemma Scope bietet Tools, um Sprachmodelle besser zu verstehen und die KI-Sicherheit zu verbessern.

2025-06-30T01:33:06+00:00 ― 7 min Lesedauer

Eine Methode zur Verbesserung der Effektivität von Steering-Vektoren in Sprachmodellen.

2025-05-31T10:57:27+00:00 ― 5 min Lesedauer