Diese Studie nutzt spärliche Autoencoder, um die Ausgaben der Attention-Schichten in Transformern zu interpretieren.
― 6 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Diese Studie nutzt spärliche Autoencoder, um die Ausgaben der Attention-Schichten in Transformern zu interpretieren.
― 6 min Lesedauer
JumpReLU SAEs verbessern die Datenrepräsentation und halten es dabei einfach und klar.
― 7 min Lesedauer
Gemma Scope bietet Tools, um Sprachmodelle besser zu verstehen und die KI-Sicherheit zu verbessern.
― 7 min Lesedauer
Eine Methode zur Verbesserung der Effektivität von Steering-Vektoren in Sprachmodellen.
― 5 min Lesedauer