Questo studio usa autoencoder sparsi per interpretare i risultati degli strati di attenzione nei transformer.
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Questo studio usa autoencoder sparsi per interpretare i risultati degli strati di attenzione nei transformer.
― 6 leggere min
I JumpReLU SAEs migliorano la rappresentazione dei dati mantenendola semplice e chiara.
― 7 leggere min
Gemma Scope offre strumenti per capire meglio i modelli di linguaggio e migliorare la sicurezza dell'IA.
― 6 leggere min
Un metodo per migliorare l'efficacia dei vettori di steering nei modelli linguistici.
― 5 leggere min