Impara come migliorare l'efficienza del modello transformer con un design adatto alle GPU.
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
Impara come migliorare l'efficienza del modello transformer con un design adatto alle GPU.
― 5 leggere min
BlackMamba combina modelli di stato-spazio e miscele di esperti per compiti linguistici efficienti.
― 7 leggere min
Analizzando i modelli GPT-NeoX e LLaMA per applicazioni nella scienza dei materiali.
― 8 leggere min
Zamba è un modello di linguaggio ibrido che combina architetture a stato spaziale e transformer.
― 6 leggere min
Zyda, un dataset con 1,3 trilioni di token, migliora l'addestramento dei modelli di linguaggio.
― 6 leggere min
L'attenzione ad albero migliora l'efficienza nel processamento di lunghe sequenze per i modelli di machine learning.
― 5 leggere min
Uno studio su come migliorare la condivisione dei dati nell'addestramento dei modelli transformer.
― 5 leggere min
Nuove tecniche di compressione accelerano l'addestramento per grandi modelli di linguaggio mantenendo la precisione.
― 5 leggere min
I dataset RedPajama puntano a migliorare l'addestramento dei modelli linguistici attraverso trasparenza e dati di qualità.
― 6 leggere min