Quentin Anthony

Impara come migliorare l'efficienza del modello transformer con un design adatto alle GPU.

2025-09-14T12:03:48+00:00 ― 5 leggere min

BlackMamba combina modelli di stato-spazio e miscele di esperti per compiti linguistici efficienti.

2025-09-12T17:55:48+00:00 ― 7 leggere min

Analizzando i modelli GPT-NeoX e LLaMA per applicazioni nella scienza dei materiali.

2025-09-12T12:08:12+00:00 ― 8 leggere min

Zamba è un modello di linguaggio ibrido che combina architetture a stato spaziale e transformer.

2025-08-06T22:42:36+00:00 ― 6 leggere min

Zyda, un dataset con 1,3 trilioni di token, migliora l'addestramento dei modelli di linguaggio.

2025-08-02T07:50:48+00:00 ― 6 leggere min

L'attenzione ad albero migliora l'efficienza nel processamento di lunghe sequenze per i modelli di machine learning.

2025-07-01T04:01:00+00:00 ― 5 leggere min

Uno studio su come migliorare la condivisione dei dati nell'addestramento dei modelli transformer.

2025-06-25T22:08:36+00:00 ― 5 leggere min

Nuove tecniche di compressione accelerano l'addestramento per grandi modelli di linguaggio mantenendo la precisione.

2025-06-16T23:07:54+00:00 ― 5 leggere min

I dataset RedPajama puntano a migliorare l'addestramento dei modelli linguistici attraverso trasparenza e dati di qualità.

2025-05-17T21:13:20+00:00 ― 6 leggere min