Une méthode pour améliorer l'efficacité des modèles de Mixture of Experts.
― 6 min lire
La science de pointe expliquée simplement
Une méthode pour améliorer l'efficacité des modèles de Mixture of Experts.
― 6 min lire
Apprends à améliorer l'efficacité des modèles transformer avec un design optimisé pour le GPU.
― 7 min lire
BlackMamba combine des modèles d'état et un mélange d'experts pour des tâches de langue efficaces.
― 8 min lire
Analyse des modèles GPT-NeoX et LLaMA pour des applications dans les sciences des matériaux.
― 10 min lire
Zamba est un modèle de langage hybride qui combine des architectures d'espace d'état et de transformateur.
― 8 min lire
Zyda, un jeu de données avec 1,3 trillion de tokens, améliore l'entraînement des modèles de langue.
― 8 min lire
L'attention par arbre améliore l'efficacité dans le traitement de longues séquences pour les modèles d'apprentissage automatique.
― 6 min lire
Une étude sur l'amélioration du partage de données dans l'entraînement des modèles de transformateurs.
― 6 min lire
De nouvelles techniques de compression accélèrent l'entraînement des gros modèles de langue tout en gardant la précision.
― 7 min lire
Les jeux de données RedPajama visent à améliorer la formation des modèles de langage grâce à la transparence et à des données de qualité.
― 7 min lire