Quentin Anthony

Une méthode pour améliorer l'efficacité des modèles de Mixture of Experts.

2025-09-16T16:43:48+00:00 ― 6 min lire

Apprends à améliorer l'efficacité des modèles transformer avec un design optimisé pour le GPU.

2025-09-14T12:03:48+00:00 ― 7 min lire

BlackMamba combine des modèles d'état et un mélange d'experts pour des tâches de langue efficaces.

2025-09-12T17:55:48+00:00 ― 8 min lire

Analyse des modèles GPT-NeoX et LLaMA pour des applications dans les sciences des matériaux.

2025-09-12T12:08:12+00:00 ― 10 min lire

Zamba est un modèle de langage hybride qui combine des architectures d'espace d'état et de transformateur.

2025-08-06T22:42:36+00:00 ― 8 min lire

Zyda, un jeu de données avec 1,3 trillion de tokens, améliore l'entraînement des modèles de langue.

2025-08-02T07:50:48+00:00 ― 8 min lire

L'attention par arbre améliore l'efficacité dans le traitement de longues séquences pour les modèles d'apprentissage automatique.

2025-07-01T04:01:00+00:00 ― 6 min lire

Une étude sur l'amélioration du partage de données dans l'entraînement des modèles de transformateurs.

2025-06-25T22:08:36+00:00 ― 6 min lire

De nouvelles techniques de compression accélèrent l'entraînement des gros modèles de langue tout en gardant la précision.

2025-06-16T23:07:54+00:00 ― 7 min lire

Les jeux de données RedPajama visent à améliorer la formation des modèles de langage grâce à la transparence et à des données de qualité.

2025-05-17T21:13:20+00:00 ― 7 min lire