Bharat Venkitesh

Une nouvelle méthode réduit la taille du cache KV tout en maintenant une bonne performance du modèle.

2025-08-17T07:17:48+00:00 ― 7 min lire

BAM améliore l'efficacité de MoE en intégrant les paramètres d'attention et de FFN.

2025-06-27T12:35:24+00:00 ― 6 min lire