Yuhong Li

Une nouvelle méthode accélère la génération de texte par LLM en utilisant des têtes de prédiction supplémentaires.

2025-09-15T18:05:00+00:00 ― 5 min lire

Une nouvelle méthode réduit la taille du cache KV tout en maintenant une bonne performance du modèle.

2025-08-17T07:17:48+00:00 ― 7 min lire

Cet article parle des récents développements pour améliorer l'efficacité des grands modèles de langage.

2025-07-28T05:08:00+00:00 ― 8 min lire