Deming Chen

A new method speeds up LLM text generation using additional prediction heads.

2025-09-15T18:05:00+00:00 ― 4 min read

A new approach enhances federated learning by addressing slow clients effectively.

2025-09-13T01:18:12+00:00 ― 8 min read

A new method reduces KV cache size while maintaining high model performance.

2025-08-17T07:17:48+00:00 ― 5 min read

This article discusses recent developments to improve efficiency in Large Language Models.

2025-07-28T05:08:00+00:00 ― 6 min read