Yingyan Celine Lin

Research on enhancing language models' efficiency using linear attention and speculative decoding.

2025-07-30T11:38:36+00:00 ― 7 min read

Exploring how attention sinks impact language model performance and introducing a calibration technique.

2025-07-25T11:02:12+00:00 ― 5 min read

A new framework improves how large language models can work on edge devices.

2025-07-25T10:54:18+00:00 ― 7 min read

A new system enhances adaptability of large language models across devices.

2025-05-22T21:38:15+00:00 ― 5 min read