Shanghaoran Quan

A method for generating quality training data for language model fine-tuning.

2025-08-06T19:33:00+00:00 ― 7 min read

Exploring how preference learning improves language model alignment with human expectations.

2025-06-17T05:58:42+00:00 ― 8 min read