Chuheng Zhang

Eine neue Methode verbessert die Effektivität und Verständlichkeit von Prompt-Tuning.

2025-07-10T14:52:42+00:00 ― 9 min Lesedauer

PF-PPO verbessert Sprachmodelle, indem es unzuverlässige Belohnungen filtert, um bessere Code-Antworten zu liefern.

2025-06-14T14:15:06+00:00 ― 5 min Lesedauer