Kyungjae Lee

RLRF vorstellen: ein Framework, um die Leistung von Sprachmodellen durch detailliertes Feedback zu verbessern.

2025-08-27T01:24:00+00:00 ― 6 min Lesedauer

Eine neue Methode verbessert die Sicherheit im Reinforcement Learning durch Risikomanagement.

2025-08-06T01:14:54+00:00 ― 7 min Lesedauer

Diese Studie untersucht, wie strukturierte Fragen die Antworten von LLM verbessern können.

2025-07-21T11:11:00+00:00 ― 4 min Lesedauer

Ein Blick darauf, wie verteilungsorientiertes RL die Entscheidungsfindung umgestaltet, indem es die Ergebnisverteilungen versteht.

2025-06-24T05:55:32+00:00 ― 8 min Lesedauer