Rafael Rafailov

MOTO verbessert das Lernen von Robotern, indem es Offline-Training mit Online-Fine-Tuning kombiniert.

2025-09-18T17:26:48+00:00 ― 6 min Lesedauer

Diese Studie bewertet Methoden, um grosse Sprachmodelle mit Nutzervorlieben zu verbessern.

2025-08-17T07:09:54+00:00 ― 6 min Lesedauer

Untersuchen von Überoptimierung in DAAs und deren Einfluss auf die Modellleistung.

2025-08-02T17:35:24+00:00 ― 8 min Lesedauer

Ein neues Modell ermöglicht es Robotern, Aufgaben besser zu lernen, indem sie visuelle und sprachliche Eingaben nutzen.

2025-07-29T08:31:12+00:00 ― 7 min Lesedauer

Eine neue Methode, um verschiedene Nutzerwerte in Sprachmodellen zu bewerten.

2025-07-07T16:18:18+00:00 ― 8 min Lesedauer