Archit Sharma

Eine neue Methode verbessert die Roboterleistung, indem sie Wegpunkte im Imitationslernen nutzt.

2025-10-15T11:35:06+00:00 ― 7 min Lesedauer

Vorstellung von SERL: Ein neues Framework für effiziente Robotik-Lernaufgaben.

2025-09-13T13:48:42+00:00 ― 7 min Lesedauer

Dieser Artikel bespricht eine Methode, um LLMs mit verbalem Feedback zu verbessern, ohne zu übergeneralieren.

2025-09-07T11:16:00+00:00 ― 11 min Lesedauer

Eine Studie zur Effektivität von RLAIF im Vergleich zu überwachten Feinabstimmungen für Sprachmodelle.

2025-09-06T15:07:18+00:00 ― 9 min Lesedauer

Roboter lernen, sich anzupassen und Aufgaben in verschiedenen Bereichen zu erledigen.

2025-08-27T22:43:48+00:00 ― 7 min Lesedauer

Roboter lernen, sich anzupassen und besser zu werden, indem sie direktes Feedback von Menschen bekommen.

2025-08-27T22:28:00+00:00 ― 7 min Lesedauer

Ein neues Framework hilft Sprachmodellen, aus Fehlern bei der Problemlösung zu lernen.

2025-08-23T19:58:48+00:00 ― 8 min Lesedauer

Diese Studie bewertet Methoden, um grosse Sprachmodelle mit Nutzervorlieben zu verbessern.

2025-08-17T07:09:54+00:00 ― 6 min Lesedauer

Dieser Artikel untersucht wichtige Faktoren zur Qualität von Präferenzdatensätzen für ein besseres Training von Belohnungsmodellen.

2025-06-12T06:17:36+00:00 ― 7 min Lesedauer

Entdecke, wie policy-agnostisches Verstärkungslernen die Maschinenentscheidungen verändert.

2025-03-29T14:06:54+00:00 ― 7 min Lesedauer