Johan Ferret

Die Rolle von RLAIF beim Verbessern des Trainings von Sprachmodellen erkunden.

2025-10-01T13:32:48+00:00 ― 4 min Lesedauer

WARM will die Ausrichtung von grossen Sprachmodellen an menschlichen Werten verbessern.

2025-09-15T08:36:12+00:00 ― 6 min Lesedauer

Eine neue Methode verbessert die KI-Ausrichtung mithilfe von Echtzeit-Feedback.

2025-09-10T04:02:48+00:00 ― 5 min Lesedauer

Eine neue Methode verbessert, wie Sprachmodelle mit menschlichen Werten übereinstimmen.

2025-07-24T22:47:30+00:00 ― 7 min Lesedauer

Eine neue Methode, die die Leistung von LLM verbessert und gleichzeitig den Ressourcenverbrauch senkt.

2025-07-10T11:58:54+00:00 ― 7 min Lesedauer

Ein Rahmenwerk zur Feinabstimmung von Sprachmodellen, um mehrere Ziele in Einklang zu bringen.

2025-07-09T01:44:54+00:00 ― 6 min Lesedauer

Gemma 2 bietet hohe Leistung in kompakter Grösse für Sprachaufgaben.

2025-07-04T12:59:30+00:00 ― 6 min Lesedauer

Grosse Sprachmodelle nutzen, um Feedback im Reinforcement Learning einfacher zu machen.

2025-06-09T09:49:36+00:00 ― 6 min Lesedauer