Congliang Chen

Dieser Artikel untersucht die Optimierungsherausforderungen bei Transformern und die Effektivität von Adam im Vergleich zu SGD.

2025-09-03T21:48:54+00:00 ― 6 min Lesedauer

Adam-mini reduziert den Speicherverbrauch beim Training grosser Sprachmodelle, ohne die Leistung zu beeinträchtigen.

2025-07-24T23:19:06+00:00 ― 6 min Lesedauer

Ein neuer Ansatz verbessert die Antworten von Sprachmodellen und verringert das Overfitting.

2025-06-20T07:19:00+00:00 ― 7 min Lesedauer

Ein Blick auf Bi-Level-Optimierungsmethoden und deren Einfluss auf Machine-Learning-Modelle.

2025-04-25T03:43:30+00:00 ― 5 min Lesedauer