Yushun Zhang

Dieser Artikel untersucht die Optimierungsherausforderungen bei Transformern und die Effektivität von Adam im Vergleich zu SGD.

2025-09-03T21:48:54+00:00 ― 6 min Lesedauer

Adam-mini reduziert den Speicherverbrauch beim Training grosser Sprachmodelle, ohne die Leistung zu beeinträchtigen.

2025-07-24T23:19:06+00:00 ― 6 min Lesedauer

MoFO hilft grossen Sprachmodellen, Wissen während des Fine-Tunings zu behalten, ohne an Leistung zu verlieren.

2025-07-05T01:30:00+00:00 ― 5 min Lesedauer

Entdecke effiziente Algorithmus-Leistung unter strengen Zeitlimits.

2025-01-20T09:15:40+00:00 ― 7 min Lesedauer