Da Xiao

Dynamisch zusammensetzbare Multi-Head-Attention verbessert die Effizienz und Flexibilität von Transformern.

2025-08-11T00:56:00+00:00 ― 8 min Lesedauer

Erforschen, wie Sprachmodelle mit Denkaufgaben umgehen durch generalisierte assoziative Erinnerung.

2025-02-23T17:59:06+00:00 ― 8 min Lesedauer