Kaijie Zhu

Eine neue Methode bringt Modellrobustheit und Verallgemeinerung bei kniffligen Eingaben in Einklang.

2025-10-13T16:16:00+00:00 ― 5 min Lesedauer

Eine frische Herangehensweise, um grosse Sprachmodelle effektiv zu bewerten.

2025-09-05T09:14:00+00:00 ― 7 min Lesedauer

NPHardEval4V bewertet die Denkfähigkeiten von multimodalen grossen Sprachmodellen.

2025-09-01T13:19:48+00:00 ― 8 min Lesedauer

Diese Studie untersucht, wie LLMs mit dem Reasoning in abstrakten und kontextuellen Szenarien umgehen.

2025-08-02T16:24:18+00:00 ― 5 min Lesedauer

Die Probleme und möglichen Verbesserungen im akademischen Peer-Review untersuchen.

2025-07-27T05:49:42+00:00 ― 8 min Lesedauer