Dieuwke Hupkes

Dieser Artikel beschäftigt sich mit Methoden zur Bewertung der Varianz in den Evaluierungsbenchmarks von Sprachmodellen.

2025-07-28T23:26:06+00:00 ― 8 min Lesedauer

Eine Studie über die Nutzung von LLMs, um andere LLMs zu bewerten und die Auswirkungen davon.

2025-07-27T04:30:42+00:00 ― 7 min Lesedauer

Datenkontamination beeinflusst die Leistung von Sprachmodellen und Bewertungsmethoden.

2025-05-29T09:48:09+00:00 ― 6 min Lesedauer

Sind NLI-Aufgaben immer noch relevant, um grosse Sprachmodelle zu testen?

2025-05-14T07:05:20+00:00 ― 7 min Lesedauer