Pontus Stenetorp

Introducing IrokoBench to improve LLM evaluation in African languages.

2025-08-02T00:44:12+00:00 ― 7 min read

This article examines methods to assess variance in language model evaluation benchmarks.

2025-07-28T23:26:06+00:00 ― 7 min read

This research focuses on improving methods for removing unwanted information from language models.

2025-07-24T23:42:48+00:00 ― 4 min read

This article discusses challenges in detecting hallucinations in machine translation across various languages.

2025-07-08T06:15:42+00:00 ― 5 min read

Linguini tests assess how well models reason with diverse languages.

2025-06-10T02:01:18+00:00 ― 6 min read

Are NLI tasks still relevant for testing large language models?

2025-05-14T07:05:20+00:00 ― 6 min read