Simple Science

Cutting edge science explained simply

Cutting edge science explained simply

Lovish Madaan

Machine Learning Measuring Variance in Language Model Benchmarks

This article examines methods to assess variance in language model evaluation benchmarks.

2025-07-28T23:26:06+00:00 ― 7 min read

Computation and Language Reassessing the Value of NLI Tasks in Evaluating LLMs

Are NLI tasks still relevant for testing large language models?

2025-05-14T07:05:20+00:00 ― 6 min read