Simple Science

Cutting edge science explained simply

Cutting edge science explained simply

Haoyang Ling

Computation and Language New Benchmark for Evaluating MLLMs' Reasoning Skills

NPHardEval4V assesses reasoning capabilities of multimodal large language models.

2025-09-01T13:19:48+00:00 ― 7 min read