Simple Science

最先端の科学をわかりやすく解説

最先端の科学をわかりやすく解説

Shizhuo Dylan Zhang

ソフトウェア工学大規模言語モデルにおけるコード推論の評価

コードタスクに対するLLMの理解を評価するための新しいフレームワーク。

2025-09-08T08:35:48+00:00 ― 1 分で読む

人工知能科学コーディングにおける言語モデルの評価

新しいベンチマークが、複数の分野での科学的コーディングチャレンジに対して言語モデルを評価する。

2025-07-10T17:22:48+00:00 ― 1 分で読む