データタスクのためのLLMデータタスクのためのLLM評価フレームワークキルを評価するよ。新しいベンチマークがLLMのコード解釈ス計算と言語データサイエンスのタスクにおけるコードインタープリターを使ったLLMの評価コードインタープリタを使ってデータ関連のタスクにおけるLLMの能力を評価するためのフレームワーク。2025-07-13T01:20:18+00:00 ― 1 分で読む