クラシックゲームでテストさクラシックゲームでテストされたLLMみを明らかにした。新しいベンチマークが言語モデルの強みと弱人工知能クラシックゲームを通じた言語モデルのベンチマーキンググリッドベースのゲーム、例えば三目並べや四目並べを使ってLLMの能力を評価する。2025-07-15T22:27:48+00:00 ― 1 分で読む