人間と自動化のインタラクシ人間と自動化のインタラクションを評価するテム評価。ユーザーサポートと安全性向上のためのシスヒューマンコンピュータインタラクション人間と自動化のインタラクションをベンチマークして、より良いシステムを作る人と自動システムの相互作用を評価するためのフレームワークで、安全性と効率を向上させる。2025-07-14T19:28:18+00:00 ― 1 分で読む
AIモデルのゲームベース評AIモデルのゲームベース評価に苦労してる。言語モデルはゲームシナリオでの戦略的推論人工知能ゲームを通じて言語モデルの推論スキルを評価するいろんなゲームを使って言語モデルの推論スキルをテストしてみたけど、結構な限界が分かったよ。2025-07-14T18:48:48+00:00 ― 1 分で読む