PPTC-R:PPTC-R:LLMのロバスト性テストタスクにおけるLLMの能力を評価する。新しいベンチマークがPowerPoint計算と言語PPTC-RベンチマークでLLMを評価する新しいベンチマークが、複雑なPowerPointタスクにおけるLLMのパフォーマンスを評価する。2025-08-31T21:08:06+00:00 ― 1 分で読む
安定性ギャップを埋める安定性ギャップを埋めるを向上させるための戦略。トレーニングで言語モデルのパフォーマンス計算と言語言語モデルのパフォーマンス低下への対処大規模言語モデルの継続的な事前トレーニング中のパフォーマンス問題を管理する戦略。2025-07-26T12:58:30+00:00 ― 1 分で読む